登录
下载
Skill UI
浏览并发现
9191+
精选技能
全部
编程开发
人工智能
设计创意
产品商业
数据科学
市场营销
职场通用
效率工具
硬件工程
语言学习
搜索
压缩
,共找到
15
条记录
默认排序
最新上传
最多下载
AWQ 激活感知权重量化
awq-quantization
Orchestra-Research/AI-Research-SKILLs
376
AWQ 利用激活感知权重保护技术,将 7B-70B 模型压缩到 4-bit,在受限显存上保持精度并提升近 3 倍推理速度,可配合 vLLM、Marlin 等加速后端部署大模型。
查看详情
AI智能体上下文压缩
context-compression
sickn33/antigravity-awesome-skills
376
针对AI智能体在处理超长对话历史(数百万Tokens)时遇到的上下文窗口限制问题。本技能提供先进的上下文压缩策略,核心在于通过结构化摘要(如明确记录“文件修改”、“决策点”等模块)来防止关键技术信息丢失。它强调的优化目标是“任务完成所需的总Token量”,而非单纯的请求Token量,确保智能体在复杂任务链中能保持完整状态和准确的知识追踪。
查看详情
上下文优化策略
context-optimization
sickn33/antigravity-awesome-skills
293
本技能提供了一套高级的LLM上下文管理框架,旨在提升有限上下文窗口的有效容量。它涵盖了压缩、观测屏蔽、KV缓存优化和上下文分区等四种核心技术。通过优化Token使用,可以有效解决上下文限制问题,帮助构建成本更低、延迟更小、能处理大规模文档和复杂任务的生产级AI Agent系统。
查看详情
GGUF量化:高效大模型推理
gguf-quantization
Orchestra-Research/AI-Research-SKILLs
429
本指南深入介绍GGUF格式和模型量化技术,旨在实现大语言模型(LLM)在消费级硬件上的高效推理。通过采用GGUF标准格式和K-quant方法进行模型压缩,可以显著降低内存和硬件要求,使开发者能够在Apple Silicon、CPU或边缘设备上部署高性能AI应用。
查看详情
GPTQ LLM 量化指南
gptq
Orchestra-Research/AI-Research-SKILLs
277
GPTQ 提供后训练 4 位量化,可在 RTX 4090/3090 等消费级 GPU 上将大模型压缩至 1/4 内存并加速推理,同时维持低于 2% 的困惑度损失,适合部署和 QLoRA 微调。
查看详情
知识蒸馏:大模型压缩
knowledge-distillation
Orchestra-Research/AI-Research-SKILLs
337
知识蒸馏(KD)是一种核心的AI模型压缩技术。它旨在将性能强大的大型语言模型(Teacher)的知识,高效地转移给更小、更易于部署的学生模型(Student)。这使得开发者能够在不损失关键性能的前提下,大幅降低推理成本,实现将前沿大模型能力落地到实际应用场景。
查看详情
LLM模型剪枝实用指南
model-pruning
Orchestra-Research/AI-Research-SKILLs
437
通过 Wanda、SparseGPT 与 N:M 结构化剪枝,快速压缩大语言模型,提升稀疏度与推理速度,无需再训练即可部署在移动或边缘硬件。
查看详情
LLM提示优化
optimizing-prompts
jeremylongshore/claude-code-plugins-plus-skills
99
分析并简化提示词,减少冗余、压缩字数、提升指令明确性,让使用大模型时成本更低、响应更快、输出更清晰,适合希望优化提示以控制费用或提升效果的场景。
查看详情
机器学习训练数据安全管理
vastai-data-handling
jeremylongshore/claude-code-plugins-plus-skills
158
本指南提供了在云端GPU实例(如Vast.ai)上安全管理训练数据和模型工件的完整流程。它涵盖了数据传输(SCP、压缩、云存储)、AES-256加密实现、模型检查点到S3的持久化,以及实例销毁前的安全数据清理,确保了整个机器学习项目的合规性和数据完整性。
查看详情
增强AI智能体上下文与记忆
recallmax
sickn33/antigravity-awesome-skills
333
RecallMax是一款高级记忆增强工具,可为AI智能体提供高达500K-1M的外部上下文记忆。它能自动总结冗长的对话历史,同时精确保留语气、意图和关键事实。通过历史压缩和内置的事实核查机制,确保AI在长时间交互或处理大量外部文档时不会丢失关键信息。
查看详情
LLM成本优化与架构设计
llm-cost-optimizer
alirezarezvani/claude-skills
446
提供专业的LLM成本优化框架,帮助开发者通过模型路由、提示词缓存、输出长度控制和压缩等技术,系统性地降低AI API支出(可达40-80%)。旨在确保在成本受到严格控制的前提下,维持高质量、可扩展的AI功能。
查看详情
极简模式:超压缩沟通
caveman
JuliusBrussee/caveman
310
该模式提供超压缩的沟通方式,可大幅减少Token使用量(最高可达75%),同时保持完全的技术准确性。它模拟了一种极度精简、电报式的表达风格。用户可选择不同强度级别(如lite, full, ultra),以适应不同场景对精简程度的要求,特别适用于API交互或需要严格控制Token预算的场景。
查看详情
1
2
下一页
语言
简体中文
English