下载

Skill UI

浏览并发现 9688+ 精选技能

全部编程开发人工智能设计创意产品商业数据科学市场营销职场通用效率工具硬件工程语言学习

搜索模型压缩，共找到 12 条记录

默认排序最新上传最多下载

AWQ 激活感知权重量化

awq-quantization

Orchestra-Research/AI-Research-SKILLs

AWQ 利用激活感知权重保护技术，将 7B-70B 模型压缩到 4-bit，在受限显存上保持精度并提升近 3 倍推理速度，可配合 vLLM、Marlin 等加速后端部署大模型。

Azure Monitor 日志摄取Python SDK

azure-monitor-ingestion-py

sickn33/antigravity-awesome-skills

这是一个用于Python的SDK，专门用于将自定义日志安全地发送到Azure Monitor Log Analytics工作区。它通过Logs Ingestion API实现日志摄取，支持批量压缩、错误处理、异步上传，并兼容多种身份验证模型，是构建云监控和日志分析系统的关键组件。

GGUF量化：高效大模型推理

gguf-quantization

Orchestra-Research/AI-Research-SKILLs

本指南深入介绍GGUF格式和模型量化技术，旨在实现大语言模型（LLM）在消费级硬件上的高效推理。通过采用GGUF标准格式和K-quant方法进行模型压缩，可以显著降低内存和硬件要求，使开发者能够在Apple Silicon、CPU或边缘设备上部署高性能AI应用。

GPTQ LLM 量化指南

Orchestra-Research/AI-Research-SKILLs

GPTQ 提供后训练 4 位量化，可在 RTX 4090/3090 等消费级 GPU 上将大模型压缩至 1/4 内存并加速推理，同时维持低于 2% 的困惑度损失，适合部署和 QLoRA 微调。

知识蒸馏：大模型压缩

knowledge-distillation

Orchestra-Research/AI-Research-SKILLs

知识蒸馏（KD）是一种核心的AI模型压缩技术。它旨在将性能强大的大型语言模型（Teacher）的知识，高效地转移给更小、更易于部署的学生模型（Student）。这使得开发者能够在不损失关键性能的前提下，大幅降低推理成本，实现将前沿大模型能力落地到实际应用场景。

LangChain API成本优化指南

langchain-cost-tuning

jeremylongshore/claude-code-plugins-plus-skills

本指南提供了一套完整的LangChain LLM API成本优化策略。通过实现令牌使用追踪、根据任务复杂度分级路由模型、利用缓存机制消除重复调用、进行提示词压缩，以及强制执行预算限制，帮助开发者在保证应用质量的同时，显著降低运行成本。

LLM模型剪枝实用指南

Orchestra-Research/AI-Research-SKILLs

通过 Wanda、SparseGPT 与 N:M 结构化剪枝，快速压缩大语言模型，提升稀疏度与推理速度，无需再训练即可部署在移动或边缘硬件。

LLM提示优化

optimizing-prompts

jeremylongshore/claude-code-plugins-plus-skills

分析并简化提示词，减少冗余、压缩字数、提升指令明确性，让使用大模型时成本更低、响应更快、输出更清晰，适合希望优化提示以控制费用或提升效果的场景。

机器学习训练数据安全管理

vastai-data-handling

jeremylongshore/claude-code-plugins-plus-skills

本指南提供了在云端GPU实例（如Vast.ai）上安全管理训练数据和模型工件的完整流程。它涵盖了数据传输（SCP、压缩、云存储）、AES-256加密实现、模型检查点到S3的持久化，以及实例销毁前的安全数据清理，确保了整个机器学习项目的合规性和数据完整性。

LLM成本优化与架构设计

llm-cost-optimizer

alirezarezvani/claude-skills

提供专业的LLM成本优化框架，帮助开发者通过模型路由、提示词缓存、输出长度控制和压缩等技术，系统性地降低AI API支出（可达40-80%）。旨在确保在成本受到严格控制的前提下，维持高质量、可扩展的AI功能。

自然语言记忆文件压缩

caveman-compress

JuliusBrussee/caveman

该工具用于压缩自然语言格式的记忆笔记和文档，以减少输入模型的Token量。它能高效地移除文章冠词、冗余词汇和口语化的表达，同时严格保留代码块、URL、文件路径和技术术语等所有关键信息，确保内容技术准确性，从而提升AI处理效率。

Cohere API性能调优指南

cohere-performance-tuning

jeremylongshore/claude-code-plugins-plus-skills

本指南提供全面的Cohere API v2性能优化策略。旨在帮助用户优化Chat、Embed和Rerank等核心API的使用效率，显著提高API吞吐量、降低延迟和管理成本。核心技术包括根据延迟预算选择最佳模型、实现流式传输（Streaming）以提升用户体验、高效批量嵌入（Batching）处理、向量压缩以及部署缓存机制。

1

语言