下载

Skill UI

浏览并发现 5998+ 精选技能

全部编程开发人工智能设计创意产品商业数据科学市场营销职场通用效率工具硬件工程语言学习

搜索量化，共找到 14 条记录

默认排序最新上传最多下载

激活感知权重量化

awq-quantization

Orchestra-Research/AI-Research-SKILLs

AWQ 通过激活感知的 4-bit 权重量化，在有限 GPU 内存、使用 vLLM 或 Marlin 内核时，为指令调优或多模态大模型提供约 3 倍推理加速且误差低于 5%。

LLM 微调专家指南

fine-tuning-expert

Jeffallan/claude-skills

面向大语言模型的实战微调流程，涵盖数据集准备、LoRA/QLoRA/PEFT 适配器配置、超参设置、训练监控、评估对比及量化部署等生产级步骤。

GPTQ 大模型量化

Orchestra-Research/AI-Research-SKILLs

通过 GPTQ 的组束量化将大模型压缩到 4bit，在 RTX 4090/3090 等消费级 GPU 上实现 4 倍内存缩减、快速推理和 PEFT+QLoRA 兼容，便于部署与微调。

半二次量化模型

hqq-quantization

Orchestra-Research/AI-Research-SKILLs

HQQ 提供无需校准数据的半二次量化，支持 1-8 位、可配置多个推理后端（PyTorch、TorchAO、BitBlas、Marlin），适合极速量化流程、零数据部署及 HuggingFace/vLLM 上的 PEFT/LoRA 微调。

Llama.cpp CPU 推理

Orchestra-Research/AI-Research-SKILLs

使用 llama.cpp 可在 CPU、Apple Silicon 以及 AMD/Intel GPU 等非 NVIDIA 环境上本地运行 LLM 推理，适合边缘设备和 CUDA 不可用的场景，通过 GGUF 量化实现更低内存与更快速度。

Mistral SDK 实践模式

mistral-sdk-patterns

jeremylongshore/claude-code-plugins-plus-skills

面向 TypeScript 与 Python 的 Mistral SDK 生产级模式，涵盖客户端初始化、对话、流式输出、函数调用、向量化及常见错误处理，适用于集成改造与团队标准化。

模型量化部署助手

model-quantization-tool

jeremylongshore/claude-code-plugins-plus-skills

自动化提供模型量化部署的指导，涵盖工具使用、最佳实践以及面向推理、MLops 与监控的生产准备流程。

LoRA 参数高效微调

peft-fine-tuning

Orchestra-Research/AI-Research-SKILLs

介绍PEFT/LoRA/QLoRA在7B-70B大模型上的参数高效微调，涵盖低内存训练、<1%参数更新、多适配器与量化实战场景。

LLM 量化工具包

quantizing-models-bitsandbytes

Orchestra-Research/AI-Research-SKILLs

将大模型量化至 8 位或 4 位，节省 50%~75% 显存，使受限 GPU 仍可执行推理与 QLoRA 微调，同时兼容 NF4/INT8、8 位优化器与 HuggingFace Transformers，保持高精度。

高吞吐量大模型服务

serving-llms-vllm

Orchestra-Research/AI-Research-SKILLs

使用 vLLM 的分页注意力、连续批处理、量化与张量并行等机制，在受限 GPU 内存下高效部署大模型服务，适合生产 API、离线批推理与高并发场景。

TensorRT LLM 加速平台

Orchestra-Research/AI-Research-SKILLs

在 NVIDIA GPU 上加速大语言模型推理，结合量化（FP8/INT4）、自动批处理和多卡扩展，实现高吞吐、低延迟的生产级服务，适合实时部署与 GPU 密集型场景。

PufferLib 高性能强化学习

K-Dense-AI/claude-scientific-skills

PufferLib 是一个高性能强化学习框架，适合需要并行模拟、向量化环境和多智能体训练的场景，可实现百万步/秒级 PPO 训练，并与 Gymnasium、Atari、Procgen 等环境无缝集成。

语言