下载

Skill UI

浏览并发现 5160+ 精选技能

全部编程开发人工智能设计创意产品商业数据科学市场营销职场通用效率工具硬件工程语言学习

搜索加速，共找到 11 条记录

默认排序最新上传最多下载

激活感知权重量化

awq-quantization

Orchestra-Research/AI-Research-SKILLs

AWQ 通过激活感知的 4-bit 权重量化，在有限 GPU 内存、使用 vLLM 或 Marlin 内核时，为指令调优或多模态大模型提供约 3 倍推理加速且误差低于 5%。

数据集加载器创建者

dataset-loader-creator

jeremylongshore/claude-code-plugins-plus-skills

自动化提供数据集加载器构建指导，涵盖数据准备、训练与调参，配合行业规范校验与可部署代码，加速机器学习训练流程。

FAISS 向量相似搜索

Orchestra-Research/AI-Research-SKILLs

FAISS 是 Meta/ Facebook AI 的向量相似性搜索库，支持 Flat、IVF、HNSW 等索引、GPU 加速和亿量级向量检索，适用于高吞吐、低延迟的 k-NN 检索场景。

LLM模型剪枝优化

Orchestra-Research/AI-Research-SKILLs

使用Wanda、SparseGPT和结构/非结构/N:M稀疏剪枝，在不重训情况下将LLM压缩约50%，适配加速卡或边缘设备，减少内存与延迟。

GPU 加速训练数据治理

Orchestra-Research/AI-Research-SKILLs

NeMo Curator 通过 GPU 加速处理文本、图像、视频和音频数据，提供模糊/语义去重、质量过滤、PII 与 NSFW 检测等步骤，配合 RAPIDS 多 GPU 集群打造高质量 LLM 训练集。

OpenRLHF高性能训练

openrlhf-training

Orchestra-Research/AI-Research-SKILLs

OpenRLHF 是基于 Ray 与 vLLM 的高性能 RLHF 框架，通过 ZeRO-3 与 GPU 资源共享加速 PPO、GRPO、RLOO 和 DPO 等算法的 7B-70B+ 大模型分布式训练。

Flash Attention优化

optimizing-attention-flash

Orchestra-Research/AI-Research-SKILLs

通过 Flash Attention 加速 Transformer 关注机制，可提供 2-4 倍速度提升和 10-20 倍内存节省，适用于 PyTorch 原生、flash-attn 库、H100 FP8 和滑动窗口等长上下文模型，解决显存瓶颈并提速推理。

RadixAttention结构化服务

Orchestra-Research/AI-Research-SKILLs

高性能 LLM/VLM 服务框架，利用 RadixAttention 自动缓存前缀，加速结构化 JSON/正则输出、Agent 工作流与多轮工具调用生成。

猜测式解码加速

speculative-decoding

Orchestra-Research/AI-Research-SKILLs

通过猜测式解码、Medusa 多头和前瞻 Jacobi 策略，提升大模型推理速度 1.5-3.6 倍，适合实时对话、生成和算力受限部署场景，兼顾质量与低延迟。

TensorRT LLM 加速平台

Orchestra-Research/AI-Research-SKILLs

在 NVIDIA GPU 上加速大语言模型推理，结合量化（FP8/INT4）、自动批处理和多卡扩展，实现高吞吐、低延迟的生产级服务，适合实时部署与 GPU 密集型场景。

Whisper多语音识别

Orchestra-Research/AI-Research-SKILLs

OpenAI 的 Whisper 提供多语种语音转写、英语翻译与语言识别，适配噪声环境、播客、会议等录音，可快速批量处理，还能生成字幕和支持 GPU 加速。

1

语言