下载

Skill UI

浏览并发现 10318+ 精选技能

全部编程开发人工智能设计创意产品商业数据科学市场营销职场通用效率工具硬件工程语言学习

搜索 vllm ，共找到 15 条记录

默认排序最新上传最多下载

AWQ 激活感知权重量化

awq-quantization

Orchestra-Research/AI-Research-SKILLs

AWQ 利用激活感知权重保护技术，将 7B-70B 模型压缩到 4-bit，在受限显存上保持精度并提升近 3 倍推理速度，可配合 vLLM、Marlin 等加速后端部署大模型。

LLM 评估框架

evaluating-llms-harness

Orchestra-Research/AI-Research-SKILLs

提供涵盖 MMLU、HumanEval、GSM8K、TruthfulQA、HellaSwag 等 60+ 学术基准测试的标准化评估流程，可用来对 HuggingFace、vLLM 或 API 模型打分、比对性能、跟踪训练进度。

半二次量化方案

hqq-quantization

Orchestra-Research/AI-Research-SKILLs

提供无需校准数据即可将大模型权重量化至1位的流程，兼容 vLLM 与 HuggingFace，支持多种后端和 LoRA/PEFT 微调，适合快速部署与实验极限量化。

LlamaGuard 内容审核

Orchestra-Research/AI-Research-SKILLs

LlamaGuard 是 Meta 提供的 7-8B 参数审核模型，能在输入/输出端识别暴力仇恨、性内容、武器、毒品、自伤、犯罪策划等六类风险，支持 vLLM、HuggingFace、FastAPI 和 NeMo Guardrails 的部署。

Mistral AI 生产环境部署指南

mistral-deploy-integration

jeremylongshore/claude-code-plugins-plus-skills

本指南详细介绍了 Mistral AI 应用部署到各种云平台和容器环境的完整流程。支持 Vercel、Docker、Cloud Run 和自托管 vLLM 等多种生产环境。内容涵盖了安全密钥管理、平台特定配置和完整的部署步骤，帮助开发者将 AI 原型快速、安全地部署为可扩展的生产服务。

OpenRLHF训练套件

openrlhf-training

Orchestra-Research/AI-Research-SKILLs

一个基于Ray和vLLM的高性能RLHF训练框架，兼容PPO、GRPO、RLOO、DPO，借助ZeRO-3与分布式架构在多GPU集群上加速7B-70B+大模型的策略与奖励优化流程。

结构化文本生成器

Orchestra-Research/AI-Research-SKILLs

Outlines 通过 Pydantic 模型与语法驱动的有限状态机在生成时约束 token，使 JSON/XML/代码结构必然有效，并支持 Transformers、llama.cpp 与 vLLM 等本地模型，实现高速推理与抽样控制。

高吞吐量大模型服务

serving-llms-vllm

Orchestra-Research/AI-Research-SKILLs

使用 vLLM 的分块注意力、连续批处理、量化与张量并行能力，为 OpenAI 兼容接口提供高吞吐量的生产级大模型服务，兼顾延迟、GPU 利用和扩展性。

SGLang 结构化推理服务

Orchestra-Research/AI-Research-SKILLs

SGLang 是面向 LLM/VLM 的高性能服务框架，采用 RadixAttention 前缀缓存实现 JSON/正则/语法结构化输出、函数调用型代理流程，并在多 GPU 生产环境中比 vLLM 快 5 倍。

Hugging Face模型评估管理

hugging-face-evaluation

sickn33/antigravity-awesome-skills

用于为Hugging Face模型卡片添加和管理结构化的评估结果。支持从README内容提取现有评估表格，导入外部基准分数，并使用vLLM等高性能后端运行自定义模型评估，确保模型元数据符合排行榜和行业标准。

本地大模型推理与部署专家

local-llm-expert

sickn33/antigravity-awesome-skills

该技能专精于本地大语言模型（LLM）的部署、推理和性能优化。涵盖Ollama、vLLM、llama.cpp等主流推理引擎，以及GGUF、EXL2等主流量化格式。帮助用户在本地硬件上安全、高效地运行先进模型，尤其侧重于隐私保护和离线应用部署。

本地Hugging Face模型评估

hugging-face-community-evals

sickn33/antigravity-awesome-skills

本技能用于在本地硬件上对Hugging Face Hub上的大模型进行专业的评估和基准测试。它支持使用`inspect-ai`和`lighteval`等评估框架，帮助用户选择最佳推理后端（如`vllm`、Transformers或`accelerate`），进行全面的烟雾测试和任务选择。该技能专注于本地执行流程，不负责远程作业编排或结果发布。

语言