登录
下载
Skill UI
浏览并发现
10318+
精选技能
全部
编程开发
人工智能
设计创意
产品商业
数据科学
市场营销
职场通用
效率工具
硬件工程
语言学习
搜索
vllm
,共找到
15
条记录
默认排序
最新上传
最多下载
AWQ 激活感知权重量化
awq-quantization
Orchestra-Research/AI-Research-SKILLs
421
AWQ 利用激活感知权重保护技术,将 7B-70B 模型压缩到 4-bit,在受限显存上保持精度并提升近 3 倍推理速度,可配合 vLLM、Marlin 等加速后端部署大模型。
查看详情
LLM 评估框架
evaluating-llms-harness
Orchestra-Research/AI-Research-SKILLs
484
提供涵盖 MMLU、HumanEval、GSM8K、TruthfulQA、HellaSwag 等 60+ 学术基准测试的标准化评估流程,可用来对 HuggingFace、vLLM 或 API 模型打分、比对性能、跟踪训练进度。
查看详情
半二次量化方案
hqq-quantization
Orchestra-Research/AI-Research-SKILLs
185
提供无需校准数据即可将大模型权重量化至1位的流程,兼容 vLLM 与 HuggingFace,支持多种后端和 LoRA/PEFT 微调,适合快速部署与实验极限量化。
查看详情
LlamaGuard 内容审核
llamaguard
Orchestra-Research/AI-Research-SKILLs
441
LlamaGuard 是 Meta 提供的 7-8B 参数审核模型,能在输入/输出端识别暴力仇恨、性内容、武器、毒品、自伤、犯罪策划等六类风险,支持 vLLM、HuggingFace、FastAPI 和 NeMo Guardrails 的部署。
查看详情
Mistral AI 生产环境部署指南
mistral-deploy-integration
jeremylongshore/claude-code-plugins-plus-skills
243
本指南详细介绍了 Mistral AI 应用部署到各种云平台和容器环境的完整流程。支持 Vercel、Docker、Cloud Run 和自托管 vLLM 等多种生产环境。内容涵盖了安全密钥管理、平台特定配置和完整的部署步骤,帮助开发者将 AI 原型快速、安全地部署为可扩展的生产服务。
查看详情
OpenRLHF训练套件
openrlhf-training
Orchestra-Research/AI-Research-SKILLs
474
一个基于Ray和vLLM的高性能RLHF训练框架,兼容PPO、GRPO、RLOO、DPO,借助ZeRO-3与分布式架构在多GPU集群上加速7B-70B+大模型的策略与奖励优化流程。
查看详情
结构化文本生成器
outlines
Orchestra-Research/AI-Research-SKILLs
355
Outlines 通过 Pydantic 模型与语法驱动的有限状态机在生成时约束 token,使 JSON/XML/代码结构必然有效,并支持 Transformers、llama.cpp 与 vLLM 等本地模型,实现高速推理与抽样控制。
查看详情
高吞吐量大模型服务
serving-llms-vllm
Orchestra-Research/AI-Research-SKILLs
422
使用 vLLM 的分块注意力、连续批处理、量化与张量并行能力,为 OpenAI 兼容接口提供高吞吐量的生产级大模型服务,兼顾延迟、GPU 利用和扩展性。
查看详情
SGLang 结构化推理服务
sglang
Orchestra-Research/AI-Research-SKILLs
150
SGLang 是面向 LLM/VLM 的高性能服务框架,采用 RadixAttention 前缀缓存实现 JSON/正则/语法结构化输出、函数调用型代理流程,并在多 GPU 生产环境中比 vLLM 快 5 倍。
查看详情
Hugging Face模型评估管理
hugging-face-evaluation
sickn33/antigravity-awesome-skills
159
用于为Hugging Face模型卡片添加和管理结构化的评估结果。支持从README内容提取现有评估表格,导入外部基准分数,并使用vLLM等高性能后端运行自定义模型评估,确保模型元数据符合排行榜和行业标准。
查看详情
本地大模型推理与部署专家
local-llm-expert
sickn33/antigravity-awesome-skills
484
该技能专精于本地大语言模型(LLM)的部署、推理和性能优化。涵盖Ollama、vLLM、llama.cpp等主流推理引擎,以及GGUF、EXL2等主流量化格式。帮助用户在本地硬件上安全、高效地运行先进模型,尤其侧重于隐私保护和离线应用部署。
查看详情
本地Hugging Face模型评估
hugging-face-community-evals
sickn33/antigravity-awesome-skills
359
本技能用于在本地硬件上对Hugging Face Hub上的大模型进行专业的评估和基准测试。它支持使用`inspect-ai`和`lighteval`等评估框架,帮助用户选择最佳推理后端(如`vllm`、Transformers或`accelerate`),进行全面的烟雾测试和任务选择。该技能专注于本地执行流程,不负责远程作业编排或结果发布。
查看详情
1
2
下一页
语言
简体中文
English