下载

Skill UI

浏览并发现 9185+ 精选技能

全部编程开发人工智能设计创意产品商业数据科学市场营销职场通用效率工具硬件工程语言学习

搜索 GPU ，共找到 103 条记录

默认排序最新上传最多下载

AWQ 激活感知权重量化

awq-quantization

Orchestra-Research/AI-Research-SKILLs

AWQ 利用激活感知权重保护技术，将 7B-70B 模型压缩到 4-bit，在受限显存上保持精度并提升近 3 倍推理速度，可配合 vLLM、Marlin 等加速后端部署大模型。

TorchTitan 分布式预训练

distributed-llm-pretraining-torchtitan

Orchestra-Research/AI-Research-SKILLs

基于 PyTorch 的 TorchTitan 实现 4D 并行（FSDP2/TP/PP/CP），支持 8~512+ GPU、Float8、编译优化与分布式检查点，用于 Llama 3.1、DeepSeek V3 或自定义大模型的预训练。

FAISS：高效向量相似性搜索库

Orchestra-Research/AI-Research-SKILLs

FAISS（Facebook AI Similarity Search）是一个用于高效相似性搜索和聚类的库。它支持对数十亿级别的密集向量进行索引和搜索，具备GPU加速和多种索引类型（如Flat、IVF、HNSW）。适用于构建需要超高吞吐量和低延迟的超大规模应用，特别是在RAG、推荐系统等领域，用于快速的k-NN检索或纯向量相似度匹配。

GPTQ LLM 量化指南

Orchestra-Research/AI-Research-SKILLs

GPTQ 提供后训练 4 位量化，可在 RTX 4090/3090 等消费级 GPU 上将大模型压缩至 1/4 内存并加速推理，同时维持低于 2% 的困惑度损失，适合部署和 QLoRA 微调。

GPU资源优化器

gpu-resource-optimizer

jeremylongshore/claude-code-plugins-plus-skills

为机器学习部署提供 GPU 资源优化指导，生成可生产化配置并校验模型服务、运维流水线与监控场景的应用实践。

Hugging Face云工作流执行

hugging-face-jobs

sickn33/antigravity-awesome-skills

用于在Hugging Face的托管云基础设施上执行复杂的计算工作负载。无需本地环境配置，支持使用云端的CPU、GPU或TPU资源。适用于大规模数据处理、批处理推理、可复现的模型训练和周期性自动化任务，并将结果持久化到Hugging Face Hub。

Lambda Labs GPU 云指南

lambda-labs-gpu-cloud

Orchestra-Research/AI-Research-SKILLs

针对 Lambda Labs GPU 云实例的使用手册，包含适用场景、控制台/SSH/API 启动流程、GPU 选型、价格优势，以及带有 Lambda Stack 的持久化存储等实战细节。

CPU/边缘本地大模型推理

Orchestra-Research/AI-Research-SKILLs

llama.cpp是一个纯C/C++编写的轻量级推理框架，专为在资源受限的设备上运行大型语言模型（LLM）而设计。它特别适用于没有高性能NVIDIA GPU（CUDA）的场景，非常适合Apple Silicon、AMD/Intel GPU以及边缘计算设备。通过支持GGUF量化，可以实现内存占用和推理速度的显著优化，支持本地跨平台部署。

Modal 无服务器 GPU 平台

modal-serverless-gpu

Orchestra-Research/AI-Research-SKILLs

Modal 无服务器 GPU 平台提供按秒计费的按需 GPU 访问，从 T4 到 H200，可快速部署模型 API、执行批处理作业并跳过基础设施运维，适合原型验证与推理训练任务。

GPU驱动数据策划

Orchestra-Research/AI-Research-SKILLs

NeMo Curator 依托 GPU 与 RAPIDS，为文本/图像/视频/音频等多模态提供质量筛选、模糊与语义去重、PII/NSFW 处理等步骤，快速清洗大规模训练数据。

LLM可编程安全防护

nemo-guardrails

Orchestra-Research/AI-Research-SKILLs

NVIDIA 的 NeMo Guardrails 为 LLM 应用提供运行时安全机制，通过 Colang 2.0 可编程规则实现越狱检测、自查输入输出、事实核查、PII 屏蔽与毒性过滤，便于在 T4 生产环境中部署。

远程模型可解释性工具

nnsight-remote-interpretability

Orchestra-Research/AI-Research-SKILLs

通过 nnsight 的 trace 与激活接口，有效分析或干预 PyTorch 模型内部，支持在本地小模型和借助 NDIF 的 70B+ 远程模型上执行，可对激活进行保存、替换和对比。

12 3 4...7 8 9 下一页

语言