下载

Skill UI

浏览并发现 9785+ 精选技能

全部编程开发人工智能设计创意产品商业数据科学市场营销职场通用效率工具硬件工程语言学习

搜索 GPU 加速，共找到 13 条记录

默认排序最新上传最多下载

AWQ 激活感知权重量化

awq-quantization

Orchestra-Research/AI-Research-SKILLs

AWQ 利用激活感知权重保护技术，将 7B-70B 模型压缩到 4-bit，在受限显存上保持精度并提升近 3 倍推理速度，可配合 vLLM、Marlin 等加速后端部署大模型。

FAISS：高效向量相似性搜索库

Orchestra-Research/AI-Research-SKILLs

FAISS（Facebook AI Similarity Search）是一个用于高效相似性搜索和聚类的库。它支持对数十亿级别的密集向量进行索引和搜索，具备GPU加速和多种索引类型（如Flat、IVF、HNSW）。适用于构建需要超高吞吐量和低延迟的超大规模应用，特别是在RAG、推荐系统等领域，用于快速的k-NN检索或纯向量相似度匹配。

GPTQ LLM 量化指南

Orchestra-Research/AI-Research-SKILLs

GPTQ 提供后训练 4 位量化，可在 RTX 4090/3090 等消费级 GPU 上将大模型压缩至 1/4 内存并加速推理，同时维持低于 2% 的困惑度损失，适合部署和 QLoRA 微调。

OpenRLHF训练套件

openrlhf-training

Orchestra-Research/AI-Research-SKILLs

一个基于Ray和vLLM的高性能RLHF训练框架，兼容PPO、GRPO、RLOO、DPO，借助ZeRO-3与分布式架构在多GPU集群上加速7B-70B+大模型的策略与奖励优化流程。

闪电注意力优化器

optimizing-attention-flash

Orchestra-Research/AI-Research-SKILLs

Flash Attention 优化器在训练或运行长序列 Transformer 时提供 2-4 倍加速和 10-20 倍内存削减，适用于缓解注意力显存瓶颈与推理延迟，支持 PyTorch 原生 SDPA、flash-attn 库、H100 FP8 及滑动窗口注意力等场景。

GPU工作负载本地开发循环

vastai-local-dev-loop

jeremylongshore/claude-code-plugins-plus-skills

本技能指导用户搭建一套高效、可复现的本地开发环境，用于GPU工作负载的测试。它涵盖了使用Docker本地运行GPU镜像、通过Mocking模拟Vast.ai API调用等关键步骤，旨在大幅降低开发过程中的云GPU资源成本，并加速软件迭代周期。

Whisper 多语种语音识别

Orchestra-Research/AI-Research-SKILLs

Whisper 是 OpenAI 提供的多语种语音识别与英文翻译模型，支持 99 种语言、批量/流式转录及 GPU 加速，非常适合播客、会议、音视频转录和嘈杂环境下的多语言音频处理。

科学资源检测

get-available-resources

K-Dense-AI/claude-scientific-skills

在进行科学计算前检测 CPU、GPU、内存与磁盘状态，并生成 `.claude_resources.json` 包含并行、异步、GPU 加速等策略建议，帮助选择恰当的计算方式。

PyGraphistry 图可视化器

sickn33/antigravity-awesome-skills

PyGraphistry 是 Graphistry 提供的 Python 接口，借助 GPU 加速绘制百万节点/边的关系图，可交互分析异常和关联，提升数据探索效率。

Python科学计算GPU优化

optimize-for-gpu

K-Dense-AI/scientific-agent-skills

这是一个专业的GPU加速优化工具，用于将计算密集型的CPU Python代码（如科学计算、机器学习、物理模拟等）转换为高性能的GPU代码。它涵盖了从数组操作（CuPy）到定制内核开发（Numba/Warp）的全流程，适用于深度学习、物理模拟、地理空间分析等需要大规模并行计算的复杂工作流。

CoreWeave GPU推理服务部署

coreweave-deploy-integration

jeremylongshore/claude-code-plugins-plus-skills

本技能旨在指导用户在CoreWeave Kubernetes集群上部署和管理GPU加速的AI推理服务。内容涵盖了从Docker容器化、配置GPU资源限制（如A100/H100），到设置健康检查和执行滚动更新的全流程最佳实践，适用于大规模多模型推理和云端AI工作负载管理。

YOLO 2026实时目标检测

yolo-detection-2026

SharpAI/DeepCamera

基于最新的YOLO 2026模型，提供高性能的实时物体检测功能。该技能可识别80多个COCO物体类别，并输出带有边界框和置信度的检测结果。它支持自动硬件加速，能够自动优化模型以适配不同的计算平台（如CUDA、MPS、OpenVINO等），确保无论在CPU、GPU还是NPU上运行，都能达到最佳的检测速度和准确性。

语言