登录
下载
Skill UI
浏览并发现
9785+
精选技能
全部
编程开发
人工智能
设计创意
产品商业
数据科学
市场营销
职场通用
效率工具
硬件工程
语言学习
搜索
GPU 加速
,共找到
13
条记录
默认排序
最新上传
最多下载
AWQ 激活感知权重量化
awq-quantization
Orchestra-Research/AI-Research-SKILLs
421
AWQ 利用激活感知权重保护技术,将 7B-70B 模型压缩到 4-bit,在受限显存上保持精度并提升近 3 倍推理速度,可配合 vLLM、Marlin 等加速后端部署大模型。
查看详情
FAISS:高效向量相似性搜索库
faiss
Orchestra-Research/AI-Research-SKILLs
276
FAISS(Facebook AI Similarity Search)是一个用于高效相似性搜索和聚类的库。它支持对数十亿级别的密集向量进行索引和搜索,具备GPU加速和多种索引类型(如Flat、IVF、HNSW)。适用于构建需要超高吞吐量和低延迟的超大规模应用,特别是在RAG、推荐系统等领域,用于快速的k-NN检索或纯向量相似度匹配。
查看详情
GPTQ LLM 量化指南
gptq
Orchestra-Research/AI-Research-SKILLs
81
GPTQ 提供后训练 4 位量化,可在 RTX 4090/3090 等消费级 GPU 上将大模型压缩至 1/4 内存并加速推理,同时维持低于 2% 的困惑度损失,适合部署和 QLoRA 微调。
查看详情
OpenRLHF训练套件
openrlhf-training
Orchestra-Research/AI-Research-SKILLs
474
一个基于Ray和vLLM的高性能RLHF训练框架,兼容PPO、GRPO、RLOO、DPO,借助ZeRO-3与分布式架构在多GPU集群上加速7B-70B+大模型的策略与奖励优化流程。
查看详情
闪电注意力优化器
optimizing-attention-flash
Orchestra-Research/AI-Research-SKILLs
55
Flash Attention 优化器在训练或运行长序列 Transformer 时提供 2-4 倍加速和 10-20 倍内存削减,适用于缓解注意力显存瓶颈与推理延迟,支持 PyTorch 原生 SDPA、flash-attn 库、H100 FP8 及滑动窗口注意力等场景。
查看详情
GPU工作负载本地开发循环
vastai-local-dev-loop
jeremylongshore/claude-code-plugins-plus-skills
286
本技能指导用户搭建一套高效、可复现的本地开发环境,用于GPU工作负载的测试。它涵盖了使用Docker本地运行GPU镜像、通过Mocking模拟Vast.ai API调用等关键步骤,旨在大幅降低开发过程中的云GPU资源成本,并加速软件迭代周期。
查看详情
Whisper 多语种语音识别
whisper
Orchestra-Research/AI-Research-SKILLs
298
Whisper 是 OpenAI 提供的多语种语音识别与英文翻译模型,支持 99 种语言、批量/流式转录及 GPU 加速,非常适合播客、会议、音视频转录和嘈杂环境下的多语言音频处理。
查看详情
科学资源检测
get-available-resources
K-Dense-AI/claude-scientific-skills
490
在进行科学计算前检测 CPU、GPU、内存与磁盘状态,并生成 `.claude_resources.json` 包含并行、异步、GPU 加速等策略建议,帮助选择恰当的计算方式。
查看详情
PyGraphistry 图可视化器
pygraphistry
sickn33/antigravity-awesome-skills
359
PyGraphistry 是 Graphistry 提供的 Python 接口,借助 GPU 加速绘制百万节点/边的关系图,可交互分析异常和关联,提升数据探索效率。
查看详情
Python科学计算GPU优化
optimize-for-gpu
K-Dense-AI/scientific-agent-skills
480
这是一个专业的GPU加速优化工具,用于将计算密集型的CPU Python代码(如科学计算、机器学习、物理模拟等)转换为高性能的GPU代码。它涵盖了从数组操作(CuPy)到定制内核开发(Numba/Warp)的全流程,适用于深度学习、物理模拟、地理空间分析等需要大规模并行计算的复杂工作流。
查看详情
CoreWeave GPU推理服务部署
coreweave-deploy-integration
jeremylongshore/claude-code-plugins-plus-skills
146
本技能旨在指导用户在CoreWeave Kubernetes集群上部署和管理GPU加速的AI推理服务。内容涵盖了从Docker容器化、配置GPU资源限制(如A100/H100),到设置健康检查和执行滚动更新的全流程最佳实践,适用于大规模多模型推理和云端AI工作负载管理。
查看详情
YOLO 2026实时目标检测
yolo-detection-2026
SharpAI/DeepCamera
92
基于最新的YOLO 2026模型,提供高性能的实时物体检测功能。该技能可识别80多个COCO物体类别,并输出带有边界框和置信度的检测结果。它支持自动硬件加速,能够自动优化模型以适配不同的计算平台(如CUDA、MPS、OpenVINO等),确保无论在CPU、GPU还是NPU上运行,都能达到最佳的检测速度和准确性。
查看详情
1
2
下一页
语言
简体中文
English