登录
下载
Skill UI
浏览并发现
9785+
精选技能
全部
编程开发
人工智能
设计创意
产品商业
数据科学
市场营销
职场通用
效率工具
硬件工程
语言学习
搜索
大规模训练
,共找到
12
条记录
默认排序
最新上传
最多下载
Hugging Face云工作流执行
hugging-face-jobs
sickn33/antigravity-awesome-skills
155
用于在Hugging Face的托管云基础设施上执行复杂的计算工作负载。无需本地环境配置,支持使用云端的CPU、GPU或TPU资源。适用于大规模数据处理、批处理推理、可复现的模型训练和周期性自动化任务,并将结果持久化到Hugging Face Hub。
查看详情
MoE模型训练与优化
moe-training
Orchestra-Research/AI-Research-SKILLs
199
本技能详细介绍了专家混合模型(MoE)的训练方法,涵盖Mixtral、DeepSeek-V3等前沿模型架构。它指导用户如何在计算资源有限的情况下,实现大规模模型能力的扩展和高效训练。核心内容包括Top-k路由机制、负载均衡、专家并行以及使用DeepSpeed和HuggingFace等框架进行优化,显著降低训练成本。
查看详情
GPU驱动数据策划
nemo-curator
Orchestra-Research/AI-Research-SKILLs
226
NeMo Curator 依托 GPU 与 RAPIDS,为文本/图像/视频/音频等多模态提供质量筛选、模糊与语义去重、PII/NSFW 处理等步骤,快速清洗大规模训练数据。
查看详情
Ray Train 分布式协调
ray-train
Orchestra-Research/AI-Research-SKILLs
64
Ray Train 统一协调 PyTorch、TensorFlow 与 HuggingFace 的分布式训练,从单机扩展到多节点集群,自动处理显卡分配、容错、断点恢复与超参搜索,帮助团队在无需大量改动的前提下完成大规模模型训练。
查看详情
PyTorch原生智能体RL训练框架
torchforge-rl-training
Orchestra-Research/AI-Research-SKILLs
135
torchforge是Meta推出的用于智能体强化学习(RL)的PyTorch原生框架。它将核心的RL算法与复杂的分布式基础设施进行了彻底分离。用户可以专注于算法的快速实验和开发,无需担心底层分布式训练、权重同步等复杂问题,支持从单卡到大规模集群的扩展训练。
查看详情
Vast.ai分布式训练与成本管理
vastai-core-workflow-b
jeremylongshore/claude-code-plugins-plus-skills
439
这是一个高级工作流,用于在Vast.ai上编排复杂的、多节点的GPU集群。它专为大规模分布式机器学习训练设计,能自动处理Spot机中断和使用检查点进行作业恢复。同时,该工作流提供全面的成本分析功能,帮助用户跟踪账单历史,优化GPU支出,并安全地销毁集群以停止计费。
查看详情
高性能强化学习框架
pufferlib
K-Dense-AI/claude-scientific-skills
205
PufferLib是一个高性能的强化学习框架,专为大规模、高速的RL训练和仿真而设计。它通过优化的向量化和原生多智能体支持,实现了每秒数百万步的训练速度,极大地提升了RL研究和应用效率,适用于单智能体和多智能体环境的构建与训练。
查看详情
大规模单细胞基因组数据查询
cellxgene-census
K-Dense-AI/scientific-agent-skills
95
本技能提供程序化访问,连接到超过6100万个细胞的CZ CELLxGENE大队列。它用于生物信息学研究,支持进行大规模数据集间的交叉分析,按细胞类型、组织或疾病查询基因表达数据,并可用于训练机器学习模型。无论是在内存还是离线计算,均提供完整的单细胞分析能力。
查看详情
高性能强化学习框架
pufferlib
K-Dense-AI/scientific-agent-skills
452
PufferLib是一个高性能的强化学习框架,专为高速并行环境模拟和训练设计。它通过优化向量化和原生多智能体支持,实现每秒数百万步的训练速度。适用于PPO算法的复杂智能体训练、自定义环境开发和大规模RL实验。
查看详情
CoreWeave分布式GPU训练工作流
coreweave-core-workflow-b
jeremylongshore/claude-code-plugins-plus-skills
142
本指南详细介绍了如何在CoreWeave平台上运行大规模的分布式GPU训练任务。它涵盖了单节点多GPU配置和多节点训练,支持PyTorch DDP,是进行大型语言模型(LLM)微调或需要高性能计算集群的深度学习模型训练的推荐工作流。
查看详情
CoreWeave GPU工作负载事件监控
coreweave-webhooks-events
jeremylongshore/claude-code-plugins-plus-skills
416
该工具通过Webhook机制,实时监控CoreWeave集群的GPU工作负载状态和生命周期事件。它追踪Pod就绪状态、任务完成、存储挂载和节点健康状况,是构建大规模GPU推理和训练任务的自动化扩展、告警及恢复流程的核心组件。
查看详情
癌症影像数据查询与下载
imaging-data-commons
K-Dense-AI/scientific-agent-skills
131
该工具通过`idc-index`库,支持查询和下载国家癌症研究所(NCI)的公开癌症影像数据集。用户可以根据元数据筛选、可视化并下载DICOM文件,广泛应用于大规模AI模型训练和医学科研。
查看详情
1
语言
简体中文
English