下载

Skill UI

浏览并发现 9785+ 精选技能

全部编程开发人工智能设计创意产品商业数据科学市场营销职场通用效率工具硬件工程语言学习

搜索大规模训练，共找到 12 条记录

默认排序最新上传最多下载

Hugging Face云工作流执行

hugging-face-jobs

sickn33/antigravity-awesome-skills

用于在Hugging Face的托管云基础设施上执行复杂的计算工作负载。无需本地环境配置，支持使用云端的CPU、GPU或TPU资源。适用于大规模数据处理、批处理推理、可复现的模型训练和周期性自动化任务，并将结果持久化到Hugging Face Hub。

MoE模型训练与优化

Orchestra-Research/AI-Research-SKILLs

本技能详细介绍了专家混合模型（MoE）的训练方法，涵盖Mixtral、DeepSeek-V3等前沿模型架构。它指导用户如何在计算资源有限的情况下，实现大规模模型能力的扩展和高效训练。核心内容包括Top-k路由机制、负载均衡、专家并行以及使用DeepSpeed和HuggingFace等框架进行优化，显著降低训练成本。

GPU驱动数据策划

Orchestra-Research/AI-Research-SKILLs

NeMo Curator 依托 GPU 与 RAPIDS，为文本/图像/视频/音频等多模态提供质量筛选、模糊与语义去重、PII/NSFW 处理等步骤，快速清洗大规模训练数据。

Ray Train 分布式协调

Orchestra-Research/AI-Research-SKILLs

Ray Train 统一协调 PyTorch、TensorFlow 与 HuggingFace 的分布式训练，从单机扩展到多节点集群，自动处理显卡分配、容错、断点恢复与超参搜索，帮助团队在无需大量改动的前提下完成大规模模型训练。

PyTorch原生智能体RL训练框架

torchforge-rl-training

Orchestra-Research/AI-Research-SKILLs

torchforge是Meta推出的用于智能体强化学习（RL）的PyTorch原生框架。它将核心的RL算法与复杂的分布式基础设施进行了彻底分离。用户可以专注于算法的快速实验和开发，无需担心底层分布式训练、权重同步等复杂问题，支持从单卡到大规模集群的扩展训练。

Vast.ai分布式训练与成本管理

vastai-core-workflow-b

jeremylongshore/claude-code-plugins-plus-skills

这是一个高级工作流，用于在Vast.ai上编排复杂的、多节点的GPU集群。它专为大规模分布式机器学习训练设计，能自动处理Spot机中断和使用检查点进行作业恢复。同时，该工作流提供全面的成本分析功能，帮助用户跟踪账单历史，优化GPU支出，并安全地销毁集群以停止计费。

高性能强化学习框架

K-Dense-AI/claude-scientific-skills

PufferLib是一个高性能的强化学习框架，专为大规模、高速的RL训练和仿真而设计。它通过优化的向量化和原生多智能体支持，实现了每秒数百万步的训练速度，极大地提升了RL研究和应用效率，适用于单智能体和多智能体环境的构建与训练。

大规模单细胞基因组数据查询

cellxgene-census

K-Dense-AI/scientific-agent-skills

本技能提供程序化访问，连接到超过6100万个细胞的CZ CELLxGENE大队列。它用于生物信息学研究，支持进行大规模数据集间的交叉分析，按细胞类型、组织或疾病查询基因表达数据，并可用于训练机器学习模型。无论是在内存还是离线计算，均提供完整的单细胞分析能力。

高性能强化学习框架

K-Dense-AI/scientific-agent-skills

PufferLib是一个高性能的强化学习框架，专为高速并行环境模拟和训练设计。它通过优化向量化和原生多智能体支持，实现每秒数百万步的训练速度。适用于PPO算法的复杂智能体训练、自定义环境开发和大规模RL实验。

CoreWeave分布式GPU训练工作流

coreweave-core-workflow-b

jeremylongshore/claude-code-plugins-plus-skills

本指南详细介绍了如何在CoreWeave平台上运行大规模的分布式GPU训练任务。它涵盖了单节点多GPU配置和多节点训练，支持PyTorch DDP，是进行大型语言模型（LLM）微调或需要高性能计算集群的深度学习模型训练的推荐工作流。

CoreWeave GPU工作负载事件监控

coreweave-webhooks-events

jeremylongshore/claude-code-plugins-plus-skills

该工具通过Webhook机制，实时监控CoreWeave集群的GPU工作负载状态和生命周期事件。它追踪Pod就绪状态、任务完成、存储挂载和节点健康状况，是构建大规模GPU推理和训练任务的自动化扩展、告警及恢复流程的核心组件。

癌症影像数据查询与下载

imaging-data-commons

K-Dense-AI/scientific-agent-skills

该工具通过`idc-index`库，支持查询和下载国家癌症研究所（NCI）的公开癌症影像数据集。用户可以根据元数据筛选、可视化并下载DICOM文件，广泛应用于大规模AI模型训练和医学科研。

1

语言