下载

Skill UI

浏览并发现 7856+ 精选技能

全部编程开发人工智能设计创意产品商业数据科学市场营销职场通用效率工具硬件工程语言学习

搜索分布式训练，共找到 12 条记录

默认排序最新上传最多下载

DeepSpeed 分布式训练指南

Orchestra-Research/AI-Research-SKILLs

指导工程师掌握 DeepSpeed 分布式训练与 DeepNVMe I/O 优化，涵盖 ZeRO、流水线并行、混合精度以及同步/异步写入句柄的使用场景。

TorchTitan 分布式预训练

distributed-llm-pretraining-torchtitan

Orchestra-Research/AI-Research-SKILLs

基于 PyTorch 的 TorchTitan 实现 4D 并行（FSDP2/TP/PP/CP），支持 8~512+ GPU、Float8、编译优化与分布式检查点，用于 Llama 3.1、DeepSeek V3 或自定义大模型的预训练。

分布式训练配置

distributed-training-setup

jeremylongshore/claude-code-plugins-plus-skills

提供分布式训练配置的自动化指导，涵盖逐步流程、生产级配置和输出校验，助力机器学习训练任务的规范实施。

简化的分布式训练

huggingface-accelerate

Orchestra-Research/AI-Research-SKILLs

HuggingFace Accelerate 通过四行代码将各种 PyTorch 脚本升级为支持 DDP、DeepSpeed、FSDP 与 Megatron 的分布式训练，自动处理设备调度、混合精度与配置交互，便于快速实验与跨硬件部署。

OpenRLHF训练套件

openrlhf-training

Orchestra-Research/AI-Research-SKILLs

一个基于Ray和vLLM的高性能RLHF训练框架，兼容PPO、GRPO、RLOO、DPO，借助ZeRO-3与分布式架构在多GPU集群上加速7B-70B+大模型的策略与奖励优化流程。

PyTorch FSDP2 训练流程

Orchestra-Research/AI-Research-SKILLs

指导在训练脚本中正确引入 PyTorch FSDP2 fully_shard，使底层模块逐层分片、配置混合精度与 CPU 卸载、构建依赖 DTensor 的优化器，并依靠分布式检查点处理超过单卡显存或需要 DeviceMesh 分片的模型。

PyTorch Lightning 训练框架

pytorch-lightning

Orchestra-Research/AI-Research-SKILLs

PyTorch Lightning 提供高层训练框架，内置分布式训练（DDP/FSDP/DeepSpeed）、回调、检查点、日志与设备管理，帮助你从笔记本到多节点集群轻松运行高质量模型训练。

Ray Train 分布式协调

Orchestra-Research/AI-Research-SKILLs

Ray Train 统一协调 PyTorch、TensorFlow 与 HuggingFace 的分布式训练，从单机扩展到多节点集群，自动处理显卡分配、容错、断点恢复与超参搜索，帮助团队在无需大量改动的前提下完成大规模模型训练。

PyTorch原生智能体RL训练框架

torchforge-rl-training

Orchestra-Research/AI-Research-SKILLs

torchforge是Meta推出的用于智能体强化学习（RL）的PyTorch原生框架。它将核心的RL算法与复杂的分布式基础设施进行了彻底分离。用户可以专注于算法的快速实验和开发，无需担心底层分布式训练、权重同步等复杂问题，支持从单卡到大规模集群的扩展训练。

火山引擎LLM强化训练

verl-rl-training

Orchestra-Research/AI-Research-SKILLs

使用火山引擎 verl 训练 LLM 的强化学习指南，涵盖 GRPO、PPO、价值网络、分布式 rollout、数据配置与生产部署等流程。

PyTorch Lightning 框架

pytorch-lightning

K-Dense-AI/claude-scientific-skills

PyTorch Lightning 框架将 PyTorch 代码组织为 LightningModule/DataModule、Trainer、回调、日志与分布式策略，便于多 GPU/TPU 训练、实验记录和项目级别扩展。

PyTorch Lightning 框架

pytorch-lightning

K-Dense-AI/scientific-agent-skills

PyTorch Lightning 框架将 PyTorch 代码组织为 LightningModule/DataModule、Trainer、回调、日志与分布式策略，便于多 GPU/TPU 训练、实验记录和项目级别扩展。

1

语言