登录
下载
Skill UI
浏览并发现
7856+
精选技能
全部
编程开发
人工智能
设计创意
产品商业
数据科学
市场营销
职场通用
效率工具
硬件工程
语言学习
搜索
分布式训练
,共找到
12
条记录
默认排序
最新上传
最多下载
DeepSpeed 分布式训练指南
deepspeed
Orchestra-Research/AI-Research-SKILLs
56
指导工程师掌握 DeepSpeed 分布式训练与 DeepNVMe I/O 优化,涵盖 ZeRO、流水线并行、混合精度以及同步/异步写入句柄的使用场景。
查看详情
TorchTitan 分布式预训练
distributed-llm-pretraining-torchtitan
Orchestra-Research/AI-Research-SKILLs
414
基于 PyTorch 的 TorchTitan 实现 4D 并行(FSDP2/TP/PP/CP),支持 8~512+ GPU、Float8、编译优化与分布式检查点,用于 Llama 3.1、DeepSeek V3 或自定义大模型的预训练。
查看详情
分布式训练配置
distributed-training-setup
jeremylongshore/claude-code-plugins-plus-skills
496
提供分布式训练配置的自动化指导,涵盖逐步流程、生产级配置和输出校验,助力机器学习训练任务的规范实施。
查看详情
简化的分布式训练
huggingface-accelerate
Orchestra-Research/AI-Research-SKILLs
216
HuggingFace Accelerate 通过四行代码将各种 PyTorch 脚本升级为支持 DDP、DeepSpeed、FSDP 与 Megatron 的分布式训练,自动处理设备调度、混合精度与配置交互,便于快速实验与跨硬件部署。
查看详情
OpenRLHF训练套件
openrlhf-training
Orchestra-Research/AI-Research-SKILLs
105
一个基于Ray和vLLM的高性能RLHF训练框架,兼容PPO、GRPO、RLOO、DPO,借助ZeRO-3与分布式架构在多GPU集群上加速7B-70B+大模型的策略与奖励优化流程。
查看详情
PyTorch FSDP2 训练流程
pytorch-fsdp2
Orchestra-Research/AI-Research-SKILLs
386
指导在训练脚本中正确引入 PyTorch FSDP2 fully_shard,使底层模块逐层分片、配置混合精度与 CPU 卸载、构建依赖 DTensor 的优化器,并依靠分布式检查点处理超过单卡显存或需要 DeviceMesh 分片的模型。
查看详情
PyTorch Lightning 训练框架
pytorch-lightning
Orchestra-Research/AI-Research-SKILLs
235
PyTorch Lightning 提供高层训练框架,内置分布式训练(DDP/FSDP/DeepSpeed)、回调、检查点、日志与设备管理,帮助你从笔记本到多节点集群轻松运行高质量模型训练。
查看详情
Ray Train 分布式协调
ray-train
Orchestra-Research/AI-Research-SKILLs
445
Ray Train 统一协调 PyTorch、TensorFlow 与 HuggingFace 的分布式训练,从单机扩展到多节点集群,自动处理显卡分配、容错、断点恢复与超参搜索,帮助团队在无需大量改动的前提下完成大规模模型训练。
查看详情
PyTorch原生智能体RL训练框架
torchforge-rl-training
Orchestra-Research/AI-Research-SKILLs
317
torchforge是Meta推出的用于智能体强化学习(RL)的PyTorch原生框架。它将核心的RL算法与复杂的分布式基础设施进行了彻底分离。用户可以专注于算法的快速实验和开发,无需担心底层分布式训练、权重同步等复杂问题,支持从单卡到大规模集群的扩展训练。
查看详情
火山引擎LLM强化训练
verl-rl-training
Orchestra-Research/AI-Research-SKILLs
189
使用火山引擎 verl 训练 LLM 的强化学习指南,涵盖 GRPO、PPO、价值网络、分布式 rollout、数据配置与生产部署等流程。
查看详情
PyTorch Lightning 框架
pytorch-lightning
K-Dense-AI/claude-scientific-skills
179
PyTorch Lightning 框架将 PyTorch 代码组织为 LightningModule/DataModule、Trainer、回调、日志与分布式策略,便于多 GPU/TPU 训练、实验记录和项目级别扩展。
查看详情
PyTorch Lightning 框架
pytorch-lightning
K-Dense-AI/scientific-agent-skills
50
PyTorch Lightning 框架将 PyTorch 代码组织为 LightningModule/DataModule、Trainer、回调、日志与分布式策略,便于多 GPU/TPU 训练、实验记录和项目级别扩展。
查看详情
1
语言
简体中文
English