登录
下载
Skill UI
浏览并发现
5029+
精选技能
全部
编程开发
人工智能
设计创意
产品商业
数据科学
市场营销
职场通用
效率工具
硬件工程
语言学习
搜索
分布式训练
,共找到
9
条记录
默认排序
最新上传
最多下载
DeepSpeed 分布式训练助手
deepspeed
Orchestra-Research/AI-Research-SKILLs
227
提供 DeepSpeed 分布式训练指导,包括 ZeRO、流水线并行、混合精度、DeepNVMe I/O 等实战细节,适合实现、调试和部署大模型时查阅。
查看详情
TorchTitan 分布式大模型预训练
distributed-llm-pretraining-torchtitan
Orchestra-Research/AI-Research-SKILLs
228
TorchTitan 提供 PyTorch 原生的 4D 并行分布式大语言模型预训练能力,涵盖 FSDP2/TP/PP/CP、Float8、torch.compile 与分布式检查点,可在 8 到 512+ GPUs 上训练 Llama 3.1、DeepSeek V3 等模型。
查看详情
分布式训练配置
distributed-training-setup
jeremylongshore/claude-code-plugins-plus-skills
496
提供分布式训练配置的自动化指导,涵盖逐步流程、生产级配置和输出校验,助力机器学习训练任务的规范实施。
查看详情
Accelerate 分布式训练助手
huggingface-accelerate
Orchestra-Research/AI-Research-SKILLs
428
Accelerate 让 PyTorch 脚本只需四行改动即可支持 DDP、DeepSpeed、FSDP、Megatron 与混合精度训练,并通过单一命令自动处理设备部署、分片和交互式配置,适合快速原型及跨硬件运行。
查看详情
OpenRLHF高性能训练
openrlhf-training
Orchestra-Research/AI-Research-SKILLs
344
OpenRLHF 是基于 Ray 与 vLLM 的高性能 RLHF 框架,通过 ZeRO-3 与 GPU 资源共享加速 PPO、GRPO、RLOO 和 DPO 等算法的 7B-70B+ 大模型分布式训练。
查看详情
PyTorch FSDP2 训练实战
pytorch-fsdp2
Orchestra-Research/AI-Research-SKILLs
438
在训练脚本中集成 PyTorch FSDP2,从 torchrun 初始化、底层分片到混合精度、CPU offload 和分布式 checkpoint,适合单卡不足时的 DTensor 分片训练。
查看详情
PyTorch Lightning 训练框架
pytorch-lightning
Orchestra-Research/AI-Research-SKILLs
235
PyTorch Lightning 提供高层训练框架,内置分布式训练(DDP/FSDP/DeepSpeed)、回调、检查点、日志与设备管理,帮助你从笔记本到多节点集群轻松运行高质量模型训练。
查看详情
Ray Train 分布式训练编排
ray-train
Orchestra-Research/AI-Research-SKILLs
173
Ray Train 在多机多 GPU 环境下统一调度训练任务,自动完成资源分配、超参搜索、容错恢复与弹性扩缩,即使现有代码也只需最少改动即可扩展至集群。
查看详情
PyTorch Lightning训练流程
pytorch-lightning
K-Dense-AI/claude-scientific-skills
278
PyTorch Lightning 规范模块、数据、回调与 Trainer 设置,支持多 GPU/TPU 和分布式策略,方便追踪与调度训练流程。
查看详情
1
语言
简体中文
English