登录
下载
Skill UI
浏览并发现
9765+
精选技能
全部
编程开发
人工智能
设计创意
产品商业
数据科学
市场营销
职场通用
效率工具
硬件工程
语言学习
搜索
分布式训练
,共找到
6
条记录
默认排序
最新上传
最多下载
TorchTitan 分布式预训练
distributed-llm-pretraining-torchtitan
Orchestra-Research/AI-Research-SKILLs
65
基于 PyTorch 的 TorchTitan 实现 4D 并行(FSDP2/TP/PP/CP),支持 8~512+ GPU、Float8、编译优化与分布式检查点,用于 Llama 3.1、DeepSeek V3 或自定义大模型的预训练。
查看详情
分布式训练配置
distributed-training-setup
jeremylongshore/claude-code-plugins-plus-skills
496
提供分布式训练配置的自动化指导,涵盖逐步流程、生产级配置和输出校验,助力机器学习训练任务的规范实施。
查看详情
OpenRLHF训练套件
openrlhf-training
Orchestra-Research/AI-Research-SKILLs
474
一个基于Ray和vLLM的高性能RLHF训练框架,兼容PPO、GRPO、RLOO、DPO,借助ZeRO-3与分布式架构在多GPU集群上加速7B-70B+大模型的策略与奖励优化流程。
查看详情
PyTorch原生智能体RL训练框架
torchforge-rl-training
Orchestra-Research/AI-Research-SKILLs
135
torchforge是Meta推出的用于智能体强化学习(RL)的PyTorch原生框架。它将核心的RL算法与复杂的分布式基础设施进行了彻底分离。用户可以专注于算法的快速实验和开发,无需担心底层分布式训练、权重同步等复杂问题,支持从单卡到大规模集群的扩展训练。
查看详情
火山引擎LLM强化训练
verl-rl-training
Orchestra-Research/AI-Research-SKILLs
398
使用火山引擎 verl 训练 LLM 的强化学习指南,涵盖 GRPO、PPO、价值网络、分布式 rollout、数据配置与生产部署等流程。
查看详情
PyTorch Lightning 深度学习框架
pytorch-lightning
K-Dense-AI/scientific-agent-skills
353
PyTorch Lightning是一个基于PyTorch的高级深度学习框架,旨在简化和规范整个机器学习工作流。它帮助用户将模型组织为LightningModule,自动化训练循环,并处理复杂的数据流程。框架支持多GPU/TPU分布式训练、集成各种实验日志记录(如W&B, MLflow)和自定义回调,极大地提升了大型AI项目开发的效率和可扩展性。
查看详情
1
语言
简体中文
English