登录
下载
Skill UI
浏览并发现
9167+
精选技能
全部
编程开发
人工智能
设计创意
产品商业
数据科学
市场营销
职场通用
效率工具
硬件工程
语言学习
搜索
分布式训练
,共找到
4
条记录
默认排序
最新上传
最多下载
Ray Train 分布式协调
ray-train
Orchestra-Research/AI-Research-SKILLs
445
Ray Train 统一协调 PyTorch、TensorFlow 与 HuggingFace 的分布式训练,从单机扩展到多节点集群,自动处理显卡分配、容错、断点恢复与超参搜索,帮助团队在无需大量改动的前提下完成大规模模型训练。
查看详情
Vast.ai分布式训练与成本管理
vastai-core-workflow-b
jeremylongshore/claude-code-plugins-plus-skills
439
这是一个高级工作流,用于在Vast.ai上编排复杂的、多节点的GPU集群。它专为大规模分布式机器学习训练设计,能自动处理Spot机中断和使用检查点进行作业恢复。同时,该工作流提供全面的成本分析功能,帮助用户跟踪账单历史,优化GPU支出,并安全地销毁集群以停止计费。
查看详情
AI深度学习GPU性能优化
vastai-performance-tuning
jeremylongshore/claude-code-plugins-plus-skills
77
这是一份关于深度学习工作流和云GPU平台性能优化的综合指南。内容涵盖了如何通过性能/金钱比选择最佳实例、减少启动延迟、精细调优数据管道(如DataLoader和pin_memory),以及使用PyTorch和Bash脚本实现多GPU分布式训练,以最大化计算资源的利用率和训练效率。
查看详情
CoreWeave分布式GPU训练工作流
coreweave-core-workflow-b
jeremylongshore/claude-code-plugins-plus-skills
142
本指南详细介绍了如何在CoreWeave平台上运行大规模的分布式GPU训练任务。它涵盖了单节点多GPU配置和多节点训练,支持PyTorch DDP,是进行大型语言模型(LLM)微调或需要高性能计算集群的深度学习模型训练的推荐工作流。
查看详情
1
语言
简体中文
English