登录
下载
Skill UI
浏览并发现
9747+
精选技能
全部
编程开发
人工智能
设计创意
产品商业
数据科学
市场营销
职场通用
效率工具
硬件工程
语言学习
搜索
多集群
,共找到
5
条记录
默认排序
最新上传
最多下载
Databricks 错误排查指南
databricks-common-errors
jeremylongshore/claude-code-plugins-plus-skills
427
这是一份全面的技术指南,用于诊断和修复Databricks环境中的常见错误。内容涵盖集群状态故障、Spark内存溢出(OOM)、Delta Lake并发写入冲突、权限配置和数据模式不匹配等关键问题,并提供了Python、SQL和Bash等多种语言的修复代码。
查看详情
Ray Train 分布式协调
ray-train
Orchestra-Research/AI-Research-SKILLs
64
Ray Train 统一协调 PyTorch、TensorFlow 与 HuggingFace 的分布式训练,从单机扩展到多节点集群,自动处理显卡分配、容错、断点恢复与超参搜索,帮助团队在无需大量改动的前提下完成大规模模型训练。
查看详情
Vast.ai分布式训练与成本管理
vastai-core-workflow-b
jeremylongshore/claude-code-plugins-plus-skills
439
这是一个高级工作流,用于在Vast.ai上编排复杂的、多节点的GPU集群。它专为大规模分布式机器学习训练设计,能自动处理Spot机中断和使用检查点进行作业恢复。同时,该工作流提供全面的成本分析功能,帮助用户跟踪账单历史,优化GPU支出,并安全地销毁集群以停止计费。
查看详情
CoreWeave分布式GPU训练工作流
coreweave-core-workflow-b
jeremylongshore/claude-code-plugins-plus-skills
142
本指南详细介绍了如何在CoreWeave平台上运行大规模的分布式GPU训练任务。它涵盖了单节点多GPU配置和多节点训练,支持PyTorch DDP,是进行大型语言模型(LLM)微调或需要高性能计算集群的深度学习模型训练的推荐工作流。
查看详情
Snowflake并发与限流管理
snowflake-rate-limits
jeremylongshore/claude-code-plugins-plus-skills
117
本指南详细介绍了Snowflake的性能和并发管理方法,帮助用户优化数据仓库的资源配置。内容涵盖仓库的正确尺寸调整、多集群设置、查询排队检测以及应用程序级别的速率限制,旨在解决并发限制和性能瓶颈,提升复杂数据分析的吞吐量。
查看详情
1
语言
简体中文
English