登录
下载
Skill UI
浏览并发现
9185+
精选技能
全部
编程开发
人工智能
设计创意
产品商业
数据科学
市场营销
职场通用
效率工具
硬件工程
语言学习
搜索
多集群
,共找到
27
条记录
默认排序
最新上传
最多下载
Databricks 错误排查指南
databricks-common-errors
jeremylongshore/claude-code-plugins-plus-skills
427
这是一份全面的技术指南,用于诊断和修复Databricks环境中的常见错误。内容涵盖集群状态故障、Spark内存溢出(OOM)、Delta Lake并发写入冲突、权限配置和数据模式不匹配等关键问题,并提供了Python、SQL和Bash等多种语言的修复代码。
查看详情
GitHub Actions CI/CD工作流模板
github-actions-templates
sickn33/antigravity-awesome-skills
94
本技能包提供了一系列生产级的GitHub Actions工作流模板,用于自动化整个软件开发生命周期(SDLC)。它涵盖了持续集成(CI)、构建Docker镜像、部署到Kubernetes集群、执行安全扫描和多版本矩阵测试等功能,帮助用户实现高效可靠的自动化部署流水线。
查看详情
Kubernetes GitOps工作流实现
gitops-workflow
sickn33/antigravity-awesome-skills
491
本指南提供了完整的GitOps工作流实现方案,专注于Kubernetes的自动化持续交付。详细介绍了如何使用ArgoCD和Flux等工具,实现基于Git的声明式部署。内容涵盖多集群管理、渐进式发布策略(如金丝雀发布)和安全的秘密管理实践。
查看详情
Kubernetes 安全策略指南
k8s-security-policies
sickn33/antigravity-awesome-skills
98
使用 NetworkPolicy、Pod 安全标准、RBAC 与 Gatekeeper 等机制,为 Kubernetes 集群在多租户、准入控制和 Istio 服务网格下打造合规防御与细粒度隔离策略。
查看详情
专家Kubernetes平台架构师
kubernetes-architect
sickn33/antigravity-awesome-skills
376
本技能集专为构建、设计和优化大规模、安全、高可用性的云原生基础设施而设计。内容涵盖Kubernetes平台架构、先进的GitOps工作流、服务网格(Istio)、多集群管理,以及使用Terraform和OPA等工具进行基础设施自动化和策略化管理。适用于需要构建企业级容器编排平台的平台工程师。
查看详情
Kubernetes 专家实践指南
kubernetes-specialist
Jeffallan/claude-skills
401
为 Kubernetes 运维提供部署清单、网络、安全、存储、GitOps 和多集群管理的实践指导,强调资源配额、探针与最小权限等最佳实践。
查看详情
多智能体系统架构模式
multi-agent-patterns
sickn33/antigravity-awesome-skills
444
本技能详细介绍了用于构建复杂AI系统的多智能体架构模式。它旨在解决单体智能体上下文限制的问题,通过将任务分解并分配给多个子智能体,实现任务并行化和专业化。核心模式包括监督者/编排者、对等/集群和分层架构,适用于需要跨领域协调和处理复杂流程的场景。
查看详情
OpenRLHF训练套件
openrlhf-training
Orchestra-Research/AI-Research-SKILLs
105
一个基于Ray和vLLM的高性能RLHF训练框架,兼容PPO、GRPO、RLOO、DPO,借助ZeRO-3与分布式架构在多GPU集群上加速7B-70B+大模型的策略与奖励优化流程。
查看详情
PyTorch Lightning 训练框架
pytorch-lightning
Orchestra-Research/AI-Research-SKILLs
235
PyTorch Lightning 提供高层训练框架,内置分布式训练(DDP/FSDP/DeepSpeed)、回调、检查点、日志与设备管理,帮助你从笔记本到多节点集群轻松运行高质量模型训练。
查看详情
Ray Train 分布式协调
ray-train
Orchestra-Research/AI-Research-SKILLs
445
Ray Train 统一协调 PyTorch、TensorFlow 与 HuggingFace 的分布式训练,从单机扩展到多节点集群,自动处理显卡分配、容错、断点恢复与超参搜索,帮助团队在无需大量改动的前提下完成大规模模型训练。
查看详情
服务网格网络专家
service-mesh-expert
sickn33/antigravity-awesome-skills
120
该专家擅长使用Istio和Linkerd等工具,设计和优化服务网格架构。它提供深入的云原生网络知识,用于实现安全、可靠的微服务通信。功能覆盖零信任网络、mTLS配置、高级流量管理(如金丝雀和蓝绿部署)、可观测性集成以及多集群联邦等复杂的架构问题。
查看详情
Vast.ai分布式训练与成本管理
vastai-core-workflow-b
jeremylongshore/claude-code-plugins-plus-skills
439
这是一个高级工作流,用于在Vast.ai上编排复杂的、多节点的GPU集群。它专为大规模分布式机器学习训练设计,能自动处理Spot机中断和使用检查点进行作业恢复。同时,该工作流提供全面的成本分析功能,帮助用户跟踪账单历史,优化GPU支出,并安全地销毁集群以停止计费。
查看详情
1
2
3
下一页
语言
简体中文
English