登录
下载
Skill UI
浏览并发现
9183+
精选技能
全部
编程开发
人工智能
设计创意
产品商业
数据科学
市场营销
职场通用
效率工具
硬件工程
语言学习
搜索
分布式
,共找到
87
条记录
默认排序
最新上传
最多下载
AI辅助深度调试与根因分析
debugging-toolkit-smart-debug
sickn33/antigravity-awesome-skills
483
这是一个专家级、全流程的软件调试与故障排查指南。它指导用户如何结合AI能力和可观测性数据(如APM、分布式追踪、日志),进行系统性的问题分层、假设生成和根本原因分析。适用于处理复杂的生产环境故障、性能瓶颈和软件缺陷。
查看详情
Deepgram可观测性监控系统
deepgram-observability
jeremylongshore/claude-code-plugins-plus-skills
488
用于为Deepgram集成建立完整的可观测性监控系统。它集成了Prometheus指标、OpenTelemetry分布式追踪、Pino结构化日志和AlertManager告警规则,能够全面追踪API请求速率、延迟、成本消耗,并提供专业的性能监控仪表盘和告警机制。
查看详情
DeepSpeed 分布式训练指南
deepspeed
Orchestra-Research/AI-Research-SKILLs
56
指导工程师掌握 DeepSpeed 分布式训练与 DeepNVMe I/O 优化,涵盖 ZeRO、流水线并行、混合精度以及同步/异步写入句柄的使用场景。
查看详情
分布式追踪与调试配置
distributed-debugging-debug-trace
sickn33/antigravity-awesome-skills
207
本技能提供专业指南,用于构建全面的调试环境、实现分布式追踪和诊断流程。适用于诊断复杂的多服务系统问题,通过标准化日志记录、追踪关联ID,确保开发和生产环境具备完整的可观测性。
查看详情
TorchTitan 分布式预训练
distributed-llm-pretraining-torchtitan
Orchestra-Research/AI-Research-SKILLs
414
基于 PyTorch 的 TorchTitan 实现 4D 并行(FSDP2/TP/PP/CP),支持 8~512+ GPU、Float8、编译优化与分布式检查点,用于 Llama 3.1、DeepSeek V3 或自定义大模型的预训练。
查看详情
微服务分布式链路追踪
distributed-tracing
sickn33/antigravity-awesome-skills
289
该技能提供使用OpenTelemetry和Jaeger等工具进行分布式链路追踪的完整指南。它帮助用户监控跨多个微服务的请求完整生命周期,从而实现对系统性能、调用依赖关系和故障点的全面掌握。适用于排查高延迟、识别性能瓶颈、追踪错误传播等复杂分布式场景。
查看详情
分布式训练配置
distributed-training-setup
jeremylongshore/claude-code-plugins-plus-skills
496
提供分布式训练配置的自动化指导,涵盖逐步流程、生产级配置和输出校验,助力机器学习训练任务的规范实施。
查看详情
高级Elixir开发与并发编程
elixir-pro
sickn33/antigravity-awesome-skills
286
这是一个专注于构建高并发、故障容错和分布式系统的Elixir开发专家助手。它涵盖了OTP模式、Phoenix LiveView、并发编程、以及数据库交互等最佳实践,确保输出的代码既符合惯用风格,又具备生产级的稳定性和可扩展性。
查看详情
系统错误分析与故障排除
error-debugging-error-analysis
sickn33/antigravity-awesome-skills
306
本技能是一个专业的系统级错误分析和故障诊断工具,专用于处理分布式系统中的生产事故和复杂错误。它可以帮助用户通过分析日志、追踪和错误报告,进行彻底的根本原因分析(RCA),并提出可靠的修复方案和预防性措施,从而大幅提升系统的整体稳定性和可靠性。
查看详情
错误日志分析与根源定位
error-detective
sickn33/antigravity-awesome-skills
276
本技能提供专业的错误日志分析能力,用于处理复杂的日志流和代码库。它能关联跨分布式系统的错误堆栈,识别异常模式,通过关联错误和系统变更,帮助定位根本原因,并提供即时修复和长期预防的行动方案。
查看详情
分布式系统故障诊断专家
error-diagnostics-error-analysis
sickn33/antigravity-awesome-skills
179
本技能是专业的故障分析专家,专注于复杂分布式系统的诊断和可靠性提升。适用于处理生产环境的突发事故、分析系统日志和追踪链,执行深层次的根因分析(RCA)。目标不仅是解决当前错误,更是建立预防机制,提升整体系统稳定性。
查看详情
智能故障诊断与根因分析
error-diagnostics-smart-debug
sickn33/antigravity-awesome-skills
327
这是一套全面的AI辅助软件错误诊断流程,用于解决生产环境中的复杂故障。它指导用户完成整个调试生命周期,包括初始分诊、收集可观测性数据(如错误追踪、APM指标、分布式追踪),生成假设、选择合适的调试策略(如时间旅行、混沌工程),并进行AI驱动的根因分析。最终目标是提出经过验证的修复方案和预防措施。
查看详情
上一页
1
2
3
4
5
6
7
8
下一页
语言
简体中文
English