登录
下载
Skill UI
浏览并发现
9952+
精选技能
全部
编程开发
人工智能
设计创意
产品商业
数据科学
市场营销
职场通用
效率工具
硬件工程
语言学习
搜索
分布式
,共找到
69
条记录
默认排序
最新上传
最多下载
DeepSpeed 分布式训练指南
deepspeed
Orchestra-Research/AI-Research-SKILLs
424
指导工程师掌握 DeepSpeed 分布式训练与 DeepNVMe I/O 优化,涵盖 ZeRO、流水线并行、混合精度以及同步/异步写入句柄的使用场景。
查看详情
分布式追踪与调试配置
distributed-debugging-debug-trace
sickn33/antigravity-awesome-skills
228
本技能提供专业指南,用于构建全面的调试环境、实现分布式追踪和诊断流程。适用于诊断复杂的多服务系统问题,通过标准化日志记录、追踪关联ID,确保开发和生产环境具备完整的可观测性。
查看详情
微服务分布式链路追踪
distributed-tracing
sickn33/antigravity-awesome-skills
289
该技能提供使用OpenTelemetry和Jaeger等工具进行分布式链路追踪的完整指南。它帮助用户监控跨多个微服务的请求完整生命周期,从而实现对系统性能、调用依赖关系和故障点的全面掌握。适用于排查高延迟、识别性能瓶颈、追踪错误传播等复杂分布式场景。
查看详情
高级Elixir开发与并发编程
elixir-pro
sickn33/antigravity-awesome-skills
286
这是一个专注于构建高并发、故障容错和分布式系统的Elixir开发专家助手。它涵盖了OTP模式、Phoenix LiveView、并发编程、以及数据库交互等最佳实践,确保输出的代码既符合惯用风格,又具备生产级的稳定性和可扩展性。
查看详情
系统错误分析与故障排除
error-debugging-error-analysis
sickn33/antigravity-awesome-skills
431
本技能是一个专业的系统级错误分析和故障诊断工具,专用于处理分布式系统中的生产事故和复杂错误。它可以帮助用户通过分析日志、追踪和错误报告,进行彻底的根本原因分析(RCA),并提出可靠的修复方案和预防性措施,从而大幅提升系统的整体稳定性和可靠性。
查看详情
错误日志分析与根源定位
error-detective
sickn33/antigravity-awesome-skills
276
本技能提供专业的错误日志分析能力,用于处理复杂的日志流和代码库。它能关联跨分布式系统的错误堆栈,识别异常模式,通过关联错误和系统变更,帮助定位根本原因,并提供即时修复和长期预防的行动方案。
查看详情
智能故障诊断与根因分析
error-diagnostics-smart-debug
sickn33/antigravity-awesome-skills
327
这是一套全面的AI辅助软件错误诊断流程,用于解决生产环境中的复杂故障。它指导用户完成整个调试生命周期,包括初始分诊、收集可观测性数据(如错误追踪、APM指标、分布式追踪),生成假设、选择合适的调试策略(如时间旅行、混沌工程),并进行AI驱动的根因分析。最终目标是提出经过验证的修复方案和预防措施。
查看详情
Evernote可观测性配置
evernote-observability
jeremylongshore/claude-code-plugins-plus-skills
452
用于为Evernote集成提供全面的可观测性解决方案。它涵盖了指标采集(Prometheus)、结构化JSON日志记录、分布式追踪(OpenTelemetry)以及健康检查端点。适用于构建生产级、高可靠性的API监控和告警系统。
查看详情
GraphQL架构师
graphql-architect
Jeffallan/claude-skills
216
本技能专注于复杂的GraphQL API架构设计和实现。它涵盖了使用Apollo Federation进行分布式图谱构建、利用DataLoader优化数据加载器(防止N+1问题)、设计实时订阅,以及进行查询复杂度和安全审计。适用于构建高性能、可扩展的后端API服务。
查看详情
简化的分布式训练
huggingface-accelerate
Orchestra-Research/AI-Research-SKILLs
490
HuggingFace Accelerate 通过四行代码将各种 PyTorch 脚本升级为支持 DDP、DeepSpeed、FSDP 与 Megatron 的分布式训练,自动处理设备调度、混合精度与配置交互,便于快速实验与跨硬件部署。
查看详情
SRE事件响应与管理
incident-responder
sickn33/antigravity-awesome-skills
376
本技能提供了一套专业的SRE级事件响应框架。它指导用户从初步的严重性评估、建立指挥系统,到利用可观测性工具(如分布式追踪、指标、日志)进行调查,直至完成系统恢复和撰写无过错的根本原因分析报告(Post-Mortem)。适用于处理复杂、大规模的系统故障和突发事件。
查看详情
AI驱动的智能故障排除流程
incident-response-smart-fix
sickn33/antigravity-awesome-skills
397
本技能提供了一个基于多智能体编排的复杂生产环境故障排除流程。它将AI代码助手、可观测性平台和自动化工具(如分布式追踪、Git bisect)结合,形成“分析-调查-修复-验证”的完整闭环。旨在指导用户解决跨系统的复杂Bug,显著降低平均恢复时间(MTTR),提升系统整体的韧性和稳定性。
查看详情
上一页
1
2
3
4
5
6
下一页
语言
简体中文
English