登录
下载
Skill UI
浏览并发现
9119+
精选技能
全部
编程开发
人工智能
设计创意
产品商业
数据科学
市场营销
职场通用
效率工具
硬件工程
语言学习
搜索
故障处理
,共找到
96
条记录
默认排序
最新上传
最多下载
Apollo故障应急处理手册
apollo-incident-runbook
jeremylongshore/claude-code-plugins-plus-skills
171
本手册提供了一套结构化的Apollo.io API故障响应流程。涵盖了从故障的严重性分类(P1-P4)到快速诊断脚本、断路器模式(Circuit Breaker)的应用,以及降级处理策略,确保在系统发生故障时仍能维持核心业务的可用性。
查看详情
防御性Bash脚本编写指南
bash-pro
sickn33/antigravity-awesome-skills
319
本指南旨在掌握编写健壮、安全且可移植的Bash脚本的最佳实践,适用于生产环境、CI/CD流程和关键系统自动化。内容涵盖了严格的错误处理、安全的参数解析、输入验证、进程编排和跨平台兼容性,确保脚本在处理异常输入和故障时依然稳定可靠。
查看详情
Clerk故障应急处理手册
clerk-incident-runbook
jeremylongshore/claude-code-plugins-plus-skills
208
这是一份为工程团队设计的综合故障响应手册,用于处理与Clerk认证或SaaS平台相关的重大事故。它涵盖了完整的事故生命周期流程,包括最初的故障排查、紧急认证绕过、密钥轮换、会话恢复脚本和事后根本原因分析。当遇到生产环境认证故障或安全漏洞时使用。
查看详情
CodeRabbit 故障应急处理流程
coderabbit-incident-runbook
jeremylongshore/claude-code-plugins-plus-skills
346
这是一份全面的CodeRabbit故障应急手册,提供了处理服务中断、PR合并受阻或评论错误的分步指南。内容涵盖了快速排查、紧急绕过、环境检查、延时诊断和配置优化等步骤,确保在CodeRabbit功能失效时也能维持开发流程的连续性。
查看详情
实现Customer.io高可用集成模式
customerio-reliability-patterns
jeremylongshore/claude-code-plugins-plus-skills
443
本技能包指导如何为Customer.io集成实现容错和高可用性。涵盖了熔断器(Circuit Breaker)防止连锁故障、带抖动的重试机制(Retry with Jitter)处理瞬时错误,以及使用Redis构建回退队列(Fallback Queue),确保应用在外部服务中断时也能稳定运行。
查看详情
Customer.io SDK 生产级使用模式
customerio-sdk-patterns
jeremylongshore/claude-code-plugins-plus-skills
183
本指南提供了在生产环境中集成Customer.io SDK的最佳实践。它涵盖了构建类型安全客户端、使用指数退避重试机制处理网络故障、执行高效的事件批量发送,以及管理单例生命周期等关键模式。适用于需要构建高可靠性和可扩展性的用户行为追踪和营销自动化系统。
查看详情
Databricks故障应急处理手册
databricks-incident-runbook
jeremylongshore/claude-code-plugins-plus-skills
262
这份手册为值班工程师提供了处理Databricks故障、中断和重大任务失败的综合指南。它提供了结构化的流程,用于即时故障分级、决策树指导(涵盖集群、代码和数据质量问题),以及证据收集和事后总结,确保了故障的快速、系统性解决。
查看详情
AI辅助深度调试与根因分析
debugging-toolkit-smart-debug
sickn33/antigravity-awesome-skills
483
这是一个专家级、全流程的软件调试与故障排查指南。它指导用户如何结合AI能力和可观测性数据(如APM、分布式追踪、日志),进行系统性的问题分层、假设生成和根本原因分析。适用于处理复杂的生产环境故障、性能瓶颈和软件缺陷。
查看详情
安全生产部署原则
deployment-procedures
sickn33/antigravity-awesome-skills
176
本技能提供一套完整的生产环境部署原则和决策框架。它强调的是“思维模式”而非“脚本记忆”。内容涵盖了从平台选择、预部署(如代码质量、环境校验)到全流程的五个阶段(准备、备份、部署、验证、确认/回滚)。此外,还深入讲解了蓝绿、金丝雀部署等高级策略,以及关键的故障回滚和应急处理流程,确保每一次发布都是安全可控的。
查看详情
API限流及故障恢复机制
documenso-rate-limits
jeremylongshore/claude-code-plugins-plus-skills
85
本技能集提供了构建高可用性、高容错性应用的关键模式。它涵盖了处理外部API限速、网络抖动和临时服务故障的策略,包括指数退避(Exponential Backoff)、请求队列(Queuing)和熔断器(Circuit Breaker)等。使用这些模式可以显著提高应用程序的稳定性和可靠性。
查看详情
系统错误分析与故障排除
error-debugging-error-analysis
sickn33/antigravity-awesome-skills
306
本技能是一个专业的系统级错误分析和故障诊断工具,专用于处理分布式系统中的生产事故和复杂错误。它可以帮助用户通过分析日志、追踪和错误报告,进行彻底的根本原因分析(RCA),并提出可靠的修复方案和预防性措施,从而大幅提升系统的整体稳定性和可靠性。
查看详情
分布式系统故障诊断专家
error-diagnostics-error-analysis
sickn33/antigravity-awesome-skills
179
本技能是专业的故障分析专家,专注于复杂分布式系统的诊断和可靠性提升。适用于处理生产环境的突发事故、分析系统日志和追踪链,执行深层次的根因分析(RCA)。目标不仅是解决当前错误,更是建立预防机制,提升整体系统稳定性。
查看详情
1
2
3
4
...
6
7
8
下一页
语言
简体中文
English