登录
下载
Skill UI
浏览并发现
9746+
精选技能
全部
编程开发
人工智能
设计创意
产品商业
数据科学
市场营销
职场通用
效率工具
硬件工程
语言学习
搜索
故障管理
,共找到
34
条记录
默认排序
最新上传
最多下载
Customer.io高级故障排查与调试
customerio-advanced-troubleshooting
jeremylongshore/claude-code-plugins-plus-skills
59
这是一个全面的工具包,用于Customer.io的高级调试和系统化事件响应。它提供结构化的排查手册、API调试客户端和调查脚本,帮助用户诊断复杂的交付问题、分析用户画像或排查营销活动失败,从而实现稳健的事件管理。
查看详情
Customer.io SDK 生产级使用模式
customerio-sdk-patterns
jeremylongshore/claude-code-plugins-plus-skills
183
本指南提供了在生产环境中集成Customer.io SDK的最佳实践。它涵盖了构建类型安全客户端、使用指数退避重试机制处理网络故障、执行高效的事件批量发送,以及管理单例生命周期等关键模式。适用于需要构建高可靠性和可扩展性的用户行为追踪和营销自动化系统。
查看详情
DevOps工程师:自动化基础设施部署
devops-engineer
Jeffallan/claude-skills
116
负责构建和维护完整的DevOps生命周期,涵盖软件开发全流程。擅长使用Terraform/Pulumi进行基础设施即代码(IaC)管理,配置Kubernetes集群,创建CI/CD流水线(如GitHub Actions),实现容器化部署和GitOps流程。同时,也涵盖了云平台配置、发布自动化和生产环境故障响应。
查看详情
Groq生产部署清单
groq-prod-checklist
jeremylongshore/claude-code-plugins-plus-skills
167
这是一个全面的指南,用于确保使用 Groq API 的应用能够安全、稳定地部署到生产环境。内容涵盖API密钥管理、模型选型、速率限制规划、错误处理(如故障转移和熔断器)以及完善的监控和健康检查设置,确保系统平稳发布。
查看详情
Guidewire故障应急手册
guidewire-incident-runbook
jeremylongshore/claude-code-plugins-plus-skills
334
本手册提供了一套系统化的流程,用于应对Guidewire生产环境突发的各类故障。它详细指导用户完成整个事件管理周期,包括初期的故障分诊(检查监控、API错误和批处理日志)、诊断性能瓶颈(如JVM和查询性能),以及执行缓解和升级处理,确保故障能够及时、规范地恢复。
查看详情
SRE事件响应与管理
incident-responder
sickn33/antigravity-awesome-skills
376
本技能提供了一套专业的SRE级事件响应框架。它指导用户从初步的严重性评估、建立指挥系统,到利用可观测性工具(如分布式追踪、指标、日志)进行调查,直至完成系统恢复和撰写无过错的根本原因分析报告(Post-Mortem)。适用于处理复杂、大规模的系统故障和突发事件。
查看详情
Juicebox生产环境就绪度检查清单
juicebox-prod-checklist
jeremylongshore/claude-code-plugins-plus-skills
425
本清单是用于指导Juicebox AI人才搜索和分析平台在生产环境中的操作验证流程。它确保了系统具备高可靠性、数据安全性和业务连续性,涵盖了API密钥管理、限流机制、错误处理(如熔断器、指数退避)、数据加密(GDPR/CCPA合规)和全面的监控设置。该流程对于防止服务故障和维护搜索数据的准确性至关重要。
查看详情
Juicebox API速率限制管理
juicebox-rate-limits
jeremylongshore/claude-code-plugins-plus-skills
443
本指南提供了全面的Juicebox API速率限制处理策略和TypeScript实现。内容包括基于令牌桶算法的速率限制器、处理429错误和瞬时网络故障的重试策略,以及用于高效批量数据分析的工具函数。适用于构建需要高吞吐量、稳定稳定与Juicebox API交互的应用场景。
查看详情
Linux系统故障排查工作流
linux-troubleshooting
sickn33/antigravity-awesome-skills
107
本工作流提供了一套系统化的、多阶段的指南,用于诊断和解决复杂的Linux系统问题。它涵盖了从资源瓶颈分析(CPU、内存、磁盘)到服务故障、网络诊断、日志分析等所有关键排查步骤,适用于处理生产环境事故的系统管理员和DevOps工程师。
查看详情
数据库恢复管理
managing-database-recovery
jeremylongshore/claude-code-plugins-plus-skills
200
使用 database-recovery-manager 插件,自动化灾难恢复、时点恢复和故障转移配置,简化备份校验与恢复测试,满足生产数据库的恢复需求。
查看详情
数据库复制管理
managing-database-replication
jeremylongshore/claude-code-plugins-plus-skills
179
依托 database-replication-manager 插件,自动化完成数据库复制部署、故障转移、延迟监控及读扩展配置,适用于 PostgreSQL 和 MySQL 集群的高可用管理。
查看详情
OpenRouter生产就绪度检查清单
openrouter-prod-checklist
jeremylongshore/claude-code-plugins-plus-skills
53
这是一个全面的技术审计清单,用于验证OpenRouter API集成在投入生产环境前的就绪度。它涵盖了安全(密钥管理、轮换)、可靠性(故障转移、重试逻辑、超时设置)和可观测性(结构化日志、成本跟踪)等关键领域。在上线或运营审查阶段使用,确保部署的稳健性、可扩展性和合规性。
查看详情
1
2
3
下一页
语言
简体中文
English