登录
下载
Skill UI
浏览并发现
9944+
精选技能
全部
编程开发
人工智能
设计创意
产品商业
数据科学
市场营销
职场通用
效率工具
硬件工程
语言学习
搜索
故障处理
,共找到
71
条记录
默认排序
最新上传
最多下载
Groq生产部署清单
groq-prod-checklist
jeremylongshore/claude-code-plugins-plus-skills
167
这是一个全面的指南,用于确保使用 Groq API 的应用能够安全、稳定地部署到生产环境。内容涵盖API密钥管理、模型选型、速率限制规划、错误处理(如故障转移和熔断器)以及完善的监控和健康检查设置,确保系统平稳发布。
查看详情
Guidewire诊断信息收集包
guidewire-debug-bundle
jeremylongshore/claude-code-plugins-plus-skills
105
该工具用于收集Guidewire生态系统的全面诊断信息。它能捕获关键数据,包括Cloud API响应、Gosu堆栈跟踪、服务器日志、OAuth令牌状态以及批处理过程状态。适用于开发人员进行故障排除、性能分析和系统集成调试。
查看详情
Guidewire故障应急手册
guidewire-incident-runbook
jeremylongshore/claude-code-plugins-plus-skills
334
本手册提供了一套系统化的流程,用于应对Guidewire生产环境突发的各类故障。它详细指导用户完成整个事件管理周期,包括初期的故障分诊(检查监控、API错误和批处理日志)、诊断性能瓶颈(如JVM和查询性能),以及执行缓解和升级处理,确保故障能够及时、规范地恢复。
查看详情
标准化API错误处理
handling-api-errors
jeremylongshore/claude-code-plugins-plus-skills
110
本技能指导如何为API实现标准化、健壮的错误处理机制。它遵循RFC 7807规范,使用中央错误中间件和类型化的错误类,将验证失败、认证失败、数据库错误等所有类型的故障,统一转换为标准化的、机器可读的错误响应体,确保API的健壮性和一致性。
查看详情
SRE事件响应与管理
incident-responder
sickn33/antigravity-awesome-skills
376
本技能提供了一套专业的SRE级事件响应框架。它指导用户从初步的严重性评估、建立指挥系统,到利用可观测性工具(如分布式追踪、指标、日志)进行调查,直至完成系统恢复和撰写无过错的根本原因分析报告(Post-Mortem)。适用于处理复杂、大规模的系统故障和突发事件。
查看详情
自动化事件响应工作流
incident-response-incident-response
sickn33/antigravity-awesome-skills
477
本技能提供了一个基于现代SRE(站点可靠性工程)的最佳实践的完整事件响应工作流。它指导用户完成从事件的初始检测、分级(P0-P3),到通过可观测性分析、深度调试、安全评估进行根因分析(RCA),最终实现系统恢复和总结复盘的全过程。适用于处理所有关键的系统故障、性能下降或安全事件。
查看详情
Juicebox生产环境就绪度检查清单
juicebox-prod-checklist
jeremylongshore/claude-code-plugins-plus-skills
425
本清单是用于指导Juicebox AI人才搜索和分析平台在生产环境中的操作验证流程。它确保了系统具备高可靠性、数据安全性和业务连续性,涵盖了API密钥管理、限流机制、错误处理(如熔断器、指数退避)、数据加密(GDPR/CCPA合规)和全面的监控设置。该流程对于防止服务故障和维护搜索数据的准确性至关重要。
查看详情
Juicebox API速率限制管理
juicebox-rate-limits
jeremylongshore/claude-code-plugins-plus-skills
443
本指南提供了全面的Juicebox API速率限制处理策略和TypeScript实现。内容包括基于令牌桶算法的速率限制器、处理429错误和瞬时网络故障的重试策略,以及用于高效批量数据分析的工具函数。适用于构建需要高吞吐量、稳定稳定与Juicebox API交互的应用场景。
查看详情
Kling AI API错误诊断与修复
klingai-common-errors
jeremylongshore/claude-code-plugins-plus-skills
362
本技能提供了一份全面的Kling AI API错误参考手册。它详细介绍了各种HTTP状态码(如400、401、429)、任务失败原因(如内容违规、配图质量低)以及JWT令牌刷新和指数退避的错误处理方法。适用于视频生成或API集成出现故障时的故障排除和调试。
查看详情
LangChain生产事故处理手册
langchain-incident-runbook
jeremylongshore/claude-code-plugins-plus-skills
185
本手册提供了LangChain及大型语言模型(LLM)生产环境的标准化操作流程(SOP)。它详细指导运维工程师如何处理常见的突发故障,包括服务商中断、错误率飙升、延迟增加和成本超支等问题,并提供了相应的检测、诊断和缓解措施,是维护LLM应用的关键运维工具。
查看详情
LangChain API限流与重试策略
langchain-rate-limits
jeremylongshore/claude-code-plugins-plus-skills
451
本指南详细介绍了使用LangChain处理API限速(429错误)的多种高级策略,确保您的LLM应用在生产环境中具备高稳定性和高吞吐量。涵盖内置的指数级退避重试机制、控制并发请求量、实现提供商故障转移(Fallback)以及自定义令牌桶限流器,是构建可靠AI应用的必备技能。
查看详情
LangChain生产级模式指南
langchain-sdk-patterns
jeremylongshore/claude-code-plugins-plus-skills
443
本指南汇集了LangChain应用的生产级最佳实践。涵盖了结构化输出、提供商故障转移、异步批量处理、流式传输、缓存和重试逻辑等关键模式,帮助开发者构建更稳定、更高效、更健壮的LLM应用。
查看详情
上一页
1
2
3
4
5
6
下一页
语言
简体中文
English