登录
下载
Skill UI
浏览并发现
9916+
精选技能
全部
编程开发
人工智能
设计创意
产品商业
数据科学
市场营销
职场通用
效率工具
硬件工程
语言学习
搜索
健康
,共找到
26
条记录
默认排序
最新上传
最多下载
Azure资源健康诊断与修复
azure-resource-health-diagnose
github/awesome-copilot
402
这是一个高级自动化工作流,用于分析特定Azure资源的运行健康状态。它能采集和分析来自各种Azure服务(如VM、Web Apps、数据库)的原始日志、遥测数据和性能指标。系统执行全面的根因分析,对问题进行等级划分,并生成可操作的、详细的修复计划,极大缩短了故障排除时间。
查看详情
Power Automate流监控与治理
flowstudio-power-automate-monitoring
github/awesome-copilot
492
该工具提供全面的企业级Power Automate流监控能力,可跨租户追踪流的运行健康状况、失败率、资产清单和治理报告。它通过缓存存储,避免了API速率限制,适用于治理团队进行平台健康度总览和根因分析。
查看详情
Fly.io 常见错误排查指南
flyio-common-errors
jeremylongshore/claude-code-plugins-plus-skills
330
本指南是用于诊断和解决 Fly.io 平台常见运行时和部署错误的快速参考手册。内容涵盖了健康检查失败、镜像构建失败、机器启动问题、连接拒绝等问题,提供了具体的诊断命令和配置修复方案,帮助用户快速定位并解决部署和运行中的故障。
查看详情
Attio生产环境集成部署清单
attio-prod-checklist
jeremylongshore/claude-code-plugins-plus-skills
135
本清单提供了一个系统化的流程,用于确保Attio API集成在生产环境中顺利、稳定地上线。它覆盖了关键的工程实践,包括身份验证、高级错误处理(指数退避、重试)、速率限制、数据完整性校验、健康检查和回滚机制,是保障SaaS系统可靠性的必备指南。
查看详情
Attio集成多云平台部署指南
attio-deploy-integration
jeremylongshore/claude-code-plugins-plus-skills
455
本指南提供将Attio驱动的应用部署到Vercel、Fly.io、Cloud Run等主流云平台的完整流程。它涵盖了从安全密钥管理、WebHook端点配置到健康检查实现的最佳实践,帮助用户确保应用具备生产级的稳定性与可靠性。
查看详情
ClickHouse可观测性监控配置
clickhouse-observability
jeremylongshore/claude-code-plugins-plus-skills
340
本指南提供了完整的ClickHouse可观测性监控解决方案。内容涵盖了如何利用系统表查询获取核心指标,如何将这些指标集成到Prometheus进行数据采集,并最终在Grafana上构建仪表盘。它用于监控生产环境的查询性能、数据合并健康度、资源使用和错误率,帮助运维人员进行系统调优和告警配置。
查看详情
CoreWeave GPU推理服务部署
coreweave-deploy-integration
jeremylongshore/claude-code-plugins-plus-skills
146
本技能旨在指导用户在CoreWeave Kubernetes集群上部署和管理GPU加速的AI推理服务。内容涵盖了从Docker容器化、配置GPU资源限制(如A100/H100),到设置健康检查和执行滚动更新的全流程最佳实践,适用于大规模多模型推理和云端AI工作负载管理。
查看详情
CoreWeave故障排查手册
coreweave-incident-runbook
jeremylongshore/claude-code-plugins-plus-skills
430
这是一份用于CoreWeave平台的关键生产环境故障排除手册。它提供了应对GPU工作负载故障、推理服务宕机或Kubernetes资源问题的结构化步骤,指导用户检查Pod状态、节点健康和模型加载错误,以实现快速恢复服务。
查看详情
CoreWeave GPU工作负载事件监控
coreweave-webhooks-events
jeremylongshore/claude-code-plugins-plus-skills
416
该工具通过Webhook机制,实时监控CoreWeave集群的GPU工作负载状态和生命周期事件。它追踪Pod就绪状态、任务完成、存储挂载和节点健康状况,是构建大规模GPU推理和训练任务的自动化扩展、告警及恢复流程的核心组件。
查看详情
Fly.io 监控与自动化部署
flyio-webhooks-events
jeremylongshore/claude-code-plugins-plus-skills
131
本技能指导用户掌握Fly.io的系统监控和自动化部署流程。内容涵盖通过API轮询获取机器状态变化、设置健康检查端点、使用`jq`处理结构化日志以及在CI/CD流程中实现部署通知,旨在帮助用户确保应用的高可用性和系统可靠性。
查看详情
OneNote容器化生产部署
onenote-deploy-integration
jeremylongshore/claude-code-plugins-plus-skills
246
专为OneNote服务设计的高级容器部署方案。它解决了容器化环境中的关键问题,包括MSAL令牌的持久化存储(支持文件和Redis缓存),通过健康检查验证Graph API的实际连通性,并实现了优雅的停机处理。适用于将OneNote服务部署到Docker或Kubernetes等生产级环境,确保系统稳定可靠。
查看详情
Qdrant监控配置指南
qdrant-monitoring-setup
github/awesome-copilot
484
本指南提供了完整的Qdrant监控设置流程,覆盖了Prometheus指标采集、Kubernetes健康探针配置、告警机制搭建以及日志中央化处理。内容涵盖自部署和混合云环境的特殊要求,帮助用户实现全面的系统运营监控和合规审计。
查看详情
上一页
1
2
3
下一页
语言
简体中文
English