登录
下载
Skill UI
浏览并发现
9765+
精选技能
全部
编程开发
人工智能
设计创意
产品商业
数据科学
市场营销
职场通用
效率工具
硬件工程
语言学习
搜索
可靠性
,共找到
40
条记录
默认排序
最新上传
最多下载
大语言模型智能体评估
agent-evaluation
sickn33/antigravity-awesome-skills
271
这是一个用于全面测试和评估大型语言模型(LLM)智能体的框架。它超越了简单的通过/失败判断,深入评估智能体的复杂行为、可靠性指标和能力一致性。适用于生产环境的监控,帮助识别高级AI智能体中的微妙故障模式。
查看详情
智能体性能优化工作流
agent-orchestration-improve-agent
sickn33/antigravity-awesome-skills
398
本工作流提供了一个系统性的框架,用于提升现有AI智能体的性能和可靠性。流程包括全面性能指标分析、详细的故障模式分类、高级提示词工程优化(如思维链和宪法AI),并最终通过结构化的A/B测试和受控部署,实现可量化、鲁棒的性能提升。
查看详情
多智能体系统优化工具
agent-orchestration-multi-agent-optimize
sickn33/antigravity-awesome-skills
165
这是一个先进的人工智能驱动框架,用于进行多智能体系统的整体性能工程优化。它提供协调的性能分析、工作负载分配和成本感知编排,覆盖数据库、应用层和前端等多个领域。可用于识别系统瓶颈,提高吞吐量,增强复杂智能体工作流的可靠性和效率。
查看详情
Databricks ML模型全生命周期管理
databricks-core-workflow-b
jeremylongshore/claude-code-plugins-plus-skills
121
本流程展示了在Databricks上完整的MLOps生命周期。它指导用户如何使用Feature Store进行特征工程,通过MLflow进行实验跟踪和模型训练,在Model Registry中管理模型版本,最终部署为可实时推理的API服务。适用于构建可生产化、高可靠性的机器学习系统。
查看详情
声明式语言模型系统
dspy
Orchestra-Research/AI-Research-SKILLs
247
DSPy 通过声明式方式构建复杂语言模型系统,组合模块化的 RAG 和智能代理流程,并自动优化提示与模块,提升 LM 应用的可靠性与可维护性。
查看详情
Claude 评估驱动框架
eval-harness
affaan-m/everything-claude-code
90
Claude Code正式评估框架,先定义能力与回归标准,再用代码/模型/人工评估多个阶段,并持续跟踪pass@k和pass^k等可靠性指标以确保交付质量。
查看详情
GCP生产代码示例生成器
gcp-examples-expert
jeremylongshore/claude-code-plugins-plus-skills
247
该技能能生成完整的、生产级别的Google Cloud Platform(GCP)代码示例和基础设施模板。它覆盖了包括ADK代理、Genkit RAG流程和使用Vertex AI/Gemini的多模态分析等多种前沿AI模式。输出内容包括可运行代码、部署配置(如Terraform/IaC)、安全最佳实践(IAM,VPC-SC)和监控设置,确保了企业级的可靠性、可追溯性和成本优化。
查看详情
Kling AI视频生成生产级开发套件
klingai-sdk-patterns
jeremylongshore/claude-code-plugins-plus-skills
223
这是一个生产就绪的Python SDK,用于提供与Kling AI API集成的完整模式。它封装了JWT自动刷新、结构化请求/响应模型、长任务的指数退避轮询机制以及详细的错误处理。适用于构建稳定、高可靠性、需要高级文本或图像到视频合成能力的应用程序。
查看详情
LangChain生产环境就绪度清单
langchain-prod-checklist
jeremylongshore/claude-code-plugins-plus-skills
131
这是一份全面的LangChain应用程序生产环境就绪度清单。它系统性地覆盖了从配置管理、错误处理、可观测性(如LangSmith)、性能优化、安全加固(防止提示注入、处理PII)到严格测试和部署策略等多个维度,帮助开发者确保AI应用具备高可靠性和可维护性,适用于应用上线前或现有系统的审计。
查看详情
LLM模型评估与性能测试
llm-evaluation
sickn33/antigravity-awesome-skills
356
提供了一套全面的大型语言模型(LLM)评估框架。内容涵盖自动化指标(如BLEU、ROUGE、BERTScore)、人工评估维度以及使用LLM作为裁判的先进方法。适用于系统性地衡量模型性能、对比不同Prompt或模型,确保AI应用的可靠性和可部署性。
查看详情
Mistral AI CI/CD 提示词测试
mistral-ci-integration
jeremylongshore/claude-code-plugins-plus-skills
485
本工具用于在CI/CD流程中自动化Mistral AI的验证和测试。它支持提示词回归测试、模型响应质量检查和API成本估算,确保每次代码提交和合并请求都能保证AI功能的稳定性和可靠性,是构建高质量AI应用的必备环节。
查看详情
Perplexity数据处理与优化
perplexity-data-handling
jeremylongshore/claude-code-plugins-plus-skills
94
本技能旨在管理Perplexity搜索工作流中的复杂数据流。它实现了关键的安全功能,如查询中的个人身份信息(PII)脱敏,用于验证外部引用源的准确性,通过设置数据新鲜度策略进行结果缓存优化,并管理对话上下文,确保AI应用的健壮性、合规性与高可靠性。
查看详情
1
2
3
4
下一页
语言
简体中文
English