登录
下载
Skill UI
浏览并发现
9126+
精选技能
全部
编程开发
人工智能
设计创意
产品商业
数据科学
市场营销
职场通用
效率工具
硬件工程
语言学习
搜索
A/B测试
,共找到
50
条记录
默认排序
最新上传
最多下载
A/B测试配置生成器
a-b-test-config-creator
jeremylongshore/claude-code-plugins-plus-skills
96
此技能自动生成用于机器学习部署的A/B测试配置,提供规范流程、代码示例和校验建议,帮助模型上线后具备完整的监控与灰度能力。
查看详情
ADK智能体构建器
adk-agent-builder
jeremylongshore/claude-code-plugins-plus-skills
202
通过 Google ADK 与 Claude 组合,快速生成具备 React 循环、多智能体协作、工具扩展、工作流自动化及测试骨架的生产级智能体。
查看详情
大语言模型智能体评估
agent-evaluation
sickn33/antigravity-awesome-skills
271
这是一个用于全面测试和评估大型语言模型(LLM)智能体的框架。它超越了简单的通过/失败判断,深入评估智能体的复杂行为、可靠性指标和能力一致性。适用于生产环境的监控,帮助识别高级AI智能体中的微妙故障模式。
查看详情
智能体性能优化工作流
agent-orchestration-improve-agent
sickn33/antigravity-awesome-skills
398
本工作流提供了一个系统性的框架,用于提升现有AI智能体的性能和可靠性。流程包括全面性能指标分析、详细的故障模式分类、高级提示词工程优化(如思维链和宪法AI),并最终通过结构化的A/B测试和受控部署,实现可量化、鲁棒的性能提升。
查看详情
代码模型评估与基准测试
evaluating-code-models
Orchestra-Research/AI-Research-SKILLs
200
本工具箱用于全面评估代码生成模型的性能。它支持针对HumanEval、MBPP、MultiPL-E等行业标准进行多语言基准测试。可量化比较不同大型语言模型(LLM)的编码能力,通过pass@k指标衡量代码生成质量。
查看详情
LLM 评估框架
evaluating-llms-harness
Orchestra-Research/AI-Research-SKILLs
66
提供涵盖 MMLU、HumanEval、GSM8K、TruthfulQA、HellaSwag 等 60+ 学术基准测试的标准化评估流程,可用来对 HuggingFace、vLLM 或 API 模型打分、比对性能、跟踪训练进度。
查看详情
智能体系统评估框架
evaluation
sickn33/antigravity-awesome-skills
66
该技能用于构建复杂的智能体系统评估框架。它解决了智能体系统非确定性和多路径决策的难题,指导用户进行系统性性能测试,用于验证上下文工程的选择,并衡量跨多个质量维度(如事实准确性、工具效率)的持续改进。
查看详情
Ideogram 图像生成入门指南
ideogram-hello-world
jeremylongshore/claude-code-plugins-plus-skills
349
本指南提供了使用Ideogram API生成AI图像的完整入门示例。它提供了cURL、TypeScript和Python等多种语言的实战代码,涵盖了从基础调用到高级参数设置(如风格、比例)的全部流程。非常适合开发者进行API集成测试和快速上手。
查看详情
Kling AI模型升级与迁移指南
klingai-upgrade-migration
jeremylongshore/claude-code-plugins-plus-skills
186
本指南为开发者提供了安全迁移Kling AI视频生成模型版本(如v1.x到v2.x)的全面指导。内容涵盖了版本间的兼容性变更、参数差异、功能矩阵(包括原生音频和相机控制)以及代码示例,帮助开发者理解如何进行模型升级、A/B测试和实现可靠的回滚机制,确保API集成顺利。
查看详情
LangChain生产环境就绪度清单
langchain-prod-checklist
jeremylongshore/claude-code-plugins-plus-skills
131
这是一份全面的LangChain应用程序生产环境就绪度清单。它系统性地覆盖了从配置管理、错误处理、可观测性(如LangSmith)、性能优化、安全加固(防止提示注入、处理PII)到严格测试和部署策略等多个维度,帮助开发者确保AI应用具备高可靠性和可维护性,适用于应用上线前或现有系统的审计。
查看详情
Langfuse CI/CD:LLM质量测试集成
langfuse-ci-integration
jeremylongshore/claude-code-plugins-plus-skills
444
本指南展示如何将Langfuse集成到CI/CD流水线(例如GitHub Actions)中,用于自动化大型语言模型(LLM)的质量测试。用户可以实现提示词回归测试、调用链验证和实验驱动的质量门禁,确保AI应用的稳定性和性能。
查看详情
Langfuse LLM评估与基准测试
langfuse-core-workflow-b
jeremylongshore/claude-code-plugins-plus-skills
87
本技能提供一套完整的LLM评估工作流,使用Langfuse平台实现系统质量管理。涵盖了利用评分机制、收集用户反馈、管理版本化的Prompt、创建测试数据集、运行自动化实验(包括LLM-as-a-Judge)等多个环节,旨在帮助开发者进行全面的模型性能基准测试和质量保障。
查看详情
1
2
3
4
5
下一页
语言
简体中文
English