下载

Skill UI

浏览并发现 9126+ 精选技能

全部编程开发人工智能设计创意产品商业数据科学市场营销职场通用效率工具硬件工程语言学习

搜索 A/B测试，共找到 50 条记录

默认排序最新上传最多下载

A/B测试配置生成器

a-b-test-config-creator

jeremylongshore/claude-code-plugins-plus-skills

此技能自动生成用于机器学习部署的A/B测试配置，提供规范流程、代码示例和校验建议，帮助模型上线后具备完整的监控与灰度能力。

ADK智能体构建器

adk-agent-builder

jeremylongshore/claude-code-plugins-plus-skills

通过 Google ADK 与 Claude 组合，快速生成具备 React 循环、多智能体协作、工具扩展、工作流自动化及测试骨架的生产级智能体。

大语言模型智能体评估

agent-evaluation

sickn33/antigravity-awesome-skills

这是一个用于全面测试和评估大型语言模型（LLM）智能体的框架。它超越了简单的通过/失败判断，深入评估智能体的复杂行为、可靠性指标和能力一致性。适用于生产环境的监控，帮助识别高级AI智能体中的微妙故障模式。

智能体性能优化工作流

agent-orchestration-improve-agent

sickn33/antigravity-awesome-skills

本工作流提供了一个系统性的框架，用于提升现有AI智能体的性能和可靠性。流程包括全面性能指标分析、详细的故障模式分类、高级提示词工程优化（如思维链和宪法AI），并最终通过结构化的A/B测试和受控部署，实现可量化、鲁棒的性能提升。

代码模型评估与基准测试

evaluating-code-models

Orchestra-Research/AI-Research-SKILLs

本工具箱用于全面评估代码生成模型的性能。它支持针对HumanEval、MBPP、MultiPL-E等行业标准进行多语言基准测试。可量化比较不同大型语言模型（LLM）的编码能力，通过pass@k指标衡量代码生成质量。

LLM 评估框架

evaluating-llms-harness

Orchestra-Research/AI-Research-SKILLs

提供涵盖 MMLU、HumanEval、GSM8K、TruthfulQA、HellaSwag 等 60+ 学术基准测试的标准化评估流程，可用来对 HuggingFace、vLLM 或 API 模型打分、比对性能、跟踪训练进度。

智能体系统评估框架

sickn33/antigravity-awesome-skills

该技能用于构建复杂的智能体系统评估框架。它解决了智能体系统非确定性和多路径决策的难题，指导用户进行系统性性能测试，用于验证上下文工程的选择，并衡量跨多个质量维度（如事实准确性、工具效率）的持续改进。

Ideogram 图像生成入门指南

ideogram-hello-world

jeremylongshore/claude-code-plugins-plus-skills

本指南提供了使用Ideogram API生成AI图像的完整入门示例。它提供了cURL、TypeScript和Python等多种语言的实战代码，涵盖了从基础调用到高级参数设置（如风格、比例）的全部流程。非常适合开发者进行API集成测试和快速上手。

Kling AI模型升级与迁移指南

klingai-upgrade-migration

jeremylongshore/claude-code-plugins-plus-skills

本指南为开发者提供了安全迁移Kling AI视频生成模型版本（如v1.x到v2.x）的全面指导。内容涵盖了版本间的兼容性变更、参数差异、功能矩阵（包括原生音频和相机控制）以及代码示例，帮助开发者理解如何进行模型升级、A/B测试和实现可靠的回滚机制，确保API集成顺利。

LangChain生产环境就绪度清单

langchain-prod-checklist

jeremylongshore/claude-code-plugins-plus-skills

这是一份全面的LangChain应用程序生产环境就绪度清单。它系统性地覆盖了从配置管理、错误处理、可观测性（如LangSmith）、性能优化、安全加固（防止提示注入、处理PII）到严格测试和部署策略等多个维度，帮助开发者确保AI应用具备高可靠性和可维护性，适用于应用上线前或现有系统的审计。

Langfuse CI/CD：LLM质量测试集成

langfuse-ci-integration

jeremylongshore/claude-code-plugins-plus-skills

本指南展示如何将Langfuse集成到CI/CD流水线（例如GitHub Actions）中，用于自动化大型语言模型（LLM）的质量测试。用户可以实现提示词回归测试、调用链验证和实验驱动的质量门禁，确保AI应用的稳定性和性能。

Langfuse LLM评估与基准测试

langfuse-core-workflow-b

jeremylongshore/claude-code-plugins-plus-skills

本技能提供一套完整的LLM评估工作流，使用Langfuse平台实现系统质量管理。涵盖了利用评分机制、收集用户反馈、管理版本化的Prompt、创建测试数据集、运行自动化实验（包括LLM-as-a-Judge）等多个环节，旨在帮助开发者进行全面的模型性能基准测试和质量保障。

12 3 4 5 下一页

语言