下载

Skill UI

浏览并发现 9765+ 精选技能

全部编程开发人工智能设计创意产品商业数据科学市场营销职场通用效率工具硬件工程语言学习

搜索回归，共找到 8 条记录

默认排序最新上传最多下载

Claude 评估驱动框架

affaan-m/everything-claude-code

Claude Code正式评估框架，先定义能力与回归标准，再用代码/模型/人工评估多个阶段，并持续跟踪pass@k和pass^k等可靠性指标以确保交付质量。

Langfuse CI/CD：LLM质量测试集成

langfuse-ci-integration

jeremylongshore/claude-code-plugins-plus-skills

本指南展示如何将Langfuse集成到CI/CD流水线（例如GitHub Actions）中，用于自动化大型语言模型（LLM）的质量测试。用户可以实现提示词回归测试、调用链验证和实验驱动的质量门禁，确保AI应用的稳定性和性能。

Mistral AI CI/CD 提示词测试

mistral-ci-integration

jeremylongshore/claude-code-plugins-plus-skills

本工具用于在CI/CD流程中自动化Mistral AI的验证和测试。它支持提示词回归测试、模型响应质量检查和API成本估算，确保每次代码提交和合并请求都能保证AI功能的稳定性和可靠性，是构建高质量AI应用的必备环节。

凤凰AI可观测平台

phoenix-observability

Orchestra-Research/AI-Research-SKILLs

Phoenix 是开源AI可观测平台，可用于追踪、评估和监控大语言模型应用，支持实验对比、数据集回归测试与实时生产监控，帮助工程团队自托管排查与优化。

提示治理工具包

prompt-governance

alirezarezvani/claude-skills

将提示视为生产级代码，提供注册中心、评估流水线和治理流程，帮助团队管理版本、测试质量、推进上线并防止回归。

Python科学计算与机器学习

K-Dense-AI/scientific-agent-skills

Scikit-learn是行业标准的Python机器学习库，为完整的机器学习生命周期提供工具。它涵盖了监督学习（分类、回归）、无监督学习（聚类、降维）、数据预处理、模型评估和构建生产级ML流水线。适用于需要进行复杂数据分析的科学计算和数据科学场景。

云端大模型回归测试

cloud-provider-regression-test

SharpAI/DeepCamera

本工具用于自动化执行所有已启用云端大语言模型（LLM）提供商的回归测试。它全面验证了连接性、标准聊天补全、结构化JSON输出以及SSE流式传输能力。适用于确保多云AI集成在持续集成/持续部署流程中的稳定性和可靠性。

大模型链评估与回归测试

langchain-eval-harness

jeremylongshore/claude-code-plugins-plus-skills

本工具提供了一套全面的、可复现的LLM链和智能体评估系统。它集成了黄金数据集管理、LangSmith评估、RAGAS指标、deepeval LLM判别等功能。适用于为新构建的链条设置质量基线、诊断模型切换后的性能退化，以及在CI/CD流程中设置回归检测门禁。

1

语言