登录
下载
Skill UI
浏览并发现
9765+
精选技能
全部
编程开发
人工智能
设计创意
产品商业
数据科学
市场营销
职场通用
效率工具
硬件工程
语言学习
搜索
回归
,共找到
8
条记录
默认排序
最新上传
最多下载
Claude 评估驱动框架
eval-harness
affaan-m/everything-claude-code
90
Claude Code正式评估框架,先定义能力与回归标准,再用代码/模型/人工评估多个阶段,并持续跟踪pass@k和pass^k等可靠性指标以确保交付质量。
查看详情
Langfuse CI/CD:LLM质量测试集成
langfuse-ci-integration
jeremylongshore/claude-code-plugins-plus-skills
444
本指南展示如何将Langfuse集成到CI/CD流水线(例如GitHub Actions)中,用于自动化大型语言模型(LLM)的质量测试。用户可以实现提示词回归测试、调用链验证和实验驱动的质量门禁,确保AI应用的稳定性和性能。
查看详情
Mistral AI CI/CD 提示词测试
mistral-ci-integration
jeremylongshore/claude-code-plugins-plus-skills
485
本工具用于在CI/CD流程中自动化Mistral AI的验证和测试。它支持提示词回归测试、模型响应质量检查和API成本估算,确保每次代码提交和合并请求都能保证AI功能的稳定性和可靠性,是构建高质量AI应用的必备环节。
查看详情
凤凰AI可观测平台
phoenix-observability
Orchestra-Research/AI-Research-SKILLs
439
Phoenix 是开源AI可观测平台,可用于追踪、评估和监控大语言模型应用,支持实验对比、数据集回归测试与实时生产监控,帮助工程团队自托管排查与优化。
查看详情
提示治理工具包
prompt-governance
alirezarezvani/claude-skills
278
将提示视为生产级代码,提供注册中心、评估流水线和治理流程,帮助团队管理版本、测试质量、推进上线并防止回归。
查看详情
Python科学计算与机器学习
scikit-learn
K-Dense-AI/scientific-agent-skills
279
Scikit-learn是行业标准的Python机器学习库,为完整的机器学习生命周期提供工具。它涵盖了监督学习(分类、回归)、无监督学习(聚类、降维)、数据预处理、模型评估和构建生产级ML流水线。适用于需要进行复杂数据分析的科学计算和数据科学场景。
查看详情
云端大模型回归测试
cloud-provider-regression-test
SharpAI/DeepCamera
276
本工具用于自动化执行所有已启用云端大语言模型(LLM)提供商的回归测试。它全面验证了连接性、标准聊天补全、结构化JSON输出以及SSE流式传输能力。适用于确保多云AI集成在持续集成/持续部署流程中的稳定性和可靠性。
查看详情
大模型链评估与回归测试
langchain-eval-harness
jeremylongshore/claude-code-plugins-plus-skills
103
本工具提供了一套全面的、可复现的LLM链和智能体评估系统。它集成了黄金数据集管理、LangSmith评估、RAGAS指标、deepeval LLM判别等功能。适用于为新构建的链条设置质量基线、诊断模型切换后的性能退化,以及在CI/CD流程中设置回归检测门禁。
查看详情
1
语言
简体中文
English