下载

Skill UI

浏览并发现 9987+ 精选技能

全部编程开发人工智能设计创意产品商业数据科学市场营销职场通用效率工具硬件工程语言学习

搜索质量指标，共找到 7 条记录

默认排序最新上传最多下载

Claude 评估驱动框架

affaan-m/everything-claude-code

Claude Code正式评估框架，先定义能力与回归标准，再用代码/模型/人工评估多个阶段，并持续跟踪pass@k和pass^k等可靠性指标以确保交付质量。

代码模型评估与基准测试

evaluating-code-models

Orchestra-Research/AI-Research-SKILLs

本工具箱用于全面评估代码生成模型的性能。它支持针对HumanEval、MBPP、MultiPL-E等行业标准进行多语言基准测试。可量化比较不同大型语言模型（LLM）的编码能力，通过pass@k指标衡量代码生成质量。

Kling AI生产环境部署检查清单

klingai-prod-checklist

jeremylongshore/claude-code-plugins-plus-skills

本清单旨在确保将Kling AI视频生成功能部署到生产环境前，系统具备高度的鲁棒性和安全性。它涵盖了认证机制、错误处理策略（如重试逻辑和超时设置）、成本控制、内容安全审查和详细的监控指标，帮助开发者全面完成上线前的质量和功能验收。

高级提示词工程与大模型评估

senior-prompt-engineer

alirezarezvani/claude-skills

本工具集提供了一套高级、模型无关的LLM开发和质量保证工具。它支持通过静态分析优化提示词（包括令牌估算和清晰度评分），测量RAG检索的质量指标（如相关性、忠实度），并验证复杂的Agent工作流，确保LLM应用开发流程严谨可控。

高级LLM评估技术

advanced-evaluation

sickn33/antigravity-awesome-skills

本技能专注于构建面向生产环境的LLM评估系统。内容涵盖了先进的评估方法论，包括直接评分和配对比较，并详细介绍了如何系统性地消除评估中的偏差（如位置偏差、长度偏差）。它指导用户如何选择合适的评估指标，并构建结构化的Prompt，以确保AI模型质量评估的客观性和可靠性。

评估和排名智能体结果

alirezarezvani/claude-skills

用于评估和对一个智能体工作流（AgentHub）中多个智能体的输出结果进行排名。它支持基于指标的评估（如运行特定命令衡量性能），以及高级LLM判官模式。该模式根据正确性、简洁性和整体质量等多维度进行定性比较，帮助用户确定最佳的最终提交结果。

大模型链评估与回归测试

langchain-eval-harness

jeremylongshore/claude-code-plugins-plus-skills

本工具提供了一套全面的、可复现的LLM链和智能体评估系统。它集成了黄金数据集管理、LangSmith评估、RAGAS指标、deepeval LLM判别等功能。适用于为新构建的链条设置质量基线、诊断模型切换后的性能退化，以及在CI/CD流程中设置回归检测门禁。

1

语言