登录
下载
Skill UI
浏览并发现
9987+
精选技能
全部
编程开发
人工智能
设计创意
产品商业
数据科学
市场营销
职场通用
效率工具
硬件工程
语言学习
搜索
质量指标
,共找到
7
条记录
默认排序
最新上传
最多下载
Claude 评估驱动框架
eval-harness
affaan-m/everything-claude-code
90
Claude Code正式评估框架,先定义能力与回归标准,再用代码/模型/人工评估多个阶段,并持续跟踪pass@k和pass^k等可靠性指标以确保交付质量。
查看详情
代码模型评估与基准测试
evaluating-code-models
Orchestra-Research/AI-Research-SKILLs
124
本工具箱用于全面评估代码生成模型的性能。它支持针对HumanEval、MBPP、MultiPL-E等行业标准进行多语言基准测试。可量化比较不同大型语言模型(LLM)的编码能力,通过pass@k指标衡量代码生成质量。
查看详情
Kling AI生产环境部署检查清单
klingai-prod-checklist
jeremylongshore/claude-code-plugins-plus-skills
487
本清单旨在确保将Kling AI视频生成功能部署到生产环境前,系统具备高度的鲁棒性和安全性。它涵盖了认证机制、错误处理策略(如重试逻辑和超时设置)、成本控制、内容安全审查和详细的监控指标,帮助开发者全面完成上线前的质量和功能验收。
查看详情
高级提示词工程与大模型评估
senior-prompt-engineer
alirezarezvani/claude-skills
361
本工具集提供了一套高级、模型无关的LLM开发和质量保证工具。它支持通过静态分析优化提示词(包括令牌估算和清晰度评分),测量RAG检索的质量指标(如相关性、忠实度),并验证复杂的Agent工作流,确保LLM应用开发流程严谨可控。
查看详情
高级LLM评估技术
advanced-evaluation
sickn33/antigravity-awesome-skills
223
本技能专注于构建面向生产环境的LLM评估系统。内容涵盖了先进的评估方法论,包括直接评分和配对比较,并详细介绍了如何系统性地消除评估中的偏差(如位置偏差、长度偏差)。它指导用户如何选择合适的评估指标,并构建结构化的Prompt,以确保AI模型质量评估的客观性和可靠性。
查看详情
评估和排名智能体结果
eval
alirezarezvani/claude-skills
155
用于评估和对一个智能体工作流(AgentHub)中多个智能体的输出结果进行排名。它支持基于指标的评估(如运行特定命令衡量性能),以及高级LLM判官模式。该模式根据正确性、简洁性和整体质量等多维度进行定性比较,帮助用户确定最佳的最终提交结果。
查看详情
大模型链评估与回归测试
langchain-eval-harness
jeremylongshore/claude-code-plugins-plus-skills
103
本工具提供了一套全面的、可复现的LLM链和智能体评估系统。它集成了黄金数据集管理、LangSmith评估、RAGAS指标、deepeval LLM判别等功能。适用于为新构建的链条设置质量基线、诊断模型切换后的性能退化,以及在CI/CD流程中设置回归检测门禁。
查看详情
1
语言
简体中文
English