登录
下载
Skill UI
浏览并发现
9765+
精选技能
全部
编程开发
人工智能
设计创意
产品商业
数据科学
市场营销
职场通用
效率工具
硬件工程
语言学习
搜索
质量评估
,共找到
17
条记录
默认排序
最新上传
最多下载
Claude 评估驱动框架
eval-harness
affaan-m/everything-claude-code
90
Claude Code正式评估框架,先定义能力与回归标准,再用代码/模型/人工评估多个阶段,并持续跟踪pass@k和pass^k等可靠性指标以确保交付质量。
查看详情
代码模型评估与基准测试
evaluating-code-models
Orchestra-Research/AI-Research-SKILLs
124
本工具箱用于全面评估代码生成模型的性能。它支持针对HumanEval、MBPP、MultiPL-E等行业标准进行多语言基准测试。可量化比较不同大型语言模型(LLM)的编码能力,通过pass@k指标衡量代码生成质量。
查看详情
智能体系统评估框架
evaluation
sickn33/antigravity-awesome-skills
70
该技能用于构建复杂的智能体系统评估框架。它解决了智能体系统非确定性和多路径决策的难题,指导用户进行系统性性能测试,用于验证上下文工程的选择,并衡量跨多个质量维度(如事实准确性、工具效率)的持续改进。
查看详情
Langfuse 观测平台
langfuse
sickn33/antigravity-awesome-skills
134
Langfuse 提供完整的 LLM 观测能力,涵盖调用追踪、提示管理、评估打分与成本/延迟/质量监控,适用于与 LangChain、LlamaIndex、OpenAI 等集成的生产场景。
查看详情
Langfuse LLM评估与基准测试
langfuse-core-workflow-b
jeremylongshore/claude-code-plugins-plus-skills
87
本技能提供一套完整的LLM评估工作流,使用Langfuse平台实现系统质量管理。涵盖了利用评分机制、收集用户反馈、管理版本化的Prompt、创建测试数据集、运行自动化实验(包括LLM-as-a-Judge)等多个环节,旨在帮助开发者进行全面的模型性能基准测试和质量保障。
查看详情
LangSmith LLM 可观测平台
langsmith-observability
Orchestra-Research/AI-Research-SKILLs
91
LangSmith 为 LLM 应用提供端到端观测能力,跟踪调用、评估输出、监控生产系统并构建测试集,同时与 OpenAI、Anthropic、LangChain 等集成,方便排查问题与保障服务质量。
查看详情
高级提示词工程指南
senior-prompt-engineer
alirezarezvani/claude-skills
468
为提示词工程师准备的工具集,涵盖提示优化、LLM评估、RAG 质量检测、少样本示例整理及智能体工作流可视化与验证,助力构建可靠的代理系统。
查看详情
科学批判性思维
scientific-critical-thinking
K-Dense-AI/claude-scientific-skills
96
评估科研结论和实验严谨性,根据方法学、统计有效性、证据质量与偏差,结合 GRADE 与 Cochrane 风险评估框架,必要时配套科学图示,提升分析清晰度。
查看详情
高级LLM评估技术
advanced-evaluation
sickn33/antigravity-awesome-skills
223
本技能专注于构建面向生产环境的LLM评估系统。内容涵盖了先进的评估方法论,包括直接评分和配对比较,并详细介绍了如何系统性地消除评估中的偏差(如位置偏差、长度偏差)。它指导用户如何选择合适的评估指标,并构建结构化的Prompt,以确保AI模型质量评估的客观性和可靠性。
查看详情
持续自律代理循环模式
continuous-agent-loop
affaan-m/everything-claude-code
382
这是一个用于构建健壮、持续自律代理循环的系统模式。它集成了关键的质量门、评估机制和故障恢复控制,用于指导自主智能体的复杂工作流。通过定义决策流程和完善的故障处理策略,它能够有效避免无限循环、成本漂移等问题,确保系统持续获得可测量的进展。
查看详情
GEO内容质量E-E-A-T评估
geo-content
zubair-trabzada/geo-seo-claude
178
分析站点内容的经验、专业、权威与可信信号,指导AI引用与结构优化。
查看详情
Clarvia工具就绪度评估
clarvia-aeo-check
sickn33/antigravity-awesome-skills
416
该技能利用Clarvia AEO(智能体体验优化)评估任何工具(MCP服务器、API或CLI)的智能体就绪度。它从API可访问性、数据结构、智能体兼容性等多个维度对上万个工具进行打分,确保集成到AI Agent工作流中的组件具备足够的高质量和可靠性。
查看详情
1
2
下一页
语言
简体中文
English