下载

Skill UI

浏览并发现 9765+ 精选技能

全部编程开发人工智能设计创意产品商业数据科学市场营销职场通用效率工具硬件工程语言学习

搜索质量评估，共找到 17 条记录

默认排序最新上传最多下载

Claude 评估驱动框架

affaan-m/everything-claude-code

Claude Code正式评估框架，先定义能力与回归标准，再用代码/模型/人工评估多个阶段，并持续跟踪pass@k和pass^k等可靠性指标以确保交付质量。

代码模型评估与基准测试

evaluating-code-models

Orchestra-Research/AI-Research-SKILLs

本工具箱用于全面评估代码生成模型的性能。它支持针对HumanEval、MBPP、MultiPL-E等行业标准进行多语言基准测试。可量化比较不同大型语言模型（LLM）的编码能力，通过pass@k指标衡量代码生成质量。

智能体系统评估框架

sickn33/antigravity-awesome-skills

该技能用于构建复杂的智能体系统评估框架。它解决了智能体系统非确定性和多路径决策的难题，指导用户进行系统性性能测试，用于验证上下文工程的选择，并衡量跨多个质量维度（如事实准确性、工具效率）的持续改进。

Langfuse 观测平台

sickn33/antigravity-awesome-skills

Langfuse 提供完整的 LLM 观测能力，涵盖调用追踪、提示管理、评估打分与成本/延迟/质量监控，适用于与 LangChain、LlamaIndex、OpenAI 等集成的生产场景。

Langfuse LLM评估与基准测试

langfuse-core-workflow-b

jeremylongshore/claude-code-plugins-plus-skills

本技能提供一套完整的LLM评估工作流，使用Langfuse平台实现系统质量管理。涵盖了利用评分机制、收集用户反馈、管理版本化的Prompt、创建测试数据集、运行自动化实验（包括LLM-as-a-Judge）等多个环节，旨在帮助开发者进行全面的模型性能基准测试和质量保障。

LangSmith LLM 可观测平台

langsmith-observability

Orchestra-Research/AI-Research-SKILLs

LangSmith 为 LLM 应用提供端到端观测能力，跟踪调用、评估输出、监控生产系统并构建测试集，同时与 OpenAI、Anthropic、LangChain 等集成，方便排查问题与保障服务质量。

高级提示词工程指南

senior-prompt-engineer

alirezarezvani/claude-skills

为提示词工程师准备的工具集，涵盖提示优化、LLM评估、RAG 质量检测、少样本示例整理及智能体工作流可视化与验证，助力构建可靠的代理系统。

科学批判性思维

scientific-critical-thinking

K-Dense-AI/claude-scientific-skills

评估科研结论和实验严谨性，根据方法学、统计有效性、证据质量与偏差，结合 GRADE 与 Cochrane 风险评估框架，必要时配套科学图示，提升分析清晰度。

高级LLM评估技术

advanced-evaluation

sickn33/antigravity-awesome-skills

本技能专注于构建面向生产环境的LLM评估系统。内容涵盖了先进的评估方法论，包括直接评分和配对比较，并详细介绍了如何系统性地消除评估中的偏差（如位置偏差、长度偏差）。它指导用户如何选择合适的评估指标，并构建结构化的Prompt，以确保AI模型质量评估的客观性和可靠性。

持续自律代理循环模式

continuous-agent-loop

affaan-m/everything-claude-code

这是一个用于构建健壮、持续自律代理循环的系统模式。它集成了关键的质量门、评估机制和故障恢复控制，用于指导自主智能体的复杂工作流。通过定义决策流程和完善的故障处理策略，它能够有效避免无限循环、成本漂移等问题，确保系统持续获得可测量的进展。

GEO内容质量E-E-A-T评估

zubair-trabzada/geo-seo-claude

分析站点内容的经验、专业、权威与可信信号，指导AI引用与结构优化。

Clarvia工具就绪度评估

clarvia-aeo-check

sickn33/antigravity-awesome-skills

该技能利用Clarvia AEO（智能体体验优化）评估任何工具（MCP服务器、API或CLI）的智能体就绪度。它从API可访问性、数据结构、智能体兼容性等多个维度对上万个工具进行打分，确保集成到AI Agent工作流中的组件具备足够的高质量和可靠性。

语言