下载

Skill UI

浏览并发现 9688+ 精选技能

全部编程开发人工智能设计创意产品商业数据科学市场营销职场通用效率工具硬件工程语言学习

搜索指标评估，共找到 11 条记录

默认排序最新上传最多下载

大语言模型智能体评估

agent-evaluation

sickn33/antigravity-awesome-skills

这是一个用于全面测试和评估大型语言模型（LLM）智能体的框架。它超越了简单的通过/失败判断，深入评估智能体的复杂行为、可靠性指标和能力一致性。适用于生产环境的监控，帮助识别高级AI智能体中的微妙故障模式。

Claude 评估驱动框架

affaan-m/everything-claude-code

Claude Code正式评估框架，先定义能力与回归标准，再用代码/模型/人工评估多个阶段，并持续跟踪pass@k和pass^k等可靠性指标以确保交付质量。

代码模型评估与基准测试

evaluating-code-models

Orchestra-Research/AI-Research-SKILLs

本工具箱用于全面评估代码生成模型的性能。它支持针对HumanEval、MBPP、MultiPL-E等行业标准进行多语言基准测试。可量化比较不同大型语言模型（LLM）的编码能力，通过pass@k指标衡量代码生成质量。

LLM微调专家指南

fine-tuning-expert

Jeffallan/claude-skills

指导模型工程师完成数据准备、LoRA/QLoRA 适配器配置、训练监控、评估指标收集以及 Adapter 合并部署等 LLM 微调与量化的关键流程。

LLM模型评估与性能测试

sickn33/antigravity-awesome-skills

提供了一套全面的大型语言模型（LLM）评估框架。内容涵盖自动化指标（如BLEU、ROUGE、BERTScore）、人工评估维度以及使用LLM作为裁判的先进方法。适用于系统性地衡量模型性能、对比不同Prompt或模型，确保AI应用的可靠性和可部署性。

模型评估指标助手

model-evaluation-metrics

jeremylongshore/claude-code-plugins-plus-skills

自动提供模型评估指标的指导，涵盖实践、代码和验证规范，针对提及模型评估指标时自动激活的训练辅助。

深度学习模型优化

optimizing-deep-learning-models

jeremylongshore/claude-code-plugins-plus-skills

通过分析模型结构、数据与指标，自动选择优化器、调度学习率和正则化方法，生成优化后的代码并评估准确率、训练时间与资源消耗，适合需要提升性能与效率的深度学习模型。

Vertex AI代理引擎部署审计

vertex-engine-inspector

jeremylongshore/claude-code-plugins-plus-skills

本工具用于全面检查和验证Vertex AI代理引擎的部署状态。它深入评估了包括代码沙箱、内存银行、A2A协议合规性、安全态势和性能指标等关键组件。该技能可生成加权生产就绪度分数，并提供详细的优化建议，确保您的AI部署具备生产可用性。

高级LLM评估技术

advanced-evaluation

sickn33/antigravity-awesome-skills

本技能专注于构建面向生产环境的LLM评估系统。内容涵盖了先进的评估方法论，包括直接评分和配对比较，并详细介绍了如何系统性地消除评估中的偏差（如位置偏差、长度偏差）。它指导用户如何选择合适的评估指标，并构建结构化的Prompt，以确保AI模型质量评估的客观性和可靠性。

Arize LLM评估与监控

arize-evaluator

github/awesome-copilot

本技能用于在Arize平台上设置和运行LLM判官评估。用户可以定义评估器（包括提示词模板、分类选项和模型），并将评估器应用于项目或实验数据。支持对幻觉、忠实度、正确性等关键指标进行打分，并实现持续监控，确保LLM性能的完整追溯。

大模型链评估与回归测试

langchain-eval-harness

jeremylongshore/claude-code-plugins-plus-skills

本工具提供了一套全面的、可复现的LLM链和智能体评估系统。它集成了黄金数据集管理、LangSmith评估、RAGAS指标、deepeval LLM判别等功能。适用于为新构建的链条设置质量基线、诊断模型切换后的性能退化，以及在CI/CD流程中设置回归检测门禁。

1

语言