登录
下载
Skill UI
浏览并发现
9688+
精选技能
全部
编程开发
人工智能
设计创意
产品商业
数据科学
市场营销
职场通用
效率工具
硬件工程
语言学习
搜索
指标评估
,共找到
11
条记录
默认排序
最新上传
最多下载
大语言模型智能体评估
agent-evaluation
sickn33/antigravity-awesome-skills
271
这是一个用于全面测试和评估大型语言模型(LLM)智能体的框架。它超越了简单的通过/失败判断,深入评估智能体的复杂行为、可靠性指标和能力一致性。适用于生产环境的监控,帮助识别高级AI智能体中的微妙故障模式。
查看详情
Claude 评估驱动框架
eval-harness
affaan-m/everything-claude-code
90
Claude Code正式评估框架,先定义能力与回归标准,再用代码/模型/人工评估多个阶段,并持续跟踪pass@k和pass^k等可靠性指标以确保交付质量。
查看详情
代码模型评估与基准测试
evaluating-code-models
Orchestra-Research/AI-Research-SKILLs
124
本工具箱用于全面评估代码生成模型的性能。它支持针对HumanEval、MBPP、MultiPL-E等行业标准进行多语言基准测试。可量化比较不同大型语言模型(LLM)的编码能力,通过pass@k指标衡量代码生成质量。
查看详情
LLM微调专家指南
fine-tuning-expert
Jeffallan/claude-skills
454
指导模型工程师完成数据准备、LoRA/QLoRA 适配器配置、训练监控、评估指标收集以及 Adapter 合并部署等 LLM 微调与量化的关键流程。
查看详情
LLM模型评估与性能测试
llm-evaluation
sickn33/antigravity-awesome-skills
356
提供了一套全面的大型语言模型(LLM)评估框架。内容涵盖自动化指标(如BLEU、ROUGE、BERTScore)、人工评估维度以及使用LLM作为裁判的先进方法。适用于系统性地衡量模型性能、对比不同Prompt或模型,确保AI应用的可靠性和可部署性。
查看详情
模型评估指标助手
model-evaluation-metrics
jeremylongshore/claude-code-plugins-plus-skills
227
自动提供模型评估指标的指导,涵盖实践、代码和验证规范,针对提及模型评估指标时自动激活的训练辅助。
查看详情
深度学习模型优化
optimizing-deep-learning-models
jeremylongshore/claude-code-plugins-plus-skills
370
通过分析模型结构、数据与指标,自动选择优化器、调度学习率和正则化方法,生成优化后的代码并评估准确率、训练时间与资源消耗,适合需要提升性能与效率的深度学习模型。
查看详情
Vertex AI代理引擎部署审计
vertex-engine-inspector
jeremylongshore/claude-code-plugins-plus-skills
68
本工具用于全面检查和验证Vertex AI代理引擎的部署状态。它深入评估了包括代码沙箱、内存银行、A2A协议合规性、安全态势和性能指标等关键组件。该技能可生成加权生产就绪度分数,并提供详细的优化建议,确保您的AI部署具备生产可用性。
查看详情
高级LLM评估技术
advanced-evaluation
sickn33/antigravity-awesome-skills
223
本技能专注于构建面向生产环境的LLM评估系统。内容涵盖了先进的评估方法论,包括直接评分和配对比较,并详细介绍了如何系统性地消除评估中的偏差(如位置偏差、长度偏差)。它指导用户如何选择合适的评估指标,并构建结构化的Prompt,以确保AI模型质量评估的客观性和可靠性。
查看详情
Arize LLM评估与监控
arize-evaluator
github/awesome-copilot
271
本技能用于在Arize平台上设置和运行LLM判官评估。用户可以定义评估器(包括提示词模板、分类选项和模型),并将评估器应用于项目或实验数据。支持对幻觉、忠实度、正确性等关键指标进行打分,并实现持续监控,确保LLM性能的完整追溯。
查看详情
大模型链评估与回归测试
langchain-eval-harness
jeremylongshore/claude-code-plugins-plus-skills
103
本工具提供了一套全面的、可复现的LLM链和智能体评估系统。它集成了黄金数据集管理、LangSmith评估、RAGAS指标、deepeval LLM判别等功能。适用于为新构建的链条设置质量基线、诊断模型切换后的性能退化,以及在CI/CD流程中设置回归检测门禁。
查看详情
1
语言
简体中文
English