下载

Skill UI

浏览并发现 6932+ 精选技能

全部编程开发人工智能设计创意产品商业数据科学市场营销职场通用效率工具硬件工程语言学习

搜索评估器，共找到 65 条记录

默认排序最新上传最多下载

Arize数据集管理工具

github/awesome-copilot

该技能提供全面的命令行接口，用于管理Arize数据集的整个生命周期。用户可以使用它来执行数据集的创建、读取、元数据查询和批量导出操作。它适用于需要版本控制和评估的机器学习实验和模型验证场景，支持CSV、JSON等多种数据格式。

Arize 判定评估流程

arize-evaluator

github/awesome-copilot

通过 ax 命令在 Arize 上设计、运行和监控 LLM 判断评估器，支持创建/更新评估器、任务触发、列映射、连续监控、跨度与实验评估，以及查询过滤等操作。

Python LLM 评估驱动QA

eval-driven-dev

github/awesome-copilot

为 Python LLM 应用搭建评估驱动的 QA 流程，记录真实执行、注入测试输入、用评估器打分 pixie test 结果，并基于反馈修复问题，确保质量。

记忆指令合并器

github/awesome-copilot

在 VS Code 中将某个领域的成熟记忆内容合并到对应的指令文件，可选全局或工作区范围，保留知识、减少重复，并在完成质量评估后再更新源文件。

凤凰评估工具包

github/awesome-copilot

Phoenix Evals 帮助团队为 AI/LLM 应用构建评估器，先用确定性代码，再参考 LLM，支持 Python 与 TypeScript 工作流，通过错误分析、RAG 与生产流程结合人工数据验证效果。

上一页 1 2 3 4 56

语言