登录
下载
Skill UI
浏览并发现
6932+
精选技能
全部
编程开发
人工智能
设计创意
产品商业
数据科学
市场营销
职场通用
效率工具
硬件工程
语言学习
搜索
评估器
,共找到
65
条记录
默认排序
最新上传
最多下载
Arize数据集管理工具
arize-dataset
github/awesome-copilot
454
该技能提供全面的命令行接口,用于管理Arize数据集的整个生命周期。用户可以使用它来执行数据集的创建、读取、元数据查询和批量导出操作。它适用于需要版本控制和评估的机器学习实验和模型验证场景,支持CSV、JSON等多种数据格式。
查看详情
Arize 判定评估流程
arize-evaluator
github/awesome-copilot
63
通过 ax 命令在 Arize 上设计、运行和监控 LLM 判断评估器,支持创建/更新评估器、任务触发、列映射、连续监控、跨度与实验评估,以及查询过滤等操作。
查看详情
Python LLM 评估驱动QA
eval-driven-dev
github/awesome-copilot
259
为 Python LLM 应用搭建评估驱动的 QA 流程,记录真实执行、注入测试输入、用评估器打分 pixie test 结果,并基于反馈修复问题,确保质量。
查看详情
记忆指令合并器
memory-merger
github/awesome-copilot
296
在 VS Code 中将某个领域的成熟记忆内容合并到对应的指令文件,可选全局或工作区范围,保留知识、减少重复,并在完成质量评估后再更新源文件。
查看详情
凤凰评估工具包
phoenix-evals
github/awesome-copilot
207
Phoenix Evals 帮助团队为 AI/LLM 应用构建评估器,先用确定性代码,再参考 LLM,支持 Python 与 TypeScript 工作流,通过错误分析、RAG 与生产流程结合人工数据验证效果。
查看详情
上一页
1
2
3
4
5
6
语言
简体中文
English