登录
下载
Skill UI
浏览并发现
6201+
精选技能
全部
编程开发
人工智能
设计创意
产品商业
数据科学
市场营销
职场通用
效率工具
硬件工程
语言学习
搜索
人工评估
,共找到
4
条记录
默认排序
最新上传
最多下载
Claude 评估驱动框架
eval-harness
affaan-m/everything-claude-code
90
Claude Code正式评估框架,先定义能力与回归标准,再用代码/模型/人工评估多个阶段,并持续跟踪pass@k和pass^k等可靠性指标以确保交付质量。
查看详情
LLM评估工具集
llm-evaluation
sickn33/antigravity-awesome-skills
205
指导通过自动化指标、人工评估及大模型裁判策略,衡量提示、监控回归、验证生产部署质量。
查看详情
LLM 自动评估指南
advanced-evaluation
sickn33/antigravity-awesome-skills
177
围绕 LLM 评审构建生产级评估体系,涵盖直接评分与对比分析流程、降低位置/长度等偏差、以及面向自动化或人工评审的指标选型。
查看详情
自动化多轮评审循环
auto-review-loop
wanshuiyin/Auto-claude-code-research-in-sleep
71
通过 Codex MCP 不断评审、实施修改并再评估,直到审稿人确认通过或达到最大轮数。记录日志、保存可恢复状态、支持压缩恢复与可选人工检查,适合需要持续改进的研究或工程稿件。
查看详情
1
语言
简体中文
English