下载

Skill UI

浏览并发现 6201+ 精选技能

全部编程开发人工智能设计创意产品商业数据科学市场营销职场通用效率工具硬件工程语言学习

搜索人工评估，共找到 4 条记录

默认排序最新上传最多下载

Claude 评估驱动框架

affaan-m/everything-claude-code

Claude Code正式评估框架，先定义能力与回归标准，再用代码/模型/人工评估多个阶段，并持续跟踪pass@k和pass^k等可靠性指标以确保交付质量。

LLM评估工具集

sickn33/antigravity-awesome-skills

指导通过自动化指标、人工评估及大模型裁判策略，衡量提示、监控回归、验证生产部署质量。

LLM 自动评估指南

advanced-evaluation

sickn33/antigravity-awesome-skills

围绕 LLM 评审构建生产级评估体系，涵盖直接评分与对比分析流程、降低位置/长度等偏差、以及面向自动化或人工评审的指标选型。

自动化多轮评审循环

auto-review-loop

wanshuiyin/Auto-claude-code-research-in-sleep

通过 Codex MCP 不断评审、实施修改并再评估，直到审稿人确认通过或达到最大轮数。记录日志、保存可恢复状态、支持压缩恢复与可选人工检查，适合需要持续改进的研究或工程稿件。

1

语言