登录
下载
Skill UI
浏览并发现
7039+
精选技能
全部
编程开发
人工智能
设计创意
产品商业
数据科学
市场营销
职场通用
效率工具
硬件工程
语言学习
搜索
测试框架
,共找到
3
条记录
默认排序
最新上传
最多下载
大语言模型智能体评估
agent-evaluation
sickn33/antigravity-awesome-skills
361
这是一个用于全面测试和评估大型语言模型(LLM)智能体的框架。它超越了简单的通过/失败判断,深入评估智能体的复杂行为、可靠性指标和能力一致性。适用于生产环境的监控,帮助识别高级AI智能体中的微妙故障模式。
查看详情
LLM 评估框架
evaluating-llms-harness
Orchestra-Research/AI-Research-SKILLs
458
提供涵盖 MMLU、HumanEval、GSM8K、TruthfulQA、HellaSwag 等 60+ 学术基准测试的标准化评估流程,可用来对 HuggingFace、vLLM 或 API 模型打分、比对性能、跟踪训练进度。
查看详情
PyTorch模型因果干预
pyvene-interventions
Orchestra-Research/AI-Research-SKILLs
148
pyvene是一个用于在PyTorch模型上执行因果干预的声明式框架。它支持激活打补丁、因果追踪(ROME风格)和交替干预训练等高级实验。适用于需要测试模型因果假设、深入理解模型组件工作机制或确保可复现性的AI研究场景。
查看详情
1
语言
简体中文
English