登录
下载
Skill UI
浏览并发现
9688+
精选技能
全部
编程开发
人工智能
设计创意
产品商业
数据科学
市场营销
职场通用
效率工具
硬件工程
语言学习
搜索
基准测试
,共找到
9
条记录
默认排序
最新上传
最多下载
代码模型评估与基准测试
evaluating-code-models
Orchestra-Research/AI-Research-SKILLs
124
本工具箱用于全面评估代码生成模型的性能。它支持针对HumanEval、MBPP、MultiPL-E等行业标准进行多语言基准测试。可量化比较不同大型语言模型(LLM)的编码能力,通过pass@k指标衡量代码生成质量。
查看详情
LLM 评估框架
evaluating-llms-harness
Orchestra-Research/AI-Research-SKILLs
484
提供涵盖 MMLU、HumanEval、GSM8K、TruthfulQA、HellaSwag 等 60+ 学术基准测试的标准化评估流程,可用来对 HuggingFace、vLLM 或 API 模型打分、比对性能、跟踪训练进度。
查看详情
Langfuse LLM评估与基准测试
langfuse-core-workflow-b
jeremylongshore/claude-code-plugins-plus-skills
87
本技能提供一套完整的LLM评估工作流,使用Langfuse平台实现系统质量管理。涵盖了利用评分机制、收集用户反馈、管理版本化的Prompt、创建测试数据集、运行自动化实验(包括LLM-as-a-Judge)等多个环节,旨在帮助开发者进行全面的模型性能基准测试和质量保障。
查看详情
机器人课题探索全流程
idea-discovery-robot
wanshuiyin/Auto-claude-code-research-in-sleep
236
这是一个专业的机器人想法发现工作流,包含文献调研、新颖性检查和批判性回顾等多个阶段。它帮助用户将一个宽泛的机器人方向,系统性地转化为具备可验证性、可仿真化和明确基准测试的创新项目点子,适用于前沿课题研究和项目孵化。
查看详情
本地Hugging Face模型评估
hugging-face-community-evals
sickn33/antigravity-awesome-skills
359
本技能用于在本地硬件上对Hugging Face Hub上的大模型进行专业的评估和基准测试。它支持使用`inspect-ai`和`lighteval`等评估框架,帮助用户选择最佳推理后端(如`vllm`、Transformers或`accelerate`),进行全面的烟雾测试和任务选择。该技能专注于本地执行流程,不负责远程作业编排或结果发布。
查看详情
自动AI智能体进化与优化
evolving-ai-agents
Orchestra-Research/AI-Research-SKILLs
63
A-Evolve是一个通用框架,用于通过LLM驱动的进化算法,自动优化和迭代改进AI智能体。它通过在标准基准测试(Benchmarks)上运行“求解-观察-进化”循环,持续优化智能体的提示词、技能和记忆,实现自学习的、性能增强的智能体。
查看详情
家庭安防AI基准测试套件
home-security-ai-benchmark
SharpAI/DeepCamera
379
本套件是一个全面的评估工具,用于基准测试大型语言模型(LLM)和视觉语言模型(VLM)在家庭安防领域的性能。它涵盖了143项测试,覆盖了工具使用、提示注入抵抗性、上下文推理、警报分诊和场景分析等16个关键领域,旨在确保智能家居AI系统的稳健性。
查看详情
室内安全隐患检测基准
homesafe-bench
SharpAI/DeepCamera
444
本基准测试用于评估视觉语言模型(VLM)从静态图像中识别室内环境潜在安全隐患的能力。测试覆盖了火灾、电路、跌倒、儿童安全和坠物等五大类别的40个场景,旨在模拟真实世界的固定安防监控,提供VLM实用安全检测能力的严格衡量标准。
查看详情
智能家居视频异常检测基准
smarthome-video-anomaly-benchmark
SharpAI/DeepCamera
102
本基准测试套件专用于评估视觉语言模型(VLM)在智能家居视频异常检测方面的能力。它基于真实的家庭数据集,覆盖了安全入侵、老人跌倒、宠物异常行为等多个生活场景。该测试要求模型进行深度多帧视频理解,是检验AI系统视频理解能力和实时监测准确性的专业级工具。
查看详情
1
语言
简体中文
English