登录
下载
Skill UI
浏览并发现
9952+
精选技能
全部
编程开发
人工智能
设计创意
产品商业
数据科学
市场营销
职场通用
效率工具
硬件工程
语言学习
搜索
能力评估
,共找到
10
条记录
默认排序
最新上传
最多下载
大语言模型智能体评估
agent-evaluation
sickn33/antigravity-awesome-skills
271
这是一个用于全面测试和评估大型语言模型(LLM)智能体的框架。它超越了简单的通过/失败判断,深入评估智能体的复杂行为、可靠性指标和能力一致性。适用于生产环境的监控,帮助识别高级AI智能体中的微妙故障模式。
查看详情
Claude 评估驱动框架
eval-harness
affaan-m/everything-claude-code
90
Claude Code正式评估框架,先定义能力与回归标准,再用代码/模型/人工评估多个阶段,并持续跟踪pass@k和pass^k等可靠性指标以确保交付质量。
查看详情
代码模型评估与基准测试
evaluating-code-models
Orchestra-Research/AI-Research-SKILLs
124
本工具箱用于全面评估代码生成模型的性能。它支持针对HumanEval、MBPP、MultiPL-E等行业标准进行多语言基准测试。可量化比较不同大型语言模型(LLM)的编码能力,通过pass@k指标衡量代码生成质量。
查看详情
Langfuse 观测平台
langfuse
sickn33/antigravity-awesome-skills
134
Langfuse 提供完整的 LLM 观测能力,涵盖调用追踪、提示管理、评估打分与成本/延迟/质量监控,适用于与 LangChain、LlamaIndex、OpenAI 等集成的生产场景。
查看详情
LangSmith LLM 可观测平台
langsmith-observability
Orchestra-Research/AI-Research-SKILLs
91
LangSmith 为 LLM 应用提供端到端观测能力,跟踪调用、评估输出、监控生产系统并构建测试集,同时与 OpenAI、Anthropic、LangChain 等集成,方便排查问题与保障服务质量。
查看详情
AI形态准备顾问
ai-shaped-readiness-advisor
deanpeters/Product-Manager-Skills
479
交互式评估工具,判断产品工作是 AI-first 还是 AI-shaped,覆盖 2026 年五项关键产品经理能力,识别成熟度空白,并提出优先培养的 AI 能力建议。
查看详情
技能编排管理器
antigravity-skill-orchestrator
sickn33/antigravity-awesome-skills
359
评估任务复杂度,仅在必要时组合合适技能,记录成功搭配并防止简单任务滥用高阶能力,适合跨域复杂需求。
查看详情
Abridge环境AI临床文档生成
abridge-hello-world
jeremylongshore/claude-code-plugins-plus-skills
190
本示例提供了一个最小化的工作模型,展示了Abridge环境下的AI临床文档自动化流程。用户可以通过模拟一次完整的诊疗会话,提交对话记录,系统将自动生成高度结构化的临床病历(包括主诉、病史、评估等),并提取相关的ICD/CPT编码,适用于测试医疗信息系统集成和AI数据结构化能力。
查看详情
室内安全隐患检测基准
homesafe-bench
SharpAI/DeepCamera
67
本基准测试用于评估视觉语言模型(VLM)从静态图像中识别室内环境潜在安全隐患的能力。测试覆盖了火灾、电路、跌倒、儿童安全和坠物等五大类别的40个场景,旨在模拟真实世界的固定安防监控,提供VLM实用安全检测能力的严格衡量标准。
查看详情
智能家居视频异常检测基准
smarthome-video-anomaly-benchmark
SharpAI/DeepCamera
418
本基准测试套件专用于评估视觉语言模型(VLM)在智能家居视频异常检测方面的能力。它基于真实的家庭数据集,覆盖了安全入侵、老人跌倒、宠物异常行为等多个生活场景。该测试要求模型进行深度多帧视频理解,是检验AI系统视频理解能力和实时监测准确性的专业级工具。
查看详情
1
语言
简体中文
English