下载

Skill UI

浏览并发现 9952+ 精选技能

全部编程开发人工智能设计创意产品商业数据科学市场营销职场通用效率工具硬件工程语言学习

搜索能力评估，共找到 10 条记录

默认排序最新上传最多下载

大语言模型智能体评估

agent-evaluation

sickn33/antigravity-awesome-skills

这是一个用于全面测试和评估大型语言模型（LLM）智能体的框架。它超越了简单的通过/失败判断，深入评估智能体的复杂行为、可靠性指标和能力一致性。适用于生产环境的监控，帮助识别高级AI智能体中的微妙故障模式。

Claude 评估驱动框架

affaan-m/everything-claude-code

Claude Code正式评估框架，先定义能力与回归标准，再用代码/模型/人工评估多个阶段，并持续跟踪pass@k和pass^k等可靠性指标以确保交付质量。

代码模型评估与基准测试

evaluating-code-models

Orchestra-Research/AI-Research-SKILLs

本工具箱用于全面评估代码生成模型的性能。它支持针对HumanEval、MBPP、MultiPL-E等行业标准进行多语言基准测试。可量化比较不同大型语言模型（LLM）的编码能力，通过pass@k指标衡量代码生成质量。

Langfuse 观测平台

sickn33/antigravity-awesome-skills

Langfuse 提供完整的 LLM 观测能力，涵盖调用追踪、提示管理、评估打分与成本/延迟/质量监控，适用于与 LangChain、LlamaIndex、OpenAI 等集成的生产场景。

LangSmith LLM 可观测平台

langsmith-observability

Orchestra-Research/AI-Research-SKILLs

LangSmith 为 LLM 应用提供端到端观测能力，跟踪调用、评估输出、监控生产系统并构建测试集，同时与 OpenAI、Anthropic、LangChain 等集成，方便排查问题与保障服务质量。

AI形态准备顾问

ai-shaped-readiness-advisor

deanpeters/Product-Manager-Skills

交互式评估工具，判断产品工作是 AI-first 还是 AI-shaped，覆盖 2026 年五项关键产品经理能力，识别成熟度空白，并提出优先培养的 AI 能力建议。

技能编排管理器

antigravity-skill-orchestrator

sickn33/antigravity-awesome-skills

评估任务复杂度，仅在必要时组合合适技能，记录成功搭配并防止简单任务滥用高阶能力，适合跨域复杂需求。

Abridge环境AI临床文档生成

abridge-hello-world

jeremylongshore/claude-code-plugins-plus-skills

本示例提供了一个最小化的工作模型，展示了Abridge环境下的AI临床文档自动化流程。用户可以通过模拟一次完整的诊疗会话，提交对话记录，系统将自动生成高度结构化的临床病历（包括主诉、病史、评估等），并提取相关的ICD/CPT编码，适用于测试医疗信息系统集成和AI数据结构化能力。

室内安全隐患检测基准

SharpAI/DeepCamera

本基准测试用于评估视觉语言模型（VLM）从静态图像中识别室内环境潜在安全隐患的能力。测试覆盖了火灾、电路、跌倒、儿童安全和坠物等五大类别的40个场景，旨在模拟真实世界的固定安防监控，提供VLM实用安全检测能力的严格衡量标准。

智能家居视频异常检测基准

smarthome-video-anomaly-benchmark

SharpAI/DeepCamera

本基准测试套件专用于评估视觉语言模型（VLM）在智能家居视频异常检测方面的能力。它基于真实的家庭数据集，覆盖了安全入侵、老人跌倒、宠物异常行为等多个生活场景。该测试要求模型进行深度多帧视频理解，是检验AI系统视频理解能力和实时监测准确性的专业级工具。

1

语言