下载

Skill UI

浏览并发现 9699+ 精选技能

全部编程开发人工智能设计创意产品商业数据科学市场营销职场通用效率工具硬件工程语言学习

搜索 LLM 评估工具，共找到 11 条记录

默认排序最新上传最多下载

代码模型评估与基准测试

evaluating-code-models

Orchestra-Research/AI-Research-SKILLs

本工具箱用于全面评估代码生成模型的性能。它支持针对HumanEval、MBPP、MultiPL-E等行业标准进行多语言基准测试。可量化比较不同大型语言模型（LLM）的编码能力，通过pass@k指标衡量代码生成质量。

LangChain迁移深度指南

langchain-migration-deep-dive

jeremylongshore/claude-code-plugins-plus-skills

本指南为开发者提供了将现有基于原始SDK或旧框架（如LlamaIndex）的LLM代码库，迁移到标准化LangChain框架的完整流程。内容涵盖代码评估、RAG重构、智能体（Agent）和工具调用（Tool Calling）的实践，帮助用户构建更稳定、更可维护的AI应用。

NeMo LLM 评估工具

nemo-evaluator-sdk

Orchestra-Research/AI-Research-SKILLs

NeMo Evaluator SDK 提供基于容器的企业级评估框架，可在 Docker、Slurm 及云环境中跨 100 多个基准与 18+ 测试流水线执行，保障可复现的 LLM 评估。

OpenRouter LLM动态路由规则引擎

openrouter-routing-rules

jeremylongshore/claude-code-plugins-plus-skills

本技能提供了一个复杂的配置驱动规则引擎，用于管理OpenRouter的API调用。它通过评估用户层级、剩余预算、任务类型、是否需要工具调用、延迟要求等多个维度，动态选择最合适的语言模型。这对于构建生产级、具备成本控制和性能优化能力的LLM编排系统至关重要。

高级提示词工程指南

senior-prompt-engineer

alirezarezvani/claude-skills

为提示词工程师准备的工具集，涵盖提示优化、LLM评估、RAG 质量检测、少样本示例整理及智能体工作流可视化与验证，助力构建可靠的代理系统。

自动化智能体合规性测量

affaan-m/everything-claude-code

该工具用于评估编程智能体是否严格遵守了指定的技能或业务规则。它能自动生成不同严格度的测试场景，执行智能体，并通过LLM分析，生成一份详细报告，精确测量工具调用与预设工作流规范的合规性。

AI安全评估专家

alirezarezvani/claude-skills

定向评估AI/LLM系统，检测提示注入、越狱、模型反演、数据投毒和代理工具滥用，结合MITRE ATLAS映射与签名检测并支持护栏推荐。

LLM轨迹与故障调试命令行工具

github/awesome-copilot

Phoenix CLI是一个强大的命令行工具，用于调试复杂的LLM和智能体（Agent）工作流。它能获取并分析详细的调用轨迹（traces）、跨度（spans）和会话（sessions），并通过开放式和轴心编码等方法，帮助用户系统地分析错误，构建失败分类体系，从而指导应用评估。

凤凰评估工具包

github/awesome-copilot

Phoenix Evals 帮助团队为 AI/LLM 应用构建评估器，先用确定性代码，再参考 LLM，支持 Python 与 TypeScript 工作流，通过错误分析、RAG 与生产流程结合人工数据验证效果。

家庭安防AI基准测试套件

home-security-ai-benchmark

SharpAI/DeepCamera

本套件是一个全面的评估工具，用于基准测试大型语言模型（LLM）和视觉语言模型（VLM）在家庭安防领域的性能。它涵盖了143项测试，覆盖了工具使用、提示注入抵抗性、上下文推理、警报分诊和场景分析等16个关键领域，旨在确保智能家居AI系统的稳健性。

大模型链评估与回归测试

langchain-eval-harness

jeremylongshore/claude-code-plugins-plus-skills

本工具提供了一套全面的、可复现的LLM链和智能体评估系统。它集成了黄金数据集管理、LangSmith评估、RAGAS指标、deepeval LLM判别等功能。适用于为新构建的链条设置质量基线、诊断模型切换后的性能退化，以及在CI/CD流程中设置回归检测门禁。

1

语言