登录
下载
Skill UI
浏览并发现
9699+
精选技能
全部
编程开发
人工智能
设计创意
产品商业
数据科学
市场营销
职场通用
效率工具
硬件工程
语言学习
搜索
LLM 评估工具
,共找到
11
条记录
默认排序
最新上传
最多下载
代码模型评估与基准测试
evaluating-code-models
Orchestra-Research/AI-Research-SKILLs
124
本工具箱用于全面评估代码生成模型的性能。它支持针对HumanEval、MBPP、MultiPL-E等行业标准进行多语言基准测试。可量化比较不同大型语言模型(LLM)的编码能力,通过pass@k指标衡量代码生成质量。
查看详情
LangChain迁移深度指南
langchain-migration-deep-dive
jeremylongshore/claude-code-plugins-plus-skills
275
本指南为开发者提供了将现有基于原始SDK或旧框架(如LlamaIndex)的LLM代码库,迁移到标准化LangChain框架的完整流程。内容涵盖代码评估、RAG重构、智能体(Agent)和工具调用(Tool Calling)的实践,帮助用户构建更稳定、更可维护的AI应用。
查看详情
NeMo LLM 评估工具
nemo-evaluator-sdk
Orchestra-Research/AI-Research-SKILLs
265
NeMo Evaluator SDK 提供基于容器的企业级评估框架,可在 Docker、Slurm 及云环境中跨 100 多个基准与 18+ 测试流水线执行,保障可复现的 LLM 评估。
查看详情
OpenRouter LLM动态路由规则引擎
openrouter-routing-rules
jeremylongshore/claude-code-plugins-plus-skills
423
本技能提供了一个复杂的配置驱动规则引擎,用于管理OpenRouter的API调用。它通过评估用户层级、剩余预算、任务类型、是否需要工具调用、延迟要求等多个维度,动态选择最合适的语言模型。这对于构建生产级、具备成本控制和性能优化能力的LLM编排系统至关重要。
查看详情
高级提示词工程指南
senior-prompt-engineer
alirezarezvani/claude-skills
468
为提示词工程师准备的工具集,涵盖提示优化、LLM评估、RAG 质量检测、少样本示例整理及智能体工作流可视化与验证,助力构建可靠的代理系统。
查看详情
自动化智能体合规性测量
skill-comply
affaan-m/everything-claude-code
107
该工具用于评估编程智能体是否严格遵守了指定的技能或业务规则。它能自动生成不同严格度的测试场景,执行智能体,并通过LLM分析,生成一份详细报告,精确测量工具调用与预设工作流规范的合规性。
查看详情
AI安全评估专家
ai-security
alirezarezvani/claude-skills
335
定向评估AI/LLM系统,检测提示注入、越狱、模型反演、数据投毒和代理工具滥用,结合MITRE ATLAS映射与签名检测并支持护栏推荐。
查看详情
LLM轨迹与故障调试命令行工具
phoenix-cli
github/awesome-copilot
271
Phoenix CLI是一个强大的命令行工具,用于调试复杂的LLM和智能体(Agent)工作流。它能获取并分析详细的调用轨迹(traces)、跨度(spans)和会话(sessions),并通过开放式和轴心编码等方法,帮助用户系统地分析错误,构建失败分类体系,从而指导应用评估。
查看详情
凤凰评估工具包
phoenix-evals
github/awesome-copilot
165
Phoenix Evals 帮助团队为 AI/LLM 应用构建评估器,先用确定性代码,再参考 LLM,支持 Python 与 TypeScript 工作流,通过错误分析、RAG 与生产流程结合人工数据验证效果。
查看详情
家庭安防AI基准测试套件
home-security-ai-benchmark
SharpAI/DeepCamera
379
本套件是一个全面的评估工具,用于基准测试大型语言模型(LLM)和视觉语言模型(VLM)在家庭安防领域的性能。它涵盖了143项测试,覆盖了工具使用、提示注入抵抗性、上下文推理、警报分诊和场景分析等16个关键领域,旨在确保智能家居AI系统的稳健性。
查看详情
大模型链评估与回归测试
langchain-eval-harness
jeremylongshore/claude-code-plugins-plus-skills
103
本工具提供了一套全面的、可复现的LLM链和智能体评估系统。它集成了黄金数据集管理、LangSmith评估、RAGAS指标、deepeval LLM判别等功能。适用于为新构建的链条设置质量基线、诊断模型切换后的性能退化,以及在CI/CD流程中设置回归检测门禁。
查看详情
1
语言
简体中文
English