下载

Skill UI

浏览并发现 5160+ 精选技能

全部编程开发人工智能设计创意产品商业数据科学市场营销职场通用效率工具硬件工程语言学习

搜索模型评估，共找到 17 条记录

默认排序最新上传最多下载

混淆矩阵生成器

confusion-matrix-generator

jeremylongshore/claude-code-plugins-plus-skills

在机器学习训练场景中，自动响应混淆矩阵生成器相关请求，提供流程化指导、最佳实践校验及可直接使用的代码配置，帮助快速完成模型评估。

评估流程框架

affaan-m/everything-claude-code

Claude Code 的正式评估框架，将评价驱动开发落地，通过能力与回归评估、代码/模型/人类评价者及 pass@k 指标，实现迭代中的持续验证与报告。

LLM 评估工具套件

evaluating-llms-harness

Orchestra-Research/AI-Research-SKILLs

通过 lm-evaluation-harness 在 MMLU、HumanEval、GSM8K 等 60 多个学术基准上，对 HuggingFace/vLLM/API 模型进行对比评测、训练追踪并输出统一报告，适合实验室发布与质量监控。

LLM 微调专家指南

fine-tuning-expert

Jeffallan/claude-skills

面向大语言模型的实战微调流程，涵盖数据集准备、LoRA/QLoRA/PEFT 适配器配置、超参设置、训练监控、评估对比及量化部署等生产级步骤。

Mistral迁移深度指南

mistral-migration-deep-dive

jeremylongshore/claude-code-plugins-plus-skills

指导团队将 OpenAI 或其他供应商的关键 AI 集成迁移到 Mistral AI，涵盖评估、通用适配器、特性开关渐进发布、模型映射、验证测试与回滚策略。

模型评估指标助手

model-evaluation-metrics

jeremylongshore/claude-code-plugins-plus-skills

自动提供模型评估指标的指导，涵盖实践、代码和验证规范，针对提及模型评估指标时自动激活的训练辅助。

深度学习模型优化

optimizing-deep-learning-models

jeremylongshore/claude-code-plugins-plus-skills

通过分析模型结构、数据与指标，自动选择优化器、调度学习率和正则化方法，生成优化后的代码并评估准确率、训练时间与资源消耗，适合需要提升性能与效率的深度学习模型。

凤凰 AI 可观察平台

phoenix-observability

Orchestra-Research/AI-Research-SKILLs

Phoenix 是开源的 AI 可观测与评估平台，通过追踪、实验、数据集和实时面板帮助调试、评估和监控大模型应用，支持自托管部署。

高级提示工程实践

prompt-engineer

Jeffallan/claude-skills

引导团队设计、优化与评估大模型提示，涵盖结构化输出、系统角色与防护、思维链等技巧，并通过测试与性能度量保证可靠性。

高级提示工程工具

senior-prompt-engineer

alirezarezvani/claude-skills

Senior Prompt Engineer 汇聚提示优化、RAG 评估与智能体编排功能，帮助团队分析令牌、构建少样本示例并校验结构化流程以驱动大模型应用。

AI伦理与公平评估

validating-ai-ethics-and-fairness

jeremylongshore/claude-code-plugins-plus-skills

利用 ai-ethics-validator 插件审查 AI/ML 模型与数据集中的伦理风险、公平性问题与偏见，并在用户提出伦理审查或偏见检测时提供报告与缓解建议。

verl 强化学习训练指南

verl-rl-training

Orchestra-Research/AI-Research-SKILLs

使用 verl 的 HybridFlow 框架，在数百亿参数模型上以 PPO、GRPO、DAPO 等算法进行 RLHF 后训练，支持多种训练后端、带工具的多轮 rollout 及评估。

语言