下载

Skill UI

浏览并发现 9778+ 精选技能

全部编程开发人工智能设计创意产品商业数据科学市场营销职场通用效率工具硬件工程语言学习

搜索比较，共找到 6 条记录

默认排序最新上传最多下载

代码模型评估与基准测试

evaluating-code-models

Orchestra-Research/AI-Research-SKILLs

本工具箱用于全面评估代码生成模型的性能。它支持针对HumanEval、MBPP、MultiPL-E等行业标准进行多语言基准测试。可量化比较不同大型语言模型（LLM）的编码能力，通过pass@k指标衡量代码生成质量。

OpenRouter模型目录查询

openrouter-model-catalog

jeremylongshore/claude-code-plugins-plus-skills

用于查询和管理OpenRouter平台上超过400个AI模型的完整目录。用户可以通过此工具筛选模型，比较不同模型的定价、上下文长度和能力（如工具调用），从而快速选择最适合项目需求的最佳模型。

SHAP 模型可解释性

K-Dense-AI/claude-scientific-skills

提供 SHAP 相关指导，展示如何计算特征重要性、绘制解读图、调试模型、分析偏差与公平性，并对各种模型（树、深度、线性、黑盒）进行解释与比较。

高级LLM评估技术

advanced-evaluation

sickn33/antigravity-awesome-skills

本技能专注于构建面向生产环境的LLM评估系统。内容涵盖了先进的评估方法论，包括直接评分和配对比较，并详细介绍了如何系统性地消除评估中的偏差（如位置偏差、长度偏差）。它指导用户如何选择合适的评估指标，并构建结构化的Prompt，以确保AI模型质量评估的客观性和可靠性。

AI模型行为透视检测

bdistill-behavioral-xray

sickn33/antigravity-awesome-skills

本技能可系统性地探测AI模型的六大行为模式，包括推理能力、拒绝边界、格式化习惯和知识接地性。它生成包含雷达图和可操作洞察的HTML报告，帮助用户了解模型的真实行为，用于模型选型比较、安全审计或红队测试。

使用Together AI进行模型推理

together-hello-world

jeremylongshore/claude-code-plugins-plus-skills

本技能是关于如何使用Together AI的OpenAI兼容API执行各种AI推理任务的教程。内容详细涵盖了包括文本聊天补全、流式输出、图像生成和向量嵌入等核心功能。它适用于需要测试开源模型、比较不同大型语言模型（如Llama、Mixtral）性能，或将生成式AI功能集成到应用中的开发者。

1

语言