登录
下载
Skill UI
浏览并发现
9778+
精选技能
全部
编程开发
人工智能
设计创意
产品商业
数据科学
市场营销
职场通用
效率工具
硬件工程
语言学习
搜索
比较
,共找到
6
条记录
默认排序
最新上传
最多下载
代码模型评估与基准测试
evaluating-code-models
Orchestra-Research/AI-Research-SKILLs
124
本工具箱用于全面评估代码生成模型的性能。它支持针对HumanEval、MBPP、MultiPL-E等行业标准进行多语言基准测试。可量化比较不同大型语言模型(LLM)的编码能力,通过pass@k指标衡量代码生成质量。
查看详情
OpenRouter模型目录查询
openrouter-model-catalog
jeremylongshore/claude-code-plugins-plus-skills
87
用于查询和管理OpenRouter平台上超过400个AI模型的完整目录。用户可以通过此工具筛选模型,比较不同模型的定价、上下文长度和能力(如工具调用),从而快速选择最适合项目需求的最佳模型。
查看详情
SHAP 模型可解释性
shap
K-Dense-AI/claude-scientific-skills
318
提供 SHAP 相关指导,展示如何计算特征重要性、绘制解读图、调试模型、分析偏差与公平性,并对各种模型(树、深度、线性、黑盒)进行解释与比较。
查看详情
高级LLM评估技术
advanced-evaluation
sickn33/antigravity-awesome-skills
223
本技能专注于构建面向生产环境的LLM评估系统。内容涵盖了先进的评估方法论,包括直接评分和配对比较,并详细介绍了如何系统性地消除评估中的偏差(如位置偏差、长度偏差)。它指导用户如何选择合适的评估指标,并构建结构化的Prompt,以确保AI模型质量评估的客观性和可靠性。
查看详情
AI模型行为透视检测
bdistill-behavioral-xray
sickn33/antigravity-awesome-skills
460
本技能可系统性地探测AI模型的六大行为模式,包括推理能力、拒绝边界、格式化习惯和知识接地性。它生成包含雷达图和可操作洞察的HTML报告,帮助用户了解模型的真实行为,用于模型选型比较、安全审计或红队测试。
查看详情
使用Together AI进行模型推理
together-hello-world
jeremylongshore/claude-code-plugins-plus-skills
335
本技能是关于如何使用Together AI的OpenAI兼容API执行各种AI推理任务的教程。内容详细涵盖了包括文本聊天补全、流式输出、图像生成和向量嵌入等核心功能。它适用于需要测试开源模型、比较不同大型语言模型(如Llama、Mixtral)性能,或将生成式AI功能集成到应用中的开发者。
查看详情
1
语言
简体中文
English