登录
下载
Skill UI
浏览并发现
5096+
精选技能
全部
编程开发
人工智能
设计创意
产品商业
数据科学
市场营销
职场通用
效率工具
硬件工程
语言学习
搜索
模型评估
,共找到
33
条记录
默认排序
最新上传
最多下载
健壮回测框架
backtesting-frameworks
sickn33/antigravity-awesome-skills
338
提供构建生产级回测系统的指导,覆盖点-in-time 数据、成本模型、事件驱动模拟以及步进测试等,旨在避免透视偏差、幸存者偏差等常见问题,确保策略表现评估更可靠。
查看详情
分类模型构建
building-classification-models
jeremylongshore/claude-code-plugins-plus-skills
347
通过 classification-model-builder 插件,自动分析数据集、选择特征、调参并评估指标,实现垃圾邮件识别、客户流失预测等分类任务。
查看详情
推荐系统构建器
building-recommendation-systems
jeremylongshore/claude-code-plugins-plus-skills
376
生成针对协同、基于内容或混合策略的推荐系统代码与流程,涵盖数据处理、模型训练与评估,并顾及扩展性,帮助 Claude 提供个性化建议。
查看详情
混淆矩阵生成器
confusion-matrix-generator
jeremylongshore/claude-code-plugins-plus-skills
84
在机器学习训练场景中,自动响应混淆矩阵生成器相关请求,提供流程化指导、最佳实践校验及可直接使用的代码配置,帮助快速完成模型评估。
查看详情
耦合分析专家
coupling-analysis
tech-leads-club/agent-skills
335
使用《Balancing Coupling in Software Design》中的三维模型分析模块间耦合,评估强度、距离与波动性,识别架构异味并指导解耦或融合决策。
查看详情
Deepgram 升级迁移指南
deepgram-upgrade-migration
jeremylongshore/claude-code-plugins-plus-skills
72
该技能帮助规划与执行 Deepgram SDK、模型与 API 升级,内容涵盖配置评估、v3 兼容调整、Nova-2 模型迁移、A/B 对比测试、自动化验证与回滚准备,方便安全交付。
查看详情
评估流程框架
eval-harness
affaan-m/everything-claude-code
428
Claude Code 的正式评估框架,将评价驱动开发落地,通过能力与回归评估、代码/模型/人类评价者及 pass@k 指标,实现迭代中的持续验证与报告。
查看详情
LLM 评估工具套件
evaluating-llms-harness
Orchestra-Research/AI-Research-SKILLs
343
通过 lm-evaluation-harness 在 MMLU、HumanEval、GSM8K 等 60 多个学术基准上,对 HuggingFace/vLLM/API 模型进行对比评测、训练追踪并输出统一报告,适合实验室发布与质量监控。
查看详情
机器学习模型评估
evaluating-machine-learning-models
jeremylongshore/claude-code-plugins-plus-skills
338
使用插件生成准确率、查准率、召回率、F1等指标,对机器学习模型性能进行全面评估,便于比较各模型并在上线前进行验证。
查看详情
Excel 杠杆收购建模器
excel-lbo-modeler
jeremylongshore/claude-code-plugins-plus-skills
299
在 Excel 中构建完整杠杆收购模型,涵盖资金来源与用途、债务计划、运营预测与回报敏感性,帮助私募分析团队在决策前评估 IRR、MoM 与契约风险。
查看详情
LLM 微调专家指南
fine-tuning-expert
Jeffallan/claude-skills
360
面向大语言模型的实战微调流程,涵盖数据集准备、LoRA/QLoRA/PEFT 适配器配置、超参设置、训练监控、评估对比及量化部署等生产级步骤。
查看详情
Mistral迁移深度指南
mistral-migration-deep-dive
jeremylongshore/claude-code-plugins-plus-skills
342
指导团队将 OpenAI 或其他供应商的关键 AI 集成迁移到 Mistral AI,涵盖评估、通用适配器、特性开关渐进发布、模型映射、验证测试与回滚策略。
查看详情
1
2
3
下一页
语言
简体中文
English