登录
下载
Skill UI
浏览并发现
9688+
精选技能
全部
编程开发
人工智能
设计创意
产品商业
数据科学
市场营销
职场通用
效率工具
硬件工程
语言学习
搜索
评估
,共找到
596
条记录
默认排序
最新上传
最多下载
Claude 评估驱动框架
eval-harness
affaan-m/everything-claude-code
90
Claude Code正式评估框架,先定义能力与回归标准,再用代码/模型/人工评估多个阶段,并持续跟踪pass@k和pass^k等可靠性指标以确保交付质量。
查看详情
代码模型评估与基准测试
evaluating-code-models
Orchestra-Research/AI-Research-SKILLs
124
本工具箱用于全面评估代码生成模型的性能。它支持针对HumanEval、MBPP、MultiPL-E等行业标准进行多语言基准测试。可量化比较不同大型语言模型(LLM)的编码能力,通过pass@k指标衡量代码生成质量。
查看详情
LLM 评估框架
evaluating-llms-harness
Orchestra-Research/AI-Research-SKILLs
484
提供涵盖 MMLU、HumanEval、GSM8K、TruthfulQA、HellaSwag 等 60+ 学术基准测试的标准化评估流程,可用来对 HuggingFace、vLLM 或 API 模型打分、比对性能、跟踪训练进度。
查看详情
机器学习模型评估
evaluating-machine-learning-models
jeremylongshore/claude-code-plugins-plus-skills
338
使用插件生成准确率、查准率、召回率、F1等指标,对机器学习模型性能进行全面评估,便于比较各模型并在上线前进行验证。
查看详情
智能体系统评估框架
evaluation
sickn33/antigravity-awesome-skills
70
该技能用于构建复杂的智能体系统评估框架。它解决了智能体系统非确定性和多路径决策的难题,指导用户进行系统性性能测试,用于验证上下文工程的选择,并衡量跨多个质量维度(如事实准确性、工具效率)的持续改进。
查看详情
Excel 杠杆收购建模器
excel-lbo-modeler
jeremylongshore/claude-code-plugins-plus-skills
299
在 Excel 中构建完整杠杆收购模型,涵盖资金来源与用途、债务计划、运营预测与回报敏感性,帮助私募分析团队在决策前评估 IRR、MoM 与契约风险。
查看详情
文件路径遍历测试
file-path-traversal-testing
sickn33/antigravity-awesome-skills
328
执行文件路径遍历测试,定位目录遍历/LFI 漏洞、验证利用载荷、记录敏感文件暴露,并提供漏洞评估及修复建议。
查看详情
LLM微调专家指南
fine-tuning-expert
Jeffallan/claude-skills
454
指导模型工程师完成数据准备、LoRA/QLoRA 适配器配置、训练监控、评估指标收集以及 Adapter 合并部署等 LLM 微调与量化的关键流程。
查看详情
Firebase APK安全扫描
firebase-apk-scanner
trailofbits/skills
455
扫描Android APK中Firebase配置,检测数据库、存储、认证和云函数风险,便于合规的移动安全评估。
查看详情
网页抓取管道可观测性
firecrawl-observability
jeremylongshore/claude-code-plugins-plus-skills
260
本技能提供了Firecrawl网络爬取操作的全面可观测性模式。它覆盖了抓取成功率、积分消耗追踪、内容质量评估和延迟监控等关键指标。适用于构建健壮的监控仪表盘、设置主动故障警报,确保爬取工作流的稳定与高效。
查看详情
代码迁移专家助手
framework-migration-code-migrate
sickn33/antigravity-awesome-skills
72
该技能是一个专业的代码迁移专家,专注于帮助用户在不同技术栈、框架、语言或平台间平稳过渡代码库。它可以生成详细的迁移计划、自动化脚本、风险评估和回滚方案,确保代码升级或重构过程平稳可靠,最大限度地减少业务中断。
查看详情
依赖升级策略规划
framework-migration-deps-upgrade
sickn33/antigravity-awesome-skills
314
该技能是一个专业的依赖管理专家,用于规划和执行项目依赖的安全、增量级升级。它提供全面的风险评估、兼容性报告、分步迁移指南以及完善的测试和回滚计划,确保在更新依赖包的过程中,系统稳定性和可用性不受影响。
查看详情
上一页
1
2
3
4
5
6
7
8
...
48
49
50
下一页
语言
简体中文
English