登录
下载
Skill UI
浏览并发现
9651+
精选技能
全部
编程开发
人工智能
设计创意
产品商业
数据科学
市场营销
职场通用
效率工具
硬件工程
语言学习
搜索
指标评估
,共找到
54
条记录
默认排序
最新上传
最多下载
大语言模型智能体评估
agent-evaluation
sickn33/antigravity-awesome-skills
271
这是一个用于全面测试和评估大型语言模型(LLM)智能体的框架。它超越了简单的通过/失败判断,深入评估智能体的复杂行为、可靠性指标和能力一致性。适用于生产环境的监控,帮助识别高级AI智能体中的微妙故障模式。
查看详情
去中心化流动性池分析
analyzing-liquidity-pools
jeremylongshore/claude-code-plugins-plus-skills
266
本工具用于深度分析去中心化交易所(DEX)的流动性池。它可以计算并比较关键金融指标,包括总锁定价值(TVL)、交易量、费用收入和无常损失(IL)。当您需要评估不同协议的挖矿机会、比较池子风险或预测流动性挖矿回报时,应使用本功能。
查看详情
去中心化流动性池分析
analyzing-liquidity-pools
jeremylongshore/claude-code-plugins-plus-skills
266
本工具用于深度分析去中心化交易所(DEX)的流动性池。它可以计算并比较关键金融指标,包括总锁定价值(TVL)、交易量、费用收入和无常损失(IL)。当您需要评估不同协议的挖矿机会、比较池子风险或预测流动性挖矿回报时,应使用本功能。
查看详情
链上DeFi数据深度分析
analyzing-on-chain-data
jeremylongshore/claude-code-plugins-plus-skills
115
这是一个用于进行深度链上(On-chain)数据分析的工具。它可以追踪DeFi协议的关键指标,包括总锁仓价值(TVL)、费用收入、去中心化交易所(DEX)交易量和收益机会。它帮助研究员和分析师获取程序化的链上数据洞察,以评估协议的健康度和投资潜力。
查看详情
链上DeFi数据深度分析
analyzing-on-chain-data
jeremylongshore/claude-code-plugins-plus-skills
115
这是一个用于进行深度链上(On-chain)数据分析的工具。它可以追踪DeFi协议的关键指标,包括总锁仓价值(TVL)、费用收入、去中心化交易所(DEX)交易量和收益机会。它帮助研究员和分析师获取程序化的链上数据洞察,以评估协议的健康度和投资潜力。
查看详情
交易策略回测与优化
backtesting-trading-strategies
jeremylongshore/claude-code-plugins-plus-skills
386
这是一个全面的交易策略回测工具,用于利用历史市场数据测试和验证加密货币及传统金融交易模型。它能够计算夏普比率、最大回撤等核心性能指标,模拟交易过程,并提供参数网格搜索等优化功能,帮助用户在实盘前评估策略的风险和收益。
查看详情
分类模型构建
building-classification-models
jeremylongshore/claude-code-plugins-plus-skills
347
通过 classification-model-builder 插件,自动分析数据集、选择特征、调参并评估指标,实现垃圾邮件识别、客户流失预测等分类任务。
查看详情
组件识别与规模评估
component-identification-sizing
tech-leads-club/agent-skills
451
识别代码库中的架构组件,按语句计算规模指标,找出过大或过小的模块并输出清单与建议,辅助单体拆解规划。
查看详情
Claude 评估驱动框架
eval-harness
affaan-m/everything-claude-code
90
Claude Code正式评估框架,先定义能力与回归标准,再用代码/模型/人工评估多个阶段,并持续跟踪pass@k和pass^k等可靠性指标以确保交付质量。
查看详情
代码模型评估与基准测试
evaluating-code-models
Orchestra-Research/AI-Research-SKILLs
124
本工具箱用于全面评估代码生成模型的性能。它支持针对HumanEval、MBPP、MultiPL-E等行业标准进行多语言基准测试。可量化比较不同大型语言模型(LLM)的编码能力,通过pass@k指标衡量代码生成质量。
查看详情
机器学习模型评估
evaluating-machine-learning-models
jeremylongshore/claude-code-plugins-plus-skills
338
使用插件生成准确率、查准率、召回率、F1等指标,对机器学习模型性能进行全面评估,便于比较各模型并在上线前进行验证。
查看详情
LLM微调专家指南
fine-tuning-expert
Jeffallan/claude-skills
454
指导模型工程师完成数据准备、LoRA/QLoRA 适配器配置、训练监控、评估指标收集以及 Adapter 合并部署等 LLM 微调与量化的关键流程。
查看详情
1
2
3
4
5
下一页
语言
简体中文
English