下载

Skill UI

浏览并发现 9651+ 精选技能

全部编程开发人工智能设计创意产品商业数据科学市场营销职场通用效率工具硬件工程语言学习

搜索指标评估，共找到 54 条记录

默认排序最新上传最多下载

大语言模型智能体评估

agent-evaluation

sickn33/antigravity-awesome-skills

这是一个用于全面测试和评估大型语言模型（LLM）智能体的框架。它超越了简单的通过/失败判断，深入评估智能体的复杂行为、可靠性指标和能力一致性。适用于生产环境的监控，帮助识别高级AI智能体中的微妙故障模式。

去中心化流动性池分析

analyzing-liquidity-pools

jeremylongshore/claude-code-plugins-plus-skills

本工具用于深度分析去中心化交易所（DEX）的流动性池。它可以计算并比较关键金融指标，包括总锁定价值（TVL）、交易量、费用收入和无常损失（IL）。当您需要评估不同协议的挖矿机会、比较池子风险或预测流动性挖矿回报时，应使用本功能。

去中心化流动性池分析

analyzing-liquidity-pools

jeremylongshore/claude-code-plugins-plus-skills

本工具用于深度分析去中心化交易所（DEX）的流动性池。它可以计算并比较关键金融指标，包括总锁定价值（TVL）、交易量、费用收入和无常损失（IL）。当您需要评估不同协议的挖矿机会、比较池子风险或预测流动性挖矿回报时，应使用本功能。

链上DeFi数据深度分析

analyzing-on-chain-data

jeremylongshore/claude-code-plugins-plus-skills

这是一个用于进行深度链上（On-chain）数据分析的工具。它可以追踪DeFi协议的关键指标，包括总锁仓价值（TVL）、费用收入、去中心化交易所（DEX）交易量和收益机会。它帮助研究员和分析师获取程序化的链上数据洞察，以评估协议的健康度和投资潜力。

链上DeFi数据深度分析

analyzing-on-chain-data

jeremylongshore/claude-code-plugins-plus-skills

这是一个用于进行深度链上（On-chain）数据分析的工具。它可以追踪DeFi协议的关键指标，包括总锁仓价值（TVL）、费用收入、去中心化交易所（DEX）交易量和收益机会。它帮助研究员和分析师获取程序化的链上数据洞察，以评估协议的健康度和投资潜力。

交易策略回测与优化

backtesting-trading-strategies

jeremylongshore/claude-code-plugins-plus-skills

这是一个全面的交易策略回测工具，用于利用历史市场数据测试和验证加密货币及传统金融交易模型。它能够计算夏普比率、最大回撤等核心性能指标，模拟交易过程，并提供参数网格搜索等优化功能，帮助用户在实盘前评估策略的风险和收益。

分类模型构建

building-classification-models

jeremylongshore/claude-code-plugins-plus-skills

通过 classification-model-builder 插件，自动分析数据集、选择特征、调参并评估指标，实现垃圾邮件识别、客户流失预测等分类任务。

组件识别与规模评估

component-identification-sizing

tech-leads-club/agent-skills

识别代码库中的架构组件，按语句计算规模指标，找出过大或过小的模块并输出清单与建议，辅助单体拆解规划。

Claude 评估驱动框架

affaan-m/everything-claude-code

Claude Code正式评估框架，先定义能力与回归标准，再用代码/模型/人工评估多个阶段，并持续跟踪pass@k和pass^k等可靠性指标以确保交付质量。

代码模型评估与基准测试

evaluating-code-models

Orchestra-Research/AI-Research-SKILLs

本工具箱用于全面评估代码生成模型的性能。它支持针对HumanEval、MBPP、MultiPL-E等行业标准进行多语言基准测试。可量化比较不同大型语言模型（LLM）的编码能力，通过pass@k指标衡量代码生成质量。

机器学习模型评估

evaluating-machine-learning-models

jeremylongshore/claude-code-plugins-plus-skills

使用插件生成准确率、查准率、召回率、F1等指标，对机器学习模型性能进行全面评估，便于比较各模型并在上线前进行验证。

LLM微调专家指南

fine-tuning-expert

Jeffallan/claude-skills

指导模型工程师完成数据准备、LoRA/QLoRA 适配器配置、训练监控、评估指标收集以及 Adapter 合并部署等 LLM 微调与量化的关键流程。

12 3 4 5 下一页

语言