登录
下载
Skill UI
浏览并发现
9916+
精选技能
全部
编程开发
人工智能
设计创意
产品商业
数据科学
市场营销
职场通用
效率工具
硬件工程
语言学习
搜索
模型评估
,共找到
86
条记录
默认排序
最新上传
最多下载
大语言模型智能体评估
agent-evaluation
sickn33/antigravity-awesome-skills
271
这是一个用于全面测试和评估大型语言模型(LLM)智能体的框架。它超越了简单的通过/失败判断,深入评估智能体的复杂行为、可靠性指标和能力一致性。适用于生产环境的监控,帮助识别高级AI智能体中的微妙故障模式。
查看详情
Azure AI项目管理SDK for Java
azure-ai-projects-java
sickn33/antigravity-awesome-skills
399
这是一个专为Java开发的SDK,用于管理Azure AI Foundry中的整个AI项目生命周期。它提供高层级的客户端接口,用于处理关键的AI项目操作,包括管理与Azure资源的连接、上传和管理数据集、创建和更新搜索索引、运行模型评估以及管理部署,极大地简化了复杂的AI工作流编排。
查看详情
Azure AI项目管理SDK for Java
azure-ai-projects-java
sickn33/antigravity-awesome-skills
399
这是一个专为Java开发的SDK,用于管理Azure AI Foundry中的整个AI项目生命周期。它提供高层级的客户端接口,用于处理关键的AI项目操作,包括管理与Azure资源的连接、上传和管理数据集、创建和更新搜索索引、运行模型评估以及管理部署,极大地简化了复杂的AI工作流编排。
查看详情
Azure Arize AI 可观测性与评估管理
azure-mgmt-arizeaiobservabilityeval-dotnet
sickn33/antigravity-awesome-skills
192
这是一个用于.NET的Azure SDK,专门用于管理Azure资源管理器中的Arize AI可观测性和评估资源。它允许开发者程序化地对AI组织资源进行创建、读取、更新和删除,是用于监控、跟踪和评估部署在Azure上的AI模型性能的关键工具。
查看详情
交易策略回测框架构建
backtesting-frameworks
sickn33/antigravity-awesome-skills
383
本技能用于构建专业级、鲁棒的交易策略回测系统。它指导用户系统化地验证交易策略的性能和稳健性,帮助规避常见的回测偏差。适用于金融量化交易和算法交易的初期模型验证与性能评估。
查看详情
交易策略回测与优化
backtesting-trading-strategies
jeremylongshore/claude-code-plugins-plus-skills
386
这是一个全面的交易策略回测工具,用于利用历史市场数据测试和验证加密货币及传统金融交易模型。它能够计算夏普比率、最大回撤等核心性能指标,模拟交易过程,并提供参数网格搜索等优化功能,帮助用户在实盘前评估策略的风险和收益。
查看详情
分类模型构建
building-classification-models
jeremylongshore/claude-code-plugins-plus-skills
347
通过 classification-model-builder 插件,自动分析数据集、选择特征、调参并评估指标,实现垃圾邮件识别、客户流失预测等分类任务。
查看详情
推荐系统构建器
building-recommendation-systems
jeremylongshore/claude-code-plugins-plus-skills
376
生成针对协同、基于内容或混合策略的推荐系统代码与流程,涵盖数据处理、模型训练与评估,并顾及扩展性,帮助 Claude 提供个性化建议。
查看详情
混淆矩阵生成器
confusion-matrix-generator
jeremylongshore/claude-code-plugins-plus-skills
84
在机器学习训练场景中,自动响应混淆矩阵生成器相关请求,提供流程化指导、最佳实践校验及可直接使用的代码配置,帮助快速完成模型评估。
查看详情
耦合分析专家
coupling-analysis
tech-leads-club/agent-skills
335
使用《Balancing Coupling in Software Design》中的三维模型分析模块间耦合,评估强度、距离与波动性,识别架构异味并指导解耦或融合决策。
查看详情
Claude 评估驱动框架
eval-harness
affaan-m/everything-claude-code
90
Claude Code正式评估框架,先定义能力与回归标准,再用代码/模型/人工评估多个阶段,并持续跟踪pass@k和pass^k等可靠性指标以确保交付质量。
查看详情
代码模型评估与基准测试
evaluating-code-models
Orchestra-Research/AI-Research-SKILLs
124
本工具箱用于全面评估代码生成模型的性能。它支持针对HumanEval、MBPP、MultiPL-E等行业标准进行多语言基准测试。可量化比较不同大型语言模型(LLM)的编码能力,通过pass@k指标衡量代码生成质量。
查看详情
1
2
3
4
...
6
7
8
下一页
语言
简体中文
English