登录
下载
Skill UI
浏览并发现
9688+
精选技能
全部
编程开发
人工智能
设计创意
产品商业
数据科学
市场营销
职场通用
效率工具
硬件工程
语言学习
搜索
评估
,共找到
81
条记录
默认排序
最新上传
最多下载
多智能体系统架构设计
agent-designer
alirezarezvani/claude-skills
136
这是一个用于设计、架构和评估复杂多智能体系统的全套工具箱。它提供从系统架构模式(如群体、分层)、智能体角色定义,到通信协议、工具设计原则和安全防护的全面指导,帮助构建稳健、可扩展的AI工作流。
查看详情
大语言模型智能体评估
agent-evaluation
sickn33/antigravity-awesome-skills
271
这是一个用于全面测试和评估大型语言模型(LLM)智能体的框架。它超越了简单的通过/失败判断,深入评估智能体的复杂行为、可靠性指标和能力一致性。适用于生产环境的监控,帮助识别高级AI智能体中的微妙故障模式。
查看详情
Azure AI项目管理SDK for Java
azure-ai-projects-java
sickn33/antigravity-awesome-skills
399
这是一个专为Java开发的SDK,用于管理Azure AI Foundry中的整个AI项目生命周期。它提供高层级的客户端接口,用于处理关键的AI项目操作,包括管理与Azure资源的连接、上传和管理数据集、创建和更新搜索索引、运行模型评估以及管理部署,极大地简化了复杂的AI工作流编排。
查看详情
Azure AI项目管理SDK for Java
azure-ai-projects-java
sickn33/antigravity-awesome-skills
399
这是一个专为Java开发的SDK,用于管理Azure AI Foundry中的整个AI项目生命周期。它提供高层级的客户端接口,用于处理关键的AI项目操作,包括管理与Azure资源的连接、上传和管理数据集、创建和更新搜索索引、运行模型评估以及管理部署,极大地简化了复杂的AI工作流编排。
查看详情
Azure Arize AI 可观测性与评估管理
azure-mgmt-arizeaiobservabilityeval-dotnet
sickn33/antigravity-awesome-skills
192
这是一个用于.NET的Azure SDK,专门用于管理Azure资源管理器中的Arize AI可观测性和评估资源。它允许开发者程序化地对AI组织资源进行创建、读取、更新和删除,是用于监控、跟踪和评估部署在Azure上的AI模型性能的关键工具。
查看详情
云渗透测试
cloud-penetration-testing
sickn33/antigravity-awesome-skills
180
用于在获得授权的前提下,对 Azure、AWS 和 GCP 云环境进行安全评估,涵盖侦察、认证验证、资源枚举、配置风险检查与修复建议输出。
查看详情
混淆矩阵生成器
confusion-matrix-generator
jeremylongshore/claude-code-plugins-plus-skills
84
在机器学习训练场景中,自动响应混淆矩阵生成器相关请求,提供流程化指导、最佳实践校验及可直接使用的代码配置,帮助快速完成模型评估。
查看详情
多智能体代码审查编排工具
error-debugging-multi-agent-review
sickn33/antigravity-awesome-skills
461
这是一个高级AI系统,能够协调多个专业智能体(如安全审计、性能分析、架构专家)对代码进行多维度、全方位的审查。它通过上下文管理、并行执行和智能综合,为复杂的软件项目提供深度、全面的代码评估报告。
查看详情
Claude 评估驱动框架
eval-harness
affaan-m/everything-claude-code
90
Claude Code正式评估框架,先定义能力与回归标准,再用代码/模型/人工评估多个阶段,并持续跟踪pass@k和pass^k等可靠性指标以确保交付质量。
查看详情
代码模型评估与基准测试
evaluating-code-models
Orchestra-Research/AI-Research-SKILLs
124
本工具箱用于全面评估代码生成模型的性能。它支持针对HumanEval、MBPP、MultiPL-E等行业标准进行多语言基准测试。可量化比较不同大型语言模型(LLM)的编码能力,通过pass@k指标衡量代码生成质量。
查看详情
LLM 评估框架
evaluating-llms-harness
Orchestra-Research/AI-Research-SKILLs
484
提供涵盖 MMLU、HumanEval、GSM8K、TruthfulQA、HellaSwag 等 60+ 学术基准测试的标准化评估流程,可用来对 HuggingFace、vLLM 或 API 模型打分、比对性能、跟踪训练进度。
查看详情
智能体系统评估框架
evaluation
sickn33/antigravity-awesome-skills
70
该技能用于构建复杂的智能体系统评估框架。它解决了智能体系统非确定性和多路径决策的难题,指导用户进行系统性性能测试,用于验证上下文工程的选择,并衡量跨多个质量维度(如事实准确性、工具效率)的持续改进。
查看详情
1
2
3
4
5
6
7
下一页
语言
简体中文
English