下载

Skill UI

浏览并发现 9688+ 精选技能

全部编程开发人工智能设计创意产品商业数据科学市场营销职场通用效率工具硬件工程语言学习

搜索评估，共找到 81 条记录

默认排序最新上传最多下载

多智能体系统架构设计

alirezarezvani/claude-skills

这是一个用于设计、架构和评估复杂多智能体系统的全套工具箱。它提供从系统架构模式（如群体、分层）、智能体角色定义，到通信协议、工具设计原则和安全防护的全面指导，帮助构建稳健、可扩展的AI工作流。

大语言模型智能体评估

agent-evaluation

sickn33/antigravity-awesome-skills

这是一个用于全面测试和评估大型语言模型（LLM）智能体的框架。它超越了简单的通过/失败判断，深入评估智能体的复杂行为、可靠性指标和能力一致性。适用于生产环境的监控，帮助识别高级AI智能体中的微妙故障模式。

Azure AI项目管理SDK for Java

azure-ai-projects-java

sickn33/antigravity-awesome-skills

这是一个专为Java开发的SDK，用于管理Azure AI Foundry中的整个AI项目生命周期。它提供高层级的客户端接口，用于处理关键的AI项目操作，包括管理与Azure资源的连接、上传和管理数据集、创建和更新搜索索引、运行模型评估以及管理部署，极大地简化了复杂的AI工作流编排。

Azure AI项目管理SDK for Java

azure-ai-projects-java

sickn33/antigravity-awesome-skills

这是一个专为Java开发的SDK，用于管理Azure AI Foundry中的整个AI项目生命周期。它提供高层级的客户端接口，用于处理关键的AI项目操作，包括管理与Azure资源的连接、上传和管理数据集、创建和更新搜索索引、运行模型评估以及管理部署，极大地简化了复杂的AI工作流编排。

Azure Arize AI 可观测性与评估管理

azure-mgmt-arizeaiobservabilityeval-dotnet

sickn33/antigravity-awesome-skills

这是一个用于.NET的Azure SDK，专门用于管理Azure资源管理器中的Arize AI可观测性和评估资源。它允许开发者程序化地对AI组织资源进行创建、读取、更新和删除，是用于监控、跟踪和评估部署在Azure上的AI模型性能的关键工具。

云渗透测试

cloud-penetration-testing

sickn33/antigravity-awesome-skills

用于在获得授权的前提下，对 Azure、AWS 和 GCP 云环境进行安全评估，涵盖侦察、认证验证、资源枚举、配置风险检查与修复建议输出。

混淆矩阵生成器

confusion-matrix-generator

jeremylongshore/claude-code-plugins-plus-skills

在机器学习训练场景中，自动响应混淆矩阵生成器相关请求，提供流程化指导、最佳实践校验及可直接使用的代码配置，帮助快速完成模型评估。

多智能体代码审查编排工具

error-debugging-multi-agent-review

sickn33/antigravity-awesome-skills

这是一个高级AI系统，能够协调多个专业智能体（如安全审计、性能分析、架构专家）对代码进行多维度、全方位的审查。它通过上下文管理、并行执行和智能综合，为复杂的软件项目提供深度、全面的代码评估报告。

Claude 评估驱动框架

affaan-m/everything-claude-code

Claude Code正式评估框架，先定义能力与回归标准，再用代码/模型/人工评估多个阶段，并持续跟踪pass@k和pass^k等可靠性指标以确保交付质量。

代码模型评估与基准测试

evaluating-code-models

Orchestra-Research/AI-Research-SKILLs

本工具箱用于全面评估代码生成模型的性能。它支持针对HumanEval、MBPP、MultiPL-E等行业标准进行多语言基准测试。可量化比较不同大型语言模型（LLM）的编码能力，通过pass@k指标衡量代码生成质量。

LLM 评估框架

evaluating-llms-harness

Orchestra-Research/AI-Research-SKILLs

提供涵盖 MMLU、HumanEval、GSM8K、TruthfulQA、HellaSwag 等 60+ 学术基准测试的标准化评估流程，可用来对 HuggingFace、vLLM 或 API 模型打分、比对性能、跟踪训练进度。

智能体系统评估框架

sickn33/antigravity-awesome-skills

该技能用于构建复杂的智能体系统评估框架。它解决了智能体系统非确定性和多路径决策的难题，指导用户进行系统性性能测试，用于验证上下文工程的选择，并衡量跨多个质量维度（如事实准确性、工具效率）的持续改进。

12 3 4 5 6 7 下一页

语言