下载

Skill UI

浏览并发现 9688+ 精选技能

全部编程开发人工智能设计创意产品商业数据科学市场营销职场通用效率工具硬件工程语言学习

搜索测试框架，共找到 13 条记录

默认排序最新上传最多下载

大语言模型智能体评估

agent-evaluation

sickn33/antigravity-awesome-skills

这是一个用于全面测试和评估大型语言模型（LLM）智能体的框架。它超越了简单的通过/失败判断，深入评估智能体的复杂行为、可靠性指标和能力一致性。适用于生产环境的监控，帮助识别高级AI智能体中的微妙故障模式。

智能体性能优化工作流

agent-orchestration-improve-agent

sickn33/antigravity-awesome-skills

本工作流提供了一个系统性的框架，用于提升现有AI智能体的性能和可靠性。流程包括全面性能指标分析、详细的故障模式分类、高级提示词工程优化（如思维链和宪法AI），并最终通过结构化的A/B测试和受控部署，实现可量化、鲁棒的性能提升。

LLM 评估框架

evaluating-llms-harness

Orchestra-Research/AI-Research-SKILLs

提供涵盖 MMLU、HumanEval、GSM8K、TruthfulQA、HellaSwag 等 60+ 学术基准测试的标准化评估流程，可用来对 HuggingFace、vLLM 或 API 模型打分、比对性能、跟踪训练进度。

智能体系统评估框架

sickn33/antigravity-awesome-skills

该技能用于构建复杂的智能体系统评估框架。它解决了智能体系统非确定性和多路径决策的难题，指导用户进行系统性性能测试，用于验证上下文工程的选择，并衡量跨多个质量维度（如事实准确性、工具效率）的持续改进。

LLM模型评估与性能测试

sickn33/antigravity-awesome-skills

提供了一套全面的大型语言模型（LLM）评估框架。内容涵盖自动化指标（如BLEU、ROUGE、BERTScore）、人工评估维度以及使用LLM作为裁判的先进方法。适用于系统性地衡量模型性能、对比不同Prompt或模型，确保AI应用的可靠性和可部署性。

生产级机器学习工程与MLOps

sickn33/antigravity-awesome-skills

这是一套全面的技能体系，专注于构建、部署和管理生产级的机器学习系统。知识覆盖现代ML框架（如PyTorch、TensorFlow）、模型服务（基于Kubernetes）、高级特征工程和全面的MLOps实践（包括监控、A/B测试和持续集成）。旨在交付可扩展、可靠、具备商业价值的AI解决方案。

提示工程与大模型优化

prompt-engineer

Jeffallan/claude-skills

本技能专精于为大语言模型（LLMs）设计、优化和评估提示词。它能帮助用户生成优化的提示模板、结构化输出模式（如JSON或函数调用），并构建完整的测试套件。适用于构建新的LLM应用、实现思维链式推理、定义系统级护栏，或开发专业的评估框架来衡量和提升模型性能。

PyTorch模型因果干预

pyvene-interventions

Orchestra-Research/AI-Research-SKILLs

pyvene是一个用于在PyTorch模型上执行因果干预的声明式框架。它支持激活打补丁、因果追踪（ROME风格）和交替干预训练等高级实验。适用于需要测试模型因果假设、深入理解模型组件工作机制或确保可复现性的AI研究场景。

超能力实验室环境指南

superpowers-lab

sickn33/antigravity-awesome-skills

本技能提供了一个专门的实验室环境和模式指南，用于探索和利用Claude AI框架中的高级能力。适用于需要一个结构化的空间来测试、开发和理解复杂的AI工作流和先进功能的场景。

本地Hugging Face模型评估

hugging-face-community-evals

sickn33/antigravity-awesome-skills

本技能用于在本地硬件上对Hugging Face Hub上的大模型进行专业的评估和基准测试。它支持使用`inspect-ai`和`lighteval`等评估框架，帮助用户选择最佳推理后端（如`vllm`、Transformers或`accelerate`），进行全面的烟雾测试和任务选择。该技能专注于本地执行流程，不负责远程作业编排或结果发布。

敏感信息泄露检测

data-leakage-detection

Tencent/AI-Infra-Guard

这是一个用于安全审计的框架，旨在系统性地检测大型语言模型（LLM）是否存在敏感信息泄露。它通过分阶段、递进式的对话探针，测试和捕获包括系统提示词、API密钥、个人身份信息（PII）以及内部配置等多种敏感数据。适用于红队测试和模型安全评估。

AI安全扫描与漏洞检测

Tencent/AI-Infra-Guard

本工具依托红心实验室的AI-Infra-Guard框架，提供全方位的AI安全扫描服务。可对AI基础设施、工具、技能、Agent以及大型语言模型进行深度安全审计和漏洞检测，包括越狱测试，确保AI系统的安全性和可靠性。

语言