登录
下载
Skill UI
浏览并发现
9688+
精选技能
全部
编程开发
人工智能
设计创意
产品商业
数据科学
市场营销
职场通用
效率工具
硬件工程
语言学习
搜索
测试框架
,共找到
13
条记录
默认排序
最新上传
最多下载
大语言模型智能体评估
agent-evaluation
sickn33/antigravity-awesome-skills
271
这是一个用于全面测试和评估大型语言模型(LLM)智能体的框架。它超越了简单的通过/失败判断,深入评估智能体的复杂行为、可靠性指标和能力一致性。适用于生产环境的监控,帮助识别高级AI智能体中的微妙故障模式。
查看详情
智能体性能优化工作流
agent-orchestration-improve-agent
sickn33/antigravity-awesome-skills
398
本工作流提供了一个系统性的框架,用于提升现有AI智能体的性能和可靠性。流程包括全面性能指标分析、详细的故障模式分类、高级提示词工程优化(如思维链和宪法AI),并最终通过结构化的A/B测试和受控部署,实现可量化、鲁棒的性能提升。
查看详情
LLM 评估框架
evaluating-llms-harness
Orchestra-Research/AI-Research-SKILLs
484
提供涵盖 MMLU、HumanEval、GSM8K、TruthfulQA、HellaSwag 等 60+ 学术基准测试的标准化评估流程,可用来对 HuggingFace、vLLM 或 API 模型打分、比对性能、跟踪训练进度。
查看详情
智能体系统评估框架
evaluation
sickn33/antigravity-awesome-skills
70
该技能用于构建复杂的智能体系统评估框架。它解决了智能体系统非确定性和多路径决策的难题,指导用户进行系统性性能测试,用于验证上下文工程的选择,并衡量跨多个质量维度(如事实准确性、工具效率)的持续改进。
查看详情
LLM模型评估与性能测试
llm-evaluation
sickn33/antigravity-awesome-skills
356
提供了一套全面的大型语言模型(LLM)评估框架。内容涵盖自动化指标(如BLEU、ROUGE、BERTScore)、人工评估维度以及使用LLM作为裁判的先进方法。适用于系统性地衡量模型性能、对比不同Prompt或模型,确保AI应用的可靠性和可部署性。
查看详情
生产级机器学习工程与MLOps
ml-engineer
sickn33/antigravity-awesome-skills
386
这是一套全面的技能体系,专注于构建、部署和管理生产级的机器学习系统。知识覆盖现代ML框架(如PyTorch、TensorFlow)、模型服务(基于Kubernetes)、高级特征工程和全面的MLOps实践(包括监控、A/B测试和持续集成)。旨在交付可扩展、可靠、具备商业价值的AI解决方案。
查看详情
提示工程与大模型优化
prompt-engineer
Jeffallan/claude-skills
355
本技能专精于为大语言模型(LLMs)设计、优化和评估提示词。它能帮助用户生成优化的提示模板、结构化输出模式(如JSON或函数调用),并构建完整的测试套件。适用于构建新的LLM应用、实现思维链式推理、定义系统级护栏,或开发专业的评估框架来衡量和提升模型性能。
查看详情
PyTorch模型因果干预
pyvene-interventions
Orchestra-Research/AI-Research-SKILLs
110
pyvene是一个用于在PyTorch模型上执行因果干预的声明式框架。它支持激活打补丁、因果追踪(ROME风格)和交替干预训练等高级实验。适用于需要测试模型因果假设、深入理解模型组件工作机制或确保可复现性的AI研究场景。
查看详情
超能力实验室环境指南
superpowers-lab
sickn33/antigravity-awesome-skills
118
本技能提供了一个专门的实验室环境和模式指南,用于探索和利用Claude AI框架中的高级能力。适用于需要一个结构化的空间来测试、开发和理解复杂的AI工作流和先进功能的场景。
查看详情
本地Hugging Face模型评估
hugging-face-community-evals
sickn33/antigravity-awesome-skills
359
本技能用于在本地硬件上对Hugging Face Hub上的大模型进行专业的评估和基准测试。它支持使用`inspect-ai`和`lighteval`等评估框架,帮助用户选择最佳推理后端(如`vllm`、Transformers或`accelerate`),进行全面的烟雾测试和任务选择。该技能专注于本地执行流程,不负责远程作业编排或结果发布。
查看详情
敏感信息泄露检测
data-leakage-detection
Tencent/AI-Infra-Guard
58
这是一个用于安全审计的框架,旨在系统性地检测大型语言模型(LLM)是否存在敏感信息泄露。它通过分阶段、递进式的对话探针,测试和捕获包括系统提示词、API密钥、个人身份信息(PII)以及内部配置等多种敏感数据。适用于红队测试和模型安全评估。
查看详情
AI安全扫描与漏洞检测
aig-scanner
Tencent/AI-Infra-Guard
240
本工具依托红心实验室的AI-Infra-Guard框架,提供全方位的AI安全扫描服务。可对AI基础设施、工具、技能、Agent以及大型语言模型进行深度安全审计和漏洞检测,包括越狱测试,确保AI系统的安全性和可靠性。
查看详情
1
2
下一页
语言
简体中文
English