下载

Skill UI

浏览并发现 9688+ 精选技能

全部编程开发人工智能设计创意产品商业数据科学市场营销职场通用效率工具硬件工程语言学习

搜索性能测试，共找到 14 条记录

默认排序最新上传最多下载

智能体性能优化工作流

agent-orchestration-improve-agent

sickn33/antigravity-awesome-skills

本工作流提供了一个系统性的框架，用于提升现有AI智能体的性能和可靠性。流程包括全面性能指标分析、详细的故障模式分类、高级提示词工程优化（如思维链和宪法AI），并最终通过结构化的A/B测试和受控部署，实现可量化、鲁棒的性能提升。

代码模型评估与基准测试

evaluating-code-models

Orchestra-Research/AI-Research-SKILLs

本工具箱用于全面评估代码生成模型的性能。它支持针对HumanEval、MBPP、MultiPL-E等行业标准进行多语言基准测试。可量化比较不同大型语言模型（LLM）的编码能力，通过pass@k指标衡量代码生成质量。

LLM 评估框架

evaluating-llms-harness

Orchestra-Research/AI-Research-SKILLs

提供涵盖 MMLU、HumanEval、GSM8K、TruthfulQA、HellaSwag 等 60+ 学术基准测试的标准化评估流程，可用来对 HuggingFace、vLLM 或 API 模型打分、比对性能、跟踪训练进度。

智能体系统评估框架

sickn33/antigravity-awesome-skills

该技能用于构建复杂的智能体系统评估框架。它解决了智能体系统非确定性和多路径决策的难题，指导用户进行系统性性能测试，用于验证上下文工程的选择，并衡量跨多个质量维度（如事实准确性、工具效率）的持续改进。

LangChain生产环境就绪度清单

langchain-prod-checklist

jeremylongshore/claude-code-plugins-plus-skills

这是一份全面的LangChain应用程序生产环境就绪度清单。它系统性地覆盖了从配置管理、错误处理、可观测性（如LangSmith）、性能优化、安全加固（防止提示注入、处理PII）到严格测试和部署策略等多个维度，帮助开发者确保AI应用具备高可靠性和可维护性，适用于应用上线前或现有系统的审计。

Langfuse CI/CD：LLM质量测试集成

langfuse-ci-integration

jeremylongshore/claude-code-plugins-plus-skills

本指南展示如何将Langfuse集成到CI/CD流水线（例如GitHub Actions）中，用于自动化大型语言模型（LLM）的质量测试。用户可以实现提示词回归测试、调用链验证和实验驱动的质量门禁，确保AI应用的稳定性和性能。

Langfuse LLM评估与基准测试

langfuse-core-workflow-b

jeremylongshore/claude-code-plugins-plus-skills

本技能提供一套完整的LLM评估工作流，使用Langfuse平台实现系统质量管理。涵盖了利用评分机制、收集用户反馈、管理版本化的Prompt、创建测试数据集、运行自动化实验（包括LLM-as-a-Judge）等多个环节，旨在帮助开发者进行全面的模型性能基准测试和质量保障。

LLM模型评估与性能测试

sickn33/antigravity-awesome-skills

提供了一套全面的大型语言模型（LLM）评估框架。内容涵盖自动化指标（如BLEU、ROUGE、BERTScore）、人工评估维度以及使用LLM作为裁判的先进方法。适用于系统性地衡量模型性能、对比不同Prompt或模型，确保AI应用的可靠性和可部署性。

提示工程与大模型优化

prompt-engineer

Jeffallan/claude-skills

本技能专精于为大语言模型（LLMs）设计、优化和评估提示词。它能帮助用户生成优化的提示模板、结构化输出模式（如JSON或函数调用），并构建完整的测试套件。适用于构建新的LLM应用、实现思维链式推理、定义系统级护栏，或开发专业的评估框架来衡量和提升模型性能。

自动AI智能体进化与优化

evolving-ai-agents

Orchestra-Research/AI-Research-SKILLs

A-Evolve是一个通用框架，用于通过LLM驱动的进化算法，自动优化和迭代改进AI智能体。它通过在标准基准测试（Benchmarks）上运行“求解-观察-进化”循环，持续优化智能体的提示词、技能和记忆，实现自学习的、性能增强的智能体。

家庭安防AI基准测试套件

home-security-ai-benchmark

SharpAI/DeepCamera

本套件是一个全面的评估工具，用于基准测试大型语言模型（LLM）和视觉语言模型（VLM）在家庭安防领域的性能。它涵盖了143项测试，覆盖了工具使用、提示注入抵抗性、上下文推理、警报分诊和场景分析等16个关键领域，旨在确保智能家居AI系统的稳健性。

大模型链评估与回归测试

langchain-eval-harness

jeremylongshore/claude-code-plugins-plus-skills

本工具提供了一套全面的、可复现的LLM链和智能体评估系统。它集成了黄金数据集管理、LangSmith评估、RAGAS指标、deepeval LLM判别等功能。适用于为新构建的链条设置质量基线、诊断模型切换后的性能退化，以及在CI/CD流程中设置回归检测门禁。

语言