登录
下载
Skill UI
浏览并发现
9688+
精选技能
全部
编程开发
人工智能
设计创意
产品商业
数据科学
市场营销
职场通用
效率工具
硬件工程
语言学习
搜索
性能测试
,共找到
14
条记录
默认排序
最新上传
最多下载
智能体性能优化工作流
agent-orchestration-improve-agent
sickn33/antigravity-awesome-skills
398
本工作流提供了一个系统性的框架,用于提升现有AI智能体的性能和可靠性。流程包括全面性能指标分析、详细的故障模式分类、高级提示词工程优化(如思维链和宪法AI),并最终通过结构化的A/B测试和受控部署,实现可量化、鲁棒的性能提升。
查看详情
代码模型评估与基准测试
evaluating-code-models
Orchestra-Research/AI-Research-SKILLs
124
本工具箱用于全面评估代码生成模型的性能。它支持针对HumanEval、MBPP、MultiPL-E等行业标准进行多语言基准测试。可量化比较不同大型语言模型(LLM)的编码能力,通过pass@k指标衡量代码生成质量。
查看详情
LLM 评估框架
evaluating-llms-harness
Orchestra-Research/AI-Research-SKILLs
484
提供涵盖 MMLU、HumanEval、GSM8K、TruthfulQA、HellaSwag 等 60+ 学术基准测试的标准化评估流程,可用来对 HuggingFace、vLLM 或 API 模型打分、比对性能、跟踪训练进度。
查看详情
智能体系统评估框架
evaluation
sickn33/antigravity-awesome-skills
70
该技能用于构建复杂的智能体系统评估框架。它解决了智能体系统非确定性和多路径决策的难题,指导用户进行系统性性能测试,用于验证上下文工程的选择,并衡量跨多个质量维度(如事实准确性、工具效率)的持续改进。
查看详情
LangChain生产环境就绪度清单
langchain-prod-checklist
jeremylongshore/claude-code-plugins-plus-skills
131
这是一份全面的LangChain应用程序生产环境就绪度清单。它系统性地覆盖了从配置管理、错误处理、可观测性(如LangSmith)、性能优化、安全加固(防止提示注入、处理PII)到严格测试和部署策略等多个维度,帮助开发者确保AI应用具备高可靠性和可维护性,适用于应用上线前或现有系统的审计。
查看详情
Langfuse CI/CD:LLM质量测试集成
langfuse-ci-integration
jeremylongshore/claude-code-plugins-plus-skills
444
本指南展示如何将Langfuse集成到CI/CD流水线(例如GitHub Actions)中,用于自动化大型语言模型(LLM)的质量测试。用户可以实现提示词回归测试、调用链验证和实验驱动的质量门禁,确保AI应用的稳定性和性能。
查看详情
Langfuse LLM评估与基准测试
langfuse-core-workflow-b
jeremylongshore/claude-code-plugins-plus-skills
87
本技能提供一套完整的LLM评估工作流,使用Langfuse平台实现系统质量管理。涵盖了利用评分机制、收集用户反馈、管理版本化的Prompt、创建测试数据集、运行自动化实验(包括LLM-as-a-Judge)等多个环节,旨在帮助开发者进行全面的模型性能基准测试和质量保障。
查看详情
LLM模型评估与性能测试
llm-evaluation
sickn33/antigravity-awesome-skills
356
提供了一套全面的大型语言模型(LLM)评估框架。内容涵盖自动化指标(如BLEU、ROUGE、BERTScore)、人工评估维度以及使用LLM作为裁判的先进方法。适用于系统性地衡量模型性能、对比不同Prompt或模型,确保AI应用的可靠性和可部署性。
查看详情
提示工程与大模型优化
prompt-engineer
Jeffallan/claude-skills
355
本技能专精于为大语言模型(LLMs)设计、优化和评估提示词。它能帮助用户生成优化的提示模板、结构化输出模式(如JSON或函数调用),并构建完整的测试套件。适用于构建新的LLM应用、实现思维链式推理、定义系统级护栏,或开发专业的评估框架来衡量和提升模型性能。
查看详情
自动AI智能体进化与优化
evolving-ai-agents
Orchestra-Research/AI-Research-SKILLs
63
A-Evolve是一个通用框架,用于通过LLM驱动的进化算法,自动优化和迭代改进AI智能体。它通过在标准基准测试(Benchmarks)上运行“求解-观察-进化”循环,持续优化智能体的提示词、技能和记忆,实现自学习的、性能增强的智能体。
查看详情
家庭安防AI基准测试套件
home-security-ai-benchmark
SharpAI/DeepCamera
379
本套件是一个全面的评估工具,用于基准测试大型语言模型(LLM)和视觉语言模型(VLM)在家庭安防领域的性能。它涵盖了143项测试,覆盖了工具使用、提示注入抵抗性、上下文推理、警报分诊和场景分析等16个关键领域,旨在确保智能家居AI系统的稳健性。
查看详情
大模型链评估与回归测试
langchain-eval-harness
jeremylongshore/claude-code-plugins-plus-skills
103
本工具提供了一套全面的、可复现的LLM链和智能体评估系统。它集成了黄金数据集管理、LangSmith评估、RAGAS指标、deepeval LLM判别等功能。适用于为新构建的链条设置质量基线、诊断模型切换后的性能退化,以及在CI/CD流程中设置回归检测门禁。
查看详情
1
2
下一页
语言
简体中文
English