登录
下载
Skill UI
浏览并发现
9688+
精选技能
全部
编程开发
人工智能
设计创意
产品商业
数据科学
市场营销
职场通用
效率工具
硬件工程
语言学习
搜索
质量评估
,共找到
52
条记录
默认排序
最新上传
最多下载
代码审查卓越指南
code-review-excellence
sickn33/antigravity-awesome-skills
54
本指南旨在将代码审查从简单的“门禁检查”提升为知识分享过程。它指导用户系统性地分析代码变动,重点评估代码的正确性、安全性、性能和可维护性。适用于代码评审、建立开发标准和指导初级开发者提升整体代码质量。
查看详情
Claude 评估驱动框架
eval-harness
affaan-m/everything-claude-code
90
Claude Code正式评估框架,先定义能力与回归标准,再用代码/模型/人工评估多个阶段,并持续跟踪pass@k和pass^k等可靠性指标以确保交付质量。
查看详情
代码模型评估与基准测试
evaluating-code-models
Orchestra-Research/AI-Research-SKILLs
124
本工具箱用于全面评估代码生成模型的性能。它支持针对HumanEval、MBPP、MultiPL-E等行业标准进行多语言基准测试。可量化比较不同大型语言模型(LLM)的编码能力,通过pass@k指标衡量代码生成质量。
查看详情
智能体系统评估框架
evaluation
sickn33/antigravity-awesome-skills
70
该技能用于构建复杂的智能体系统评估框架。它解决了智能体系统非确定性和多路径决策的难题,指导用户进行系统性性能测试,用于验证上下文工程的选择,并衡量跨多个质量维度(如事实准确性、工具效率)的持续改进。
查看详情
网页抓取管道可观测性
firecrawl-observability
jeremylongshore/claude-code-plugins-plus-skills
260
本技能提供了Firecrawl网络爬取操作的全面可观测性模式。它覆盖了抓取成功率、积分消耗追踪、内容质量评估和延迟监控等关键指标。适用于构建健壮的监控仪表盘、设置主动故障警报,确保爬取工作流的稳定与高效。
查看详情
Langfuse 观测平台
langfuse
sickn33/antigravity-awesome-skills
134
Langfuse 提供完整的 LLM 观测能力,涵盖调用追踪、提示管理、评估打分与成本/延迟/质量监控,适用于与 LangChain、LlamaIndex、OpenAI 等集成的生产场景。
查看详情
Langfuse LLM评估与基准测试
langfuse-core-workflow-b
jeremylongshore/claude-code-plugins-plus-skills
87
本技能提供一套完整的LLM评估工作流,使用Langfuse平台实现系统质量管理。涵盖了利用评分机制、收集用户反馈、管理版本化的Prompt、创建测试数据集、运行自动化实验(包括LLM-as-a-Judge)等多个环节,旨在帮助开发者进行全面的模型性能基准测试和质量保障。
查看详情
LangSmith LLM 可观测平台
langsmith-observability
Orchestra-Research/AI-Research-SKILLs
91
LangSmith 为 LLM 应用提供端到端观测能力,跟踪调用、评估输出、监控生产系统并构建测试集,同时与 OpenAI、Anthropic、LangChain 等集成,方便排查问题与保障服务质量。
查看详情
开放证据审查与文献合成
openevidence-core-workflow-b
jeremylongshore/claude-code-plugins-plus-skills
324
这是一个用于系统性医疗证据审查的综合工作流。它支持用户检索临床研究、构建精选引文集合、使用GRADE等专业框架评估证据等级,并自动生成符合学术规范格式(如AMA)的结构化报告。适用于撰写高质量的文献综述和临床研究报告。
查看详情
多智能体代码审查编排工具
performance-testing-review-multi-agent-review
sickn33/antigravity-awesome-skills
109
该工具是一个复杂的AI代码审查系统,能够协调多个专业化的智能体(如安全、架构、性能等)。它超越了传统单一视角的审查限制,通过管理上下文、执行混合工作流、解决冲突和综合分析,为代码提供全面、深度的多视角评估和可执行的质量报告。
查看详情
变异测试质量评估
running-mutation-tests
jeremylongshore/claude-code-plugins-plus-skills
356
在用户请求评估或提升测试有效性时,自动插入变异、重跑测试并上报存活变体和变异分数,帮助识别测试盲点并加强代码质量。
查看详情
高级提示词工程指南
senior-prompt-engineer
alirezarezvani/claude-skills
468
为提示词工程师准备的工具集,涵盖提示优化、LLM评估、RAG 质量检测、少样本示例整理及智能体工作流可视化与验证,助力构建可靠的代理系统。
查看详情
1
2
3
4
5
下一页
语言
简体中文
English