下载

Skill UI

浏览并发现 9688+ 精选技能

全部编程开发人工智能设计创意产品商业数据科学市场营销职场通用效率工具硬件工程语言学习

搜索质量评估，共找到 52 条记录

默认排序最新上传最多下载

代码审查卓越指南

code-review-excellence

sickn33/antigravity-awesome-skills

本指南旨在将代码审查从简单的“门禁检查”提升为知识分享过程。它指导用户系统性地分析代码变动，重点评估代码的正确性、安全性、性能和可维护性。适用于代码评审、建立开发标准和指导初级开发者提升整体代码质量。

Claude 评估驱动框架

affaan-m/everything-claude-code

Claude Code正式评估框架，先定义能力与回归标准，再用代码/模型/人工评估多个阶段，并持续跟踪pass@k和pass^k等可靠性指标以确保交付质量。

代码模型评估与基准测试

evaluating-code-models

Orchestra-Research/AI-Research-SKILLs

本工具箱用于全面评估代码生成模型的性能。它支持针对HumanEval、MBPP、MultiPL-E等行业标准进行多语言基准测试。可量化比较不同大型语言模型（LLM）的编码能力，通过pass@k指标衡量代码生成质量。

智能体系统评估框架

sickn33/antigravity-awesome-skills

该技能用于构建复杂的智能体系统评估框架。它解决了智能体系统非确定性和多路径决策的难题，指导用户进行系统性性能测试，用于验证上下文工程的选择，并衡量跨多个质量维度（如事实准确性、工具效率）的持续改进。

网页抓取管道可观测性

firecrawl-observability

jeremylongshore/claude-code-plugins-plus-skills

本技能提供了Firecrawl网络爬取操作的全面可观测性模式。它覆盖了抓取成功率、积分消耗追踪、内容质量评估和延迟监控等关键指标。适用于构建健壮的监控仪表盘、设置主动故障警报，确保爬取工作流的稳定与高效。

Langfuse 观测平台

sickn33/antigravity-awesome-skills

Langfuse 提供完整的 LLM 观测能力，涵盖调用追踪、提示管理、评估打分与成本/延迟/质量监控，适用于与 LangChain、LlamaIndex、OpenAI 等集成的生产场景。

Langfuse LLM评估与基准测试

langfuse-core-workflow-b

jeremylongshore/claude-code-plugins-plus-skills

本技能提供一套完整的LLM评估工作流，使用Langfuse平台实现系统质量管理。涵盖了利用评分机制、收集用户反馈、管理版本化的Prompt、创建测试数据集、运行自动化实验（包括LLM-as-a-Judge）等多个环节，旨在帮助开发者进行全面的模型性能基准测试和质量保障。

LangSmith LLM 可观测平台

langsmith-observability

Orchestra-Research/AI-Research-SKILLs

LangSmith 为 LLM 应用提供端到端观测能力，跟踪调用、评估输出、监控生产系统并构建测试集，同时与 OpenAI、Anthropic、LangChain 等集成，方便排查问题与保障服务质量。

开放证据审查与文献合成

openevidence-core-workflow-b

jeremylongshore/claude-code-plugins-plus-skills

这是一个用于系统性医疗证据审查的综合工作流。它支持用户检索临床研究、构建精选引文集合、使用GRADE等专业框架评估证据等级，并自动生成符合学术规范格式（如AMA）的结构化报告。适用于撰写高质量的文献综述和临床研究报告。

多智能体代码审查编排工具

performance-testing-review-multi-agent-review

sickn33/antigravity-awesome-skills

该工具是一个复杂的AI代码审查系统，能够协调多个专业化的智能体（如安全、架构、性能等）。它超越了传统单一视角的审查限制，通过管理上下文、执行混合工作流、解决冲突和综合分析，为代码提供全面、深度的多视角评估和可执行的质量报告。

变异测试质量评估

running-mutation-tests

jeremylongshore/claude-code-plugins-plus-skills

在用户请求评估或提升测试有效性时，自动插入变异、重跑测试并上报存活变体和变异分数，帮助识别测试盲点并加强代码质量。

高级提示词工程指南

senior-prompt-engineer

alirezarezvani/claude-skills

为提示词工程师准备的工具集，涵盖提示优化、LLM评估、RAG 质量检测、少样本示例整理及智能体工作流可视化与验证，助力构建可靠的代理系统。

12 3 4 5 下一页

语言