下载

Skill UI

浏览并发现 9967+ 精选技能

全部编程开发人工智能设计创意产品商业数据科学市场营销职场通用效率工具硬件工程语言学习

搜索指标，共找到 34 条记录

默认排序最新上传最多下载

大语言模型智能体评估

agent-evaluation

sickn33/antigravity-awesome-skills

这是一个用于全面测试和评估大型语言模型（LLM）智能体的框架。它超越了简单的通过/失败判断，深入评估智能体的复杂行为、可靠性指标和能力一致性。适用于生产环境的监控，帮助识别高级AI智能体中的微妙故障模式。

智能体性能优化工作流

agent-orchestration-improve-agent

sickn33/antigravity-awesome-skills

本工作流提供了一个系统性的框架，用于提升现有AI智能体的性能和可靠性。流程包括全面性能指标分析、详细的故障模式分类、高级提示词工程优化（如思维链和宪法AI），并最终通过结构化的A/B测试和受控部署，实现可量化、鲁棒的性能提升。

Claude 评估驱动框架

affaan-m/everything-claude-code

Claude Code正式评估框架，先定义能力与回归标准，再用代码/模型/人工评估多个阶段，并持续跟踪pass@k和pass^k等可靠性指标以确保交付质量。

代码模型评估与基准测试

evaluating-code-models

Orchestra-Research/AI-Research-SKILLs

本工具箱用于全面评估代码生成模型的性能。它支持针对HumanEval、MBPP、MultiPL-E等行业标准进行多语言基准测试。可量化比较不同大型语言模型（LLM）的编码能力，通过pass@k指标衡量代码生成质量。

LLM微调专家指南

fine-tuning-expert

Jeffallan/claude-skills

指导模型工程师完成数据准备、LoRA/QLoRA 适配器配置、训练监控、评估指标收集以及 Adapter 合并部署等 LLM 微调与量化的关键流程。

Kling AI生产环境部署检查清单

klingai-prod-checklist

jeremylongshore/claude-code-plugins-plus-skills

本清单旨在确保将Kling AI视频生成功能部署到生产环境前，系统具备高度的鲁棒性和安全性。它涵盖了认证机制、错误处理策略（如重试逻辑和超时设置）、成本控制、内容安全审查和详细的监控指标，帮助开发者全面完成上线前的质量和功能验收。

LangChain可观测性监控系统

langchain-observability

jeremylongshore/claude-code-plugins-plus-skills

本指南提供了一套完整的LangChain生产级可观测性解决方案。它整合了LangSmith零代码追踪、自定义回调函数进行指标捕获（如延迟、Token使用量、错误率），以及Prometheus导出器实现告警。帮助开发者实时监控整个LLM应用管线，确保系统性能和稳定性。

Langfuse LLM可观测性与监控

langfuse-observability

jeremylongshore/claude-code-plugins-plus-skills

本文指导如何为LLM应用建立全面的可观测性监控体系。通过集成Prometheus指标，可以实时追踪LLM的调用次数、生成延迟、Token消耗量和费用成本。适用于性能调优、成本控制及系统健康状态的持续监控。

LangSmith 跟踪调试助手

langsmith-fetch

ComposioHQ/awesome-claude-skills

借助 langsmith-fetch CLI 从 LangSmith Studio 抓取 LangChain/LangGraph 代理的执行轨迹，分析错误、工具调用、内存/性能指标并导出调试会话，帮助定位行为异常与失败原因。

LLM模型评估与性能测试

sickn33/antigravity-awesome-skills

提供了一套全面的大型语言模型（LLM）评估框架。内容涵盖自动化指标（如BLEU、ROUGE、BERTScore）、人工评估维度以及使用LLM作为裁判的先进方法。适用于系统性地衡量模型性能、对比不同Prompt或模型，确保AI应用的可靠性和可部署性。

Loki 模式自治系统

sickn33/antigravity-awesome-skills

Loki Mode 是一个多智能体自治运行系统，将产品需求驱动的流程自动推进至生产环境，结合 OpenAI SDK、DeepMind、Anthropic、AWS Bedrock 等研究能力，遵循 RARV 循环与效率指标来 orchestrate 任务。

模型评估指标助手

model-evaluation-metrics

jeremylongshore/claude-code-plugins-plus-skills

自动提供模型评估指标的指导，涵盖实践、代码和验证规范，针对提及模型评估指标时自动激活的训练辅助。

语言