下载

Skill UI

浏览并发现 6004+ 精选技能

全部编程开发人工智能设计创意产品商业数据科学市场营销职场通用效率工具硬件工程语言学习

搜索指标，共找到 22 条记录

默认排序最新上传最多下载

评估流程框架

affaan-m/everything-claude-code

Claude Code 的正式评估框架，将评价驱动开发落地，通过能力与回归评估、代码/模型/人类评价者及 pass@k 指标，实现迭代中的持续验证与报告。

智能体评估框架

sickn33/antigravity-awesome-skills

构建符合多维指标的智能体评估体系，衡量令牌使用、工具调用和模型选择，验证上下文工程、捕捉回归并持续监控生产能力。

生成引擎优化指南

geo-fundamentals

sickn33/antigravity-awesome-skills

面向 ChatGPT、Claude 等 AI 搜索引擎的内容优化流程，结合结构、实体、技术与指标等维度，助力品牌提升被引用率。

LangChain 观测配置

langchain-observability

jeremylongshore/claude-code-plugins-plus-skills

通过 LangSmith 跟踪、Prometheus 指标、OpenTelemetry 跨度、结构化日志、Grafana 仪表盘与告警，为 LangChain 应用在预发布与生产环境中构建全面的观测能力，及时掌握运行状况与性能瓶颈。

Langfuse 监控与告警体系

langfuse-observability

jeremylongshore/claude-code-plugins-plus-skills

为 Langfuse 集成构建 Prometheus 指标、Grafana 看板和 AlertManager 告警，监测 LLM 操作的请求率、延迟、成本与错误，确保链路健康和预算可控。

LangSmith 跟踪调试助手

langsmith-fetch

ComposioHQ/awesome-claude-skills

借助 langsmith-fetch CLI 从 LangSmith Studio 抓取 LangChain/LangGraph 代理的执行轨迹，分析错误、工具调用、内存/性能指标并导出调试会话，帮助定位行为异常与失败原因。

LangSmith LLM 观测平台

langsmith-observability

Orchestra-Research/AI-Research-SKILLs

LangSmith 是用于调试、评估与监控 LLM 应用的观测平台，可追踪调用、构建评测数据集、监控生产指标与成本，助力回归测试与运维协作。

LLM评估工具集

sickn33/antigravity-awesome-skills

指导通过自动化指标、人工评估及大模型裁判策略，衡量提示、监控回归、验证生产部署质量。

Mistral 可观测平台

mistral-observability

jeremylongshore/claude-code-plugins-plus-skills

为 Mistral AI 集成建立指标、日志、告警与成本追踪，确保请求速率、延迟、token 消耗及异常情况可视化并可告警。

MLflow 生命周期追踪

Orchestra-Research/AI-Research-SKILLs

MLflow 提供与框架无关的机器学习生命周期套件，涵盖实验追踪、模型注册版本与阶段管理、指标与工件记录以及多平台部署，帮助团队复现实验并协同交付。

模型评估指标助手

model-evaluation-metrics

jeremylongshore/claude-code-plugins-plus-skills

自动提供模型评估指标的指导，涵盖实践、代码和验证规范，针对提及模型评估指标时自动激活的训练辅助。

模型融合技巧

Orchestra-Research/AI-Research-SKILLs

使用 Mergekit 在 CPU 上通过 SLERP、TIES、DARE、任务算术或线性方法融合多个微调模型，快速试验组合、保留多领域能力并提升指标表现，无需重新训练即可部署。

语言