下载

Skill UI

浏览并发现 7147+ 精选技能

全部编程开发人工智能设计创意产品商业数据科学市场营销职场通用效率工具硬件工程语言学习

搜索测试，共找到 34 条记录

默认排序最新上传最多下载

A/B测试配置生成器

a-b-test-config-creator

jeremylongshore/claude-code-plugins-plus-skills

此技能自动生成用于机器学习部署的A/B测试配置，提供规范流程、代码示例和校验建议，帮助模型上线后具备完整的监控与灰度能力。

ADK智能体构建器

adk-agent-builder

jeremylongshore/claude-code-plugins-plus-skills

通过 Google ADK 与 Claude 组合，快速生成具备 React 循环、多智能体协作、工具扩展、工作流自动化及测试骨架的生产级智能体。

大语言模型智能体评估

agent-evaluation

sickn33/antigravity-awesome-skills

这是一个用于全面测试和评估大型语言模型（LLM）智能体的框架。它超越了简单的通过/失败判断，深入评估智能体的复杂行为、可靠性指标和能力一致性。适用于生产环境的监控，帮助识别高级AI智能体中的微妙故障模式。

代码模型评估与基准测试

evaluating-code-models

Orchestra-Research/AI-Research-SKILLs

本工具箱用于全面评估代码生成模型的性能。它支持针对HumanEval、MBPP、MultiPL-E等行业标准进行多语言基准测试。可量化比较不同大型语言模型（LLM）的编码能力，通过pass@k指标衡量代码生成质量。

LLM 评估框架

evaluating-llms-harness

Orchestra-Research/AI-Research-SKILLs

提供涵盖 MMLU、HumanEval、GSM8K、TruthfulQA、HellaSwag 等 60+ 学术基准测试的标准化评估流程，可用来对 HuggingFace、vLLM 或 API 模型打分、比对性能、跟踪训练进度。

Kling AI 视频模型指南

klingai-model-catalog

jeremylongshore/claude-code-plugins-plus-skills

指导用户了解 Kling AI 的视频生成模型、比较功能、结合质量/速度/成本的取舍，并提供测试与模型推荐的步骤，帮助选出适合特定场景的方案。

KlingAI 性能调优

klingai-performance-tuning

jeremylongshore/claude-code-plugins-plus-skills

通过基准测试、识别瓶颈、部署优化、再测比对等流程提升 Kling AI 的速度、质量与成本效率，帮助用户在实践中取得平衡的性能提升。

LangChain 生产部署清单

langchain-prod-checklist

jeremylongshore/claude-code-plugins-plus-skills

帮助 LangChain 团队检查生产部署的安全、容错、可观测、性能、测试与成本管理，便于上线前校验准备情况或回顾现有系统。

LangChain 升级指南

langchain-upgrade-migration

jeremylongshore/claude-code-plugins-plus-skills

指导团队在不同LangChain版本之间升级时检查版本、替换导入、迁移链/代理/内存模块、更新依赖并验证测试与预发布环境。

Langfuse 持续集成配置

langfuse-ci-integration

jeremylongshore/claude-code-plugins-plus-skills

在 GitHub Actions 中配置 Langfuse，可实现轨迹验证、提示回归测试、提示自动部署与质量分数监控，帮助持续集成阶段验证和管理提示与调用质量。

Langfuse评估与打分流程

langfuse-core-workflow-b

jeremylongshore/claude-code-plugins-plus-skills

使用Langfuse核心流程B收集用户反馈、自动化评估函数、LLM裁判评分，并对比提示以实现AI产出质量打分和AB测试。

LangSmith LLM 可观测平台

langsmith-observability

Orchestra-Research/AI-Research-SKILLs

LangSmith 为 LLM 应用提供端到端观测能力，跟踪调用、评估输出、监控生产系统并构建测试集，同时与 OpenAI、Anthropic、LangChain 等集成，方便排查问题与保障服务质量。

语言