下载

Skill UI

浏览并发现 9778+ 精选技能

全部编程开发人工智能设计创意产品商业数据科学市场营销职场通用效率工具硬件工程语言学习

搜索评估，共找到 81 条记录

默认排序最新上传最多下载

LangChain迁移深度指南

langchain-migration-deep-dive

jeremylongshore/claude-code-plugins-plus-skills

本指南为开发者提供了将现有基于原始SDK或旧框架（如LlamaIndex）的LLM代码库，迁移到标准化LangChain框架的完整流程。内容涵盖代码评估、RAG重构、智能体（Agent）和工具调用（Tool Calling）的实践，帮助用户构建更稳定、更可维护的AI应用。

Langfuse 观测平台

sickn33/antigravity-awesome-skills

Langfuse 提供完整的 LLM 观测能力，涵盖调用追踪、提示管理、评估打分与成本/延迟/质量监控，适用于与 LangChain、LlamaIndex、OpenAI 等集成的生产场景。

Langfuse LLM评估与基准测试

langfuse-core-workflow-b

jeremylongshore/claude-code-plugins-plus-skills

本技能提供一套完整的LLM评估工作流，使用Langfuse平台实现系统质量管理。涵盖了利用评分机制、收集用户反馈、管理版本化的Prompt、创建测试数据集、运行自动化实验（包括LLM-as-a-Judge）等多个环节，旨在帮助开发者进行全面的模型性能基准测试和质量保障。

LangSmith LLM 可观测平台

langsmith-observability

Orchestra-Research/AI-Research-SKILLs

LangSmith 为 LLM 应用提供端到端观测能力，跟踪调用、评估输出、监控生产系统并构建测试集，同时与 OpenAI、Anthropic、LangChain 等集成，方便排查问题与保障服务质量。

LLM模型评估与性能测试

sickn33/antigravity-awesome-skills

提供了一套全面的大型语言模型（LLM）评估框架。内容涵盖自动化指标（如BLEU、ROUGE、BERTScore）、人工评估维度以及使用LLM作为裁判的先进方法。适用于系统性地衡量模型性能、对比不同Prompt或模型，确保AI应用的可靠性和可部署性。

模型评估指标助手

model-evaluation-metrics

jeremylongshore/claude-code-plugins-plus-skills

自动提供模型评估指标的指导，涵盖实践、代码和验证规范，针对提及模型评估指标时自动激活的训练辅助。

深度学习模型优化

optimizing-deep-learning-models

jeremylongshore/claude-code-plugins-plus-skills

通过分析模型结构、数据与指标，自动选择优化器、调度学习率和正则化方法，生成优化后的代码并评估准确率、训练时间与资源消耗，适合需要提升性能与效率的深度学习模型。

凤凰AI可观测平台

phoenix-observability

Orchestra-Research/AI-Research-SKILLs

Phoenix 是开源AI可观测平台，可用于追踪、评估和监控大语言模型应用，支持实验对比、数据集回归测试与实时生产监控，帮助工程团队自托管排查与优化。

提示工程与大模型优化

prompt-engineer

Jeffallan/claude-skills

本技能专精于为大语言模型（LLMs）设计、优化和评估提示词。它能帮助用户生成优化的提示模板、结构化输出模式（如JSON或函数调用），并构建完整的测试套件。适用于构建新的LLM应用、实现思维链式推理、定义系统级护栏，或开发专业的评估框架来衡量和提升模型性能。

RAG系统架构指南

Jeffallan/claude-skills

设计并实现生产级 RAG 系统，涵盖文档切分、嵌入生成、向量存储、混合检索、重排序与评估，助力知识驱动的 AI 应用实现语义搜索、文档检索与上下文增强。

RAG系统实现工作流

rag-implementation

sickn33/antigravity-awesome-skills

本工作流提供了一个从零到一的RAG（检索增强生成）系统构建指南。它涵盖了从嵌入模型选择、向量数据库配置、分块策略设计，到混合检索、LLM集成和系统评估的整个流程，确保构建出知识可靠、性能优越的AI应用。

高级提示词工程指南

senior-prompt-engineer

alirezarezvani/claude-skills

为提示词工程师准备的工具集，涵盖提示优化、LLM评估、RAG 质量检测、少样本示例整理及智能体工作流可视化与验证，助力构建可靠的代理系统。

上一页 123 4 5 6 7 下一页

语言