登录
下载
Skill UI
浏览并发现
9778+
精选技能
全部
编程开发
人工智能
设计创意
产品商业
数据科学
市场营销
职场通用
效率工具
硬件工程
语言学习
搜索
评估
,共找到
81
条记录
默认排序
最新上传
最多下载
LangChain迁移深度指南
langchain-migration-deep-dive
jeremylongshore/claude-code-plugins-plus-skills
275
本指南为开发者提供了将现有基于原始SDK或旧框架(如LlamaIndex)的LLM代码库,迁移到标准化LangChain框架的完整流程。内容涵盖代码评估、RAG重构、智能体(Agent)和工具调用(Tool Calling)的实践,帮助用户构建更稳定、更可维护的AI应用。
查看详情
Langfuse 观测平台
langfuse
sickn33/antigravity-awesome-skills
134
Langfuse 提供完整的 LLM 观测能力,涵盖调用追踪、提示管理、评估打分与成本/延迟/质量监控,适用于与 LangChain、LlamaIndex、OpenAI 等集成的生产场景。
查看详情
Langfuse LLM评估与基准测试
langfuse-core-workflow-b
jeremylongshore/claude-code-plugins-plus-skills
87
本技能提供一套完整的LLM评估工作流,使用Langfuse平台实现系统质量管理。涵盖了利用评分机制、收集用户反馈、管理版本化的Prompt、创建测试数据集、运行自动化实验(包括LLM-as-a-Judge)等多个环节,旨在帮助开发者进行全面的模型性能基准测试和质量保障。
查看详情
LangSmith LLM 可观测平台
langsmith-observability
Orchestra-Research/AI-Research-SKILLs
91
LangSmith 为 LLM 应用提供端到端观测能力,跟踪调用、评估输出、监控生产系统并构建测试集,同时与 OpenAI、Anthropic、LangChain 等集成,方便排查问题与保障服务质量。
查看详情
LLM模型评估与性能测试
llm-evaluation
sickn33/antigravity-awesome-skills
356
提供了一套全面的大型语言模型(LLM)评估框架。内容涵盖自动化指标(如BLEU、ROUGE、BERTScore)、人工评估维度以及使用LLM作为裁判的先进方法。适用于系统性地衡量模型性能、对比不同Prompt或模型,确保AI应用的可靠性和可部署性。
查看详情
模型评估指标助手
model-evaluation-metrics
jeremylongshore/claude-code-plugins-plus-skills
227
自动提供模型评估指标的指导,涵盖实践、代码和验证规范,针对提及模型评估指标时自动激活的训练辅助。
查看详情
深度学习模型优化
optimizing-deep-learning-models
jeremylongshore/claude-code-plugins-plus-skills
370
通过分析模型结构、数据与指标,自动选择优化器、调度学习率和正则化方法,生成优化后的代码并评估准确率、训练时间与资源消耗,适合需要提升性能与效率的深度学习模型。
查看详情
凤凰AI可观测平台
phoenix-observability
Orchestra-Research/AI-Research-SKILLs
439
Phoenix 是开源AI可观测平台,可用于追踪、评估和监控大语言模型应用,支持实验对比、数据集回归测试与实时生产监控,帮助工程团队自托管排查与优化。
查看详情
提示工程与大模型优化
prompt-engineer
Jeffallan/claude-skills
355
本技能专精于为大语言模型(LLMs)设计、优化和评估提示词。它能帮助用户生成优化的提示模板、结构化输出模式(如JSON或函数调用),并构建完整的测试套件。适用于构建新的LLM应用、实现思维链式推理、定义系统级护栏,或开发专业的评估框架来衡量和提升模型性能。
查看详情
RAG系统架构指南
rag-architect
Jeffallan/claude-skills
341
设计并实现生产级 RAG 系统,涵盖文档切分、嵌入生成、向量存储、混合检索、重排序与评估,助力知识驱动的 AI 应用实现语义搜索、文档检索与上下文增强。
查看详情
RAG系统实现工作流
rag-implementation
sickn33/antigravity-awesome-skills
258
本工作流提供了一个从零到一的RAG(检索增强生成)系统构建指南。它涵盖了从嵌入模型选择、向量数据库配置、分块策略设计,到混合检索、LLM集成和系统评估的整个流程,确保构建出知识可靠、性能优越的AI应用。
查看详情
高级提示词工程指南
senior-prompt-engineer
alirezarezvani/claude-skills
468
为提示词工程师准备的工具集,涵盖提示优化、LLM评估、RAG 质量检测、少样本示例整理及智能体工作流可视化与验证,助力构建可靠的代理系统。
查看详情
上一页
1
2
3
4
5
6
7
下一页
语言
简体中文
English