登录
下载
Skill UI
浏览并发现
9967+
精选技能
全部
编程开发
人工智能
设计创意
产品商业
数据科学
市场营销
职场通用
效率工具
硬件工程
语言学习
搜索
指标
,共找到
34
条记录
默认排序
最新上传
最多下载
大语言模型智能体评估
agent-evaluation
sickn33/antigravity-awesome-skills
271
这是一个用于全面测试和评估大型语言模型(LLM)智能体的框架。它超越了简单的通过/失败判断,深入评估智能体的复杂行为、可靠性指标和能力一致性。适用于生产环境的监控,帮助识别高级AI智能体中的微妙故障模式。
查看详情
智能体性能优化工作流
agent-orchestration-improve-agent
sickn33/antigravity-awesome-skills
398
本工作流提供了一个系统性的框架,用于提升现有AI智能体的性能和可靠性。流程包括全面性能指标分析、详细的故障模式分类、高级提示词工程优化(如思维链和宪法AI),并最终通过结构化的A/B测试和受控部署,实现可量化、鲁棒的性能提升。
查看详情
Claude 评估驱动框架
eval-harness
affaan-m/everything-claude-code
90
Claude Code正式评估框架,先定义能力与回归标准,再用代码/模型/人工评估多个阶段,并持续跟踪pass@k和pass^k等可靠性指标以确保交付质量。
查看详情
代码模型评估与基准测试
evaluating-code-models
Orchestra-Research/AI-Research-SKILLs
124
本工具箱用于全面评估代码生成模型的性能。它支持针对HumanEval、MBPP、MultiPL-E等行业标准进行多语言基准测试。可量化比较不同大型语言模型(LLM)的编码能力,通过pass@k指标衡量代码生成质量。
查看详情
LLM微调专家指南
fine-tuning-expert
Jeffallan/claude-skills
454
指导模型工程师完成数据准备、LoRA/QLoRA 适配器配置、训练监控、评估指标收集以及 Adapter 合并部署等 LLM 微调与量化的关键流程。
查看详情
Kling AI生产环境部署检查清单
klingai-prod-checklist
jeremylongshore/claude-code-plugins-plus-skills
487
本清单旨在确保将Kling AI视频生成功能部署到生产环境前,系统具备高度的鲁棒性和安全性。它涵盖了认证机制、错误处理策略(如重试逻辑和超时设置)、成本控制、内容安全审查和详细的监控指标,帮助开发者全面完成上线前的质量和功能验收。
查看详情
LangChain可观测性监控系统
langchain-observability
jeremylongshore/claude-code-plugins-plus-skills
168
本指南提供了一套完整的LangChain生产级可观测性解决方案。它整合了LangSmith零代码追踪、自定义回调函数进行指标捕获(如延迟、Token使用量、错误率),以及Prometheus导出器实现告警。帮助开发者实时监控整个LLM应用管线,确保系统性能和稳定性。
查看详情
Langfuse LLM可观测性与监控
langfuse-observability
jeremylongshore/claude-code-plugins-plus-skills
211
本文指导如何为LLM应用建立全面的可观测性监控体系。通过集成Prometheus指标,可以实时追踪LLM的调用次数、生成延迟、Token消耗量和费用成本。适用于性能调优、成本控制及系统健康状态的持续监控。
查看详情
LangSmith 跟踪调试助手
langsmith-fetch
ComposioHQ/awesome-claude-skills
203
借助 langsmith-fetch CLI 从 LangSmith Studio 抓取 LangChain/LangGraph 代理的执行轨迹,分析错误、工具调用、内存/性能指标并导出调试会话,帮助定位行为异常与失败原因。
查看详情
LLM模型评估与性能测试
llm-evaluation
sickn33/antigravity-awesome-skills
356
提供了一套全面的大型语言模型(LLM)评估框架。内容涵盖自动化指标(如BLEU、ROUGE、BERTScore)、人工评估维度以及使用LLM作为裁判的先进方法。适用于系统性地衡量模型性能、对比不同Prompt或模型,确保AI应用的可靠性和可部署性。
查看详情
Loki 模式自治系统
loki-mode
sickn33/antigravity-awesome-skills
335
Loki Mode 是一个多智能体自治运行系统,将产品需求驱动的流程自动推进至生产环境,结合 OpenAI SDK、DeepMind、Anthropic、AWS Bedrock 等研究能力,遵循 RARV 循环与效率指标来 orchestrate 任务。
查看详情
模型评估指标助手
model-evaluation-metrics
jeremylongshore/claude-code-plugins-plus-skills
227
自动提供模型评估指标的指导,涵盖实践、代码和验证规范,针对提及模型评估指标时自动激活的训练辅助。
查看详情
1
2
3
下一页
语言
简体中文
English