登录
下载
Skill UI
浏览并发现
7282+
精选技能
全部
编程开发
人工智能
设计创意
产品商业
数据科学
市场营销
职场通用
效率工具
硬件工程
语言学习
搜索
AB测试
,共找到
18
条记录
默认排序
最新上传
最多下载
A/B测试配置生成器
a-b-test-config-creator
jeremylongshore/claude-code-plugins-plus-skills
96
此技能自动生成用于机器学习部署的A/B测试配置,提供规范流程、代码示例和校验建议,帮助模型上线后具备完整的监控与灰度能力。
查看详情
ADK智能体构建器
adk-agent-builder
jeremylongshore/claude-code-plugins-plus-skills
202
通过 Google ADK 与 Claude 组合,快速生成具备 React 循环、多智能体协作、工具扩展、工作流自动化及测试骨架的生产级智能体。
查看详情
大语言模型智能体评估
agent-evaluation
sickn33/antigravity-awesome-skills
271
这是一个用于全面测试和评估大型语言模型(LLM)智能体的框架。它超越了简单的通过/失败判断,深入评估智能体的复杂行为、可靠性指标和能力一致性。适用于生产环境的监控,帮助识别高级AI智能体中的微妙故障模式。
查看详情
代码模型评估与基准测试
evaluating-code-models
Orchestra-Research/AI-Research-SKILLs
200
本工具箱用于全面评估代码生成模型的性能。它支持针对HumanEval、MBPP、MultiPL-E等行业标准进行多语言基准测试。可量化比较不同大型语言模型(LLM)的编码能力,通过pass@k指标衡量代码生成质量。
查看详情
Kling AI 视频模型指南
klingai-model-catalog
jeremylongshore/claude-code-plugins-plus-skills
96
指导用户了解 Kling AI 的视频生成模型、比较功能、结合质量/速度/成本的取舍,并提供测试与模型推荐的步骤,帮助选出适合特定场景的方案。
查看详情
LangChain 生产部署清单
langchain-prod-checklist
jeremylongshore/claude-code-plugins-plus-skills
289
帮助 LangChain 团队检查生产部署的安全、容错、可观测、性能、测试与成本管理,便于上线前校验准备情况或回顾现有系统。
查看详情
Langfuse 持续集成配置
langfuse-ci-integration
jeremylongshore/claude-code-plugins-plus-skills
163
在 GitHub Actions 中配置 Langfuse,可实现轨迹验证、提示回归测试、提示自动部署与质量分数监控,帮助持续集成阶段验证和管理提示与调用质量。
查看详情
Langfuse评估与打分流程
langfuse-core-workflow-b
jeremylongshore/claude-code-plugins-plus-skills
400
使用Langfuse核心流程B收集用户反馈、自动化评估函数、LLM裁判评分,并对比提示以实现AI产出质量打分和AB测试。
查看详情
LangSmith LLM 可观测平台
langsmith-observability
Orchestra-Research/AI-Research-SKILLs
142
LangSmith 为 LLM 应用提供端到端观测能力,跟踪调用、评估输出、监控生产系统并构建测试集,同时与 OpenAI、Anthropic、LangChain 等集成,方便排查问题与保障服务质量。
查看详情
OpenRouter 流式响应设置
openrouter-streaming-setup
jeremylongshore/claude-code-plugins-plus-skills
207
该技能指导如何接入 OpenRouter 流式响应,实现实时聊天输出并缩短首令牌时间,涵盖前置条件、配置调整、测试验证和上线监控,适用于支持 SSE 的前端。
查看详情
凤凰AI可观测平台
phoenix-observability
Orchestra-Research/AI-Research-SKILLs
264
Phoenix 是开源AI可观测平台,可用于追踪、评估和监控大语言模型应用,支持实验对比、数据集回归测试与实时生产监控,帮助工程团队自托管排查与优化。
查看详情
PyTorch模型因果干预
pyvene-interventions
Orchestra-Research/AI-Research-SKILLs
473
pyvene是一个用于在PyTorch模型上执行因果干预的声明式框架。它支持激活打补丁、因果追踪(ROME风格)和交替干预训练等高级实验。适用于需要测试模型因果假设、深入理解模型组件工作机制或确保可复现性的AI研究场景。
查看详情
1
2
下一页
语言
简体中文
English