登录
下载
Skill UI
浏览并发现
9688+
精选技能
全部
编程开发
人工智能
设计创意
产品商业
数据科学
市场营销
职场通用
效率工具
硬件工程
语言学习
搜索
模型性能
,共找到
50
条记录
默认排序
最新上传
最多下载
Azure Arize AI 可观测性与评估管理
azure-mgmt-arizeaiobservabilityeval-dotnet
sickn33/antigravity-awesome-skills
192
这是一个用于.NET的Azure SDK,专门用于管理Azure资源管理器中的Arize AI可观测性和评估资源。它允许开发者程序化地对AI组织资源进行创建、读取、更新和删除,是用于监控、跟踪和评估部署在Azure上的AI模型性能的关键工具。
查看详情
模型上下文衰减模式
context-degradation
sickn33/antigravity-awesome-skills
100
本技能深入解析大型语言模型在处理长上下文时,性能衰退的几种可预测模式。内容覆盖了“中心信息遗忘”、“上下文污染”、“信息干扰”等核心现象。帮助开发者诊断AI代理的性能瓶颈,并指导如何设计出更健壮、更可靠的长文本处理系统。
查看详情
代码模型评估与基准测试
evaluating-code-models
Orchestra-Research/AI-Research-SKILLs
124
本工具箱用于全面评估代码生成模型的性能。它支持针对HumanEval、MBPP、MultiPL-E等行业标准进行多语言基准测试。可量化比较不同大型语言模型(LLM)的编码能力,通过pass@k指标衡量代码生成质量。
查看详情
LLM 评估框架
evaluating-llms-harness
Orchestra-Research/AI-Research-SKILLs
484
提供涵盖 MMLU、HumanEval、GSM8K、TruthfulQA、HellaSwag 等 60+ 学术基准测试的标准化评估流程,可用来对 HuggingFace、vLLM 或 API 模型打分、比对性能、跟踪训练进度。
查看详情
GGUF量化:高效大模型推理
gguf-quantization
Orchestra-Research/AI-Research-SKILLs
403
本指南深入介绍GGUF格式和模型量化技术,旨在实现大语言模型(LLM)在消费级硬件上的高效推理。通过采用GGUF标准格式和K-quant方法进行模型压缩,可以显著降低内存和硬件要求,使开发者能够在Apple Silicon、CPU或边缘设备上部署高性能AI应用。
查看详情
Groq工作流:聊天、工具与结构化输出
groq-core-workflow-a
jeremylongshore/claude-code-plugins-plus-skills
128
本教程展示了如何利用 Groq API 实现高级大模型工作流。涵盖了基础聊天补全、通过工具调用(Function Calling)集成外部功能,以及使用JSON模式确保结构化输出。适用于构建高性能、实时响应的AI应用。
查看详情
Groq API 聊天补全指南
groq-hello-world
jeremylongshore/claude-code-plugins-plus-skills
466
本指南全面介绍了如何使用Groq的高速LPU进行聊天补全。内容包含TypeScript和Python代码示例,涵盖了基础聊天交互、流式响应处理,以及多模态和不同性能级别的模型使用。适用于希望快速构建高性能、低延迟AI应用的开发者。
查看详情
推理延迟分析器
inference-latency-profiler
jeremylongshore/claude-code-plugins-plus-skills
208
本技能自动处理推理延迟分析器相关任务,在 ML 部署场景中提供模型服务、MLOps 管道、监控和生产优化等按步骤指导,生成生产级代码并校验输出标准,助力快速完成推理性能调优。
查看详情
知识蒸馏:大模型压缩
knowledge-distillation
Orchestra-Research/AI-Research-SKILLs
417
知识蒸馏(KD)是一种核心的AI模型压缩技术。它旨在将性能强大的大型语言模型(Teacher)的知识,高效地转移给更小、更易于部署的学生模型(Student)。这使得开发者能够在不损失关键性能的前提下,大幅降低推理成本,实现将前沿大模型能力落地到实际应用场景。
查看详情
Langfuse CI/CD:LLM质量测试集成
langfuse-ci-integration
jeremylongshore/claude-code-plugins-plus-skills
444
本指南展示如何将Langfuse集成到CI/CD流水线(例如GitHub Actions)中,用于自动化大型语言模型(LLM)的质量测试。用户可以实现提示词回归测试、调用链验证和实验驱动的质量门禁,确保AI应用的稳定性和性能。
查看详情
Langfuse LLM 调用可观测性
langfuse-core-workflow-a
jeremylongshore/claude-code-plugins-plus-skills
448
本工作流展示了如何使用 Langfuse 为大型语言模型(LLM)调用、链式调用和复杂 Agent 实现端到端的完整追踪。它覆盖了包括 OpenAI 包装器、RAG 流程的手动 Span 追踪、流式响应监控以及多模型(如 OpenAI, Anthropic)的集成。适用于需要深入了解 AI 系统性能、调试复杂流程和监控生产环境 LLM 使用情况的场景。
查看详情
Langfuse LLM评估与基准测试
langfuse-core-workflow-b
jeremylongshore/claude-code-plugins-plus-skills
87
本技能提供一套完整的LLM评估工作流,使用Langfuse平台实现系统质量管理。涵盖了利用评分机制、收集用户反馈、管理版本化的Prompt、创建测试数据集、运行自动化实验(包括LLM-as-a-Judge)等多个环节,旨在帮助开发者进行全面的模型性能基准测试和质量保障。
查看详情
1
2
3
4
5
下一页
语言
简体中文
English