下载

Skill UI

浏览并发现 9688+ 精选技能

全部编程开发人工智能设计创意产品商业数据科学市场营销职场通用效率工具硬件工程语言学习

搜索模型性能，共找到 50 条记录

默认排序最新上传最多下载

Azure Arize AI 可观测性与评估管理

azure-mgmt-arizeaiobservabilityeval-dotnet

sickn33/antigravity-awesome-skills

这是一个用于.NET的Azure SDK，专门用于管理Azure资源管理器中的Arize AI可观测性和评估资源。它允许开发者程序化地对AI组织资源进行创建、读取、更新和删除，是用于监控、跟踪和评估部署在Azure上的AI模型性能的关键工具。

模型上下文衰减模式

context-degradation

sickn33/antigravity-awesome-skills

本技能深入解析大型语言模型在处理长上下文时，性能衰退的几种可预测模式。内容覆盖了“中心信息遗忘”、“上下文污染”、“信息干扰”等核心现象。帮助开发者诊断AI代理的性能瓶颈，并指导如何设计出更健壮、更可靠的长文本处理系统。

代码模型评估与基准测试

evaluating-code-models

Orchestra-Research/AI-Research-SKILLs

本工具箱用于全面评估代码生成模型的性能。它支持针对HumanEval、MBPP、MultiPL-E等行业标准进行多语言基准测试。可量化比较不同大型语言模型（LLM）的编码能力，通过pass@k指标衡量代码生成质量。

LLM 评估框架

evaluating-llms-harness

Orchestra-Research/AI-Research-SKILLs

提供涵盖 MMLU、HumanEval、GSM8K、TruthfulQA、HellaSwag 等 60+ 学术基准测试的标准化评估流程，可用来对 HuggingFace、vLLM 或 API 模型打分、比对性能、跟踪训练进度。

GGUF量化：高效大模型推理

gguf-quantization

Orchestra-Research/AI-Research-SKILLs

本指南深入介绍GGUF格式和模型量化技术，旨在实现大语言模型（LLM）在消费级硬件上的高效推理。通过采用GGUF标准格式和K-quant方法进行模型压缩，可以显著降低内存和硬件要求，使开发者能够在Apple Silicon、CPU或边缘设备上部署高性能AI应用。

Groq工作流：聊天、工具与结构化输出

groq-core-workflow-a

jeremylongshore/claude-code-plugins-plus-skills

本教程展示了如何利用 Groq API 实现高级大模型工作流。涵盖了基础聊天补全、通过工具调用（Function Calling）集成外部功能，以及使用JSON模式确保结构化输出。适用于构建高性能、实时响应的AI应用。

Groq API 聊天补全指南

groq-hello-world

jeremylongshore/claude-code-plugins-plus-skills

本指南全面介绍了如何使用Groq的高速LPU进行聊天补全。内容包含TypeScript和Python代码示例，涵盖了基础聊天交互、流式响应处理，以及多模态和不同性能级别的模型使用。适用于希望快速构建高性能、低延迟AI应用的开发者。

推理延迟分析器

inference-latency-profiler

jeremylongshore/claude-code-plugins-plus-skills

本技能自动处理推理延迟分析器相关任务，在 ML 部署场景中提供模型服务、MLOps 管道、监控和生产优化等按步骤指导，生成生产级代码并校验输出标准，助力快速完成推理性能调优。

知识蒸馏：大模型压缩

knowledge-distillation

Orchestra-Research/AI-Research-SKILLs

知识蒸馏（KD）是一种核心的AI模型压缩技术。它旨在将性能强大的大型语言模型（Teacher）的知识，高效地转移给更小、更易于部署的学生模型（Student）。这使得开发者能够在不损失关键性能的前提下，大幅降低推理成本，实现将前沿大模型能力落地到实际应用场景。

Langfuse CI/CD：LLM质量测试集成

langfuse-ci-integration

jeremylongshore/claude-code-plugins-plus-skills

本指南展示如何将Langfuse集成到CI/CD流水线（例如GitHub Actions）中，用于自动化大型语言模型（LLM）的质量测试。用户可以实现提示词回归测试、调用链验证和实验驱动的质量门禁，确保AI应用的稳定性和性能。

Langfuse LLM 调用可观测性

langfuse-core-workflow-a

jeremylongshore/claude-code-plugins-plus-skills

本工作流展示了如何使用 Langfuse 为大型语言模型（LLM）调用、链式调用和复杂 Agent 实现端到端的完整追踪。它覆盖了包括 OpenAI 包装器、RAG 流程的手动 Span 追踪、流式响应监控以及多模型（如 OpenAI, Anthropic）的集成。适用于需要深入了解 AI 系统性能、调试复杂流程和监控生产环境 LLM 使用情况的场景。

Langfuse LLM评估与基准测试

langfuse-core-workflow-b

jeremylongshore/claude-code-plugins-plus-skills

本技能提供一套完整的LLM评估工作流，使用Langfuse平台实现系统质量管理。涵盖了利用评分机制、收集用户反馈、管理版本化的Prompt、创建测试数据集、运行自动化实验（包括LLM-as-a-Judge）等多个环节，旨在帮助开发者进行全面的模型性能基准测试和质量保障。

12 3 4 5 下一页

语言