下载

Skill UI

浏览并发现 9765+ 精选技能

全部编程开发人工智能设计创意产品商业数据科学市场营销职场通用效率工具硬件工程语言学习

搜索延迟优化，共找到 12 条记录

默认排序最新上传最多下载

上下文优化策略

context-optimization

sickn33/antigravity-awesome-skills

本技能提供了一套高级的LLM上下文管理框架，旨在提升有限上下文窗口的有效容量。它涵盖了压缩、观测屏蔽、KV缓存优化和上下文分区等四种核心技术。通过优化Token使用，可以有效解决上下文限制问题，帮助构建成本更低、延迟更小、能处理大规模文档和复杂任务的生产级AI Agent系统。

Groq应用参考架构设计

groq-reference-architecture

jeremylongshore/claude-code-plugins-plus-skills

本指南提供了一套基于Groq LPU推理API的生产级参考架构蓝图。它系统地展示了如何根据延迟、质量或成本需求实现模型路由、流式数据管道，并构建了多提供商故障转移机制（如Groq到OpenAI备份）。适用于设计和优化复杂的、高弹性的AI应用系统。

推理延迟分析器

inference-latency-profiler

jeremylongshore/claude-code-plugins-plus-skills

本技能自动处理推理延迟分析器相关任务，在 ML 部署场景中提供模型服务、MLOps 管道、监控和生产优化等按步骤指导，生成生产级代码并校验输出标准，助力快速完成推理性能调优。

Mistral AI API性能调优指南

mistral-performance-tuning

jeremylongshore/claude-code-plugins-plus-skills

本指南提供一套全面的Mistral AI API性能优化框架。内容涵盖模型选型、响应流式传输（Streaming）、请求缓存、并发控制到提示词优化等高级技术。帮助开发者解决API响应慢、吞吐量不足等问题，实现高效、低延迟、高稳定性的AI应用集成，是构建生产级AI系统的必备知识。

实时语音对话智能体开发

sickn33/antigravity-awesome-skills

本技能旨在构建先进的语音AI智能体，实现自然流畅、低延迟的实时人机对话。它深入探讨了两种核心架构：低延迟的语音到语音（S2S）模式和可控的STT→LLM→TTS流水线。核心挑战在于优化端到端延迟（目标小于800ms），处理对话中断、噪音和情感细微差别，适用于客服、IVR和实时翻译等专业场景。

语音AI架构专家

voice-ai-development

sickn33/antigravity-awesome-skills

打造面向生产环境的实时语音代理和语音应用，结合 OpenAI Realtime、Vapi、Deepgram、ElevenLabs、LiveKit 与 WebRTC，持续优化延迟与音质，确保响应体验。

ElevenLabs TTS性能优化指南

elevenlabs-performance-tuning

jeremylongshore/claude-code-plugins-plus-skills

本指南提供了优化ElevenLabs TTS性能的完整技术方案。内容涵盖了如何通过模型选择（如Flash模型）、利用流媒体（Streaming）接口以及优化音频格式，来显著降低语音生成延迟和提高数据吞吐量。适用于实时对话、IVR系统和高并发的语音内容生成场景。

AssemblyAI转录性能优化指南

assemblyai-performance-tuning

jeremylongshore/claude-code-plugins-plus-skills

本指南提供了优化AssemblyAI转录性能的全面高级策略。涵盖了如何最大化处理吞吐量和最小化延迟，指导用户实现缓存机制、使用Webhook替代轮询、根据需求选择最佳模型，以及高效并行处理大规模批次任务。

Cohere API性能调优指南

cohere-performance-tuning

jeremylongshore/claude-code-plugins-plus-skills

本指南提供全面的Cohere API v2性能优化策略。旨在帮助用户优化Chat、Embed和Rerank等核心API的使用效率，显著提高API吞吐量、降低延迟和管理成本。核心技术包括根据延迟预算选择最佳模型、实现流式传输（Streaming）以提升用户体验、高效批量嵌入（Batching）处理、向量压缩以及部署缓存机制。

Qdrant性能优化指南

qdrant-performance-optimization

github/awesome-copilot

本指南提供了全面的Qdrant性能优化策略。内容涵盖了搜索速度（包括延迟和吞吐量）、高效的向量索引构建、以及内存使用管理等关键方面。适用于需要提升向量数据库运行速度、可扩展性和资源利用率的场景。

Qdrant向量搜索性能优化指南

qdrant-search-speed-optimization

github/awesome-copilot

本指南详细介绍了Qdrant向量搜索的性能诊断与优化方法，解决搜索速度慢、延迟高或吞吐量不足的问题。内容涵盖了从内存优化、HNSW参数调优、量化技术到高效索引创建等多个方面，帮助用户提升系统在高负载下的检索效率。

Coral TPU实时目标检测

yolo-detection-2026-coral-tpu-macos

SharpAI/DeepCamera

本技能利用Google Coral Edge TPU加速器，提供高性能的实时物体检测功能。它能够处理实时摄像头画面，识别并返回高达80个COCO数据集中的各类物体（如人、车、狗等）。该系统针对macOS和Linux原生部署进行了优化，实现极低的延迟（如320x320下约4ms），非常适用于嵌入式视觉系统和实时监控场景。

1

语言