登录
下载
Skill UI
浏览并发现
9746+
精选技能
全部
编程开发
人工智能
设计创意
产品商业
数据科学
市场营销
职场通用
效率工具
硬件工程
语言学习
搜索
吞吐量
,共找到
92
条记录
默认排序
最新上传
最多下载
企业级大模型强化学习训练
miles-rl-training
Orchestra-Research/AI-Research-SKILLs
211
为企业级 MoE 大模型提供 miles 强化学习训练指导,覆盖 FP8/INT4 低精度、训练推理对齐与投机式推理流程,保障稳定性与最大吞吐量。
查看详情
Mistral AI API性能调优指南
mistral-performance-tuning
jeremylongshore/claude-code-plugins-plus-skills
65
本指南提供一套全面的Mistral AI API性能优化框架。内容涵盖模型选型、响应流式传输(Streaming)、请求缓存、并发控制到提示词优化等高级技术。帮助开发者解决API响应慢、吞吐量不足等问题,实现高效、低延迟、高稳定性的AI应用集成,是构建生产级AI系统的必备知识。
查看详情
Mistral AI速率限制与重试机制
mistral-rate-limits
jeremylongshore/claude-code-plugins-plus-skills
196
本教程详细介绍了如何为Mistral AI API实现高效的速率限制(RPM/TPM)管理。它提供了基于Token消耗和请求频率的限制器实现,并演示了如何利用指数退避和`Retry-After`头部进行重试,确保应用在高并发和API限制场景下的稳定性和吞吐量。
查看详情
OpenRouter API性能调优
openrouter-performance-tuning
jeremylongshore/claude-code-plugins-plus-skills
413
本技能提供了一套完整的LLM API性能优化方案,用于解决实际应用中的延迟和吞吐量瓶颈。内容涵盖模型基准测试、实现流式传输(降低首次令牌时间TTFT)以及使用异步编程进行并发请求处理,帮助开发者构建高效、高性能的实时应用。
查看详情
API速率限制与高并发处理
openrouter-rate-limits
jeremylongshore/claude-code-plugins-plus-skills
119
本技能详细指导如何处理API的速率限制和限流问题(如OpenRouter的429错误)。内容涵盖了构建高吞吐量系统所需的最佳实践,包括使用指数退避算法、实现客户端Token Bucket限流器,以及优化异步批处理的并发控制,确保应用程序的稳定性和可靠性。
查看详情
性能工程与系统优化专家
performance-engineer
sickn33/antigravity-awesome-skills
429
模拟一位专业的性能工程师,擅长诊断和解决整个技术栈的性能瓶颈。该技能覆盖了现代可观测性、高级性能分析、负载测试和系统优化等领域。适用于需要优化系统可扩展性、降低延迟、提升吞吐量,或构建高可靠性分布式云系统的场景。
查看详情
Perplexity API性能优化与调优
perplexity-performance-tuning
jeremylongshore/claude-code-plugins-plus-skills
296
本技能包提供了一套完整的Perplexity Sonar API优化方案,旨在解决API响应缓慢、吞吐量不足的问题。它通过智能模型路由、基于时效性的查询缓存(TTL),以及响应流式传输等高级技术,帮助开发者显著降低查询延迟,提高系统效率,并优化资源消耗。适用于构建复杂的、依赖实时搜索结果的应用程序。
查看详情
批量API操作处理
processing-api-batches
jeremylongshore/claude-code-plugins-plus-skills
387
该技能提供了一个全面的模式,用于优化批量API交互。它支持同步和异步两种模式,高效处理大量操作数组。功能包括并发控制、完善的局部失败处理、后台进度跟踪和输入校验,旨在确保高吞吐量请求的可靠性。
查看详情
高吞吐量大模型服务
serving-llms-vllm
Orchestra-Research/AI-Research-SKILLs
422
使用 vLLM 的分块注意力、连续批处理、量化与张量并行能力,为 OpenAI 兼容接口提供高吞吐量的生产级大模型服务,兼顾延迟、GPU 利用和扩展性。
查看详情
TensorRT LLM 推理优化
tensorrt-llm
Orchestra-Research/AI-Research-SKILLs
334
在 NVIDIA GPU 上使用 TensorRT 优化大模型推理,支持 FP8/INT4 量化、多 GPU 扩展及高吞吐量部署,适合实时与生产环境。
查看详情
吞吐率计算助手
throughput-calculator
jeremylongshore/claude-code-plugins-plus-skills
422
在性能测试领域自动处理吞吐量计算任务,提供操作步骤、最佳实践、生产级代码和配置建议,覆盖负载、压力、基准与监控场景。
查看详情
API速率限制与重试优化
twinmind-rate-limits
jeremylongshore/claude-code-plugins-plus-skills
148
该工具包提供了一套完整的API速率限制处理方案,专为与外部AI服务(如TwinMind)稳定交互而设计。它集成了指数级退避(Exponential Backoff)机制、抖动(Jitter)算法,并实现了请求队列管理,确保API调用流程在遇到速率限制(429)时依然稳定和可靠,大大提升了系统吞吐量。
查看详情
上一页
1
2
3
4
5
6
7
8
下一页
语言
简体中文
English