登录
下载
Skill UI
浏览并发现
9916+
精选技能
全部
编程开发
人工智能
设计创意
产品商业
数据科学
市场营销
职场通用
效率工具
硬件工程
语言学习
搜索
模型并行
,共找到
12
条记录
默认排序
最新上传
最多下载
Deepgram转录性能优化指南
deepgram-performance-tuning
jeremylongshore/claude-code-plugins-plus-skills
160
本指南提供了一套完整的Deepgram API性能优化流程。涵盖了使用ffmpeg进行音频预处理(降噪、重采样)、根据需求选择最佳转录模型,以及实现高效的流式和批量并行处理,旨在最大化转录吞吐量并最小化延迟。
查看详情
TorchTitan 分布式预训练
distributed-llm-pretraining-torchtitan
Orchestra-Research/AI-Research-SKILLs
65
基于 PyTorch 的 TorchTitan 实现 4D 并行(FSDP2/TP/PP/CP),支持 8~512+ GPU、Float8、编译优化与分布式检查点,用于 Llama 3.1、DeepSeek V3 或自定义大模型的预训练。
查看详情
Groq API性能优化指南
groq-performance-tuning
jeremylongshore/claude-code-plugins-plus-skills
172
本技能旨在提供一套完整的Groq API性能优化方案。它指导用户如何根据应用需求选择最佳模型,实现语义缓存、流式传输、精简Prompt和并行请求,从而在需要极低延迟和高吞吐量的大规模应用场景中,充分挖掘Groq算力的潜力。
查看详情
Ideogram API性能调优
ideogram-performance-tuning
jeremylongshore/claude-code-plugins-plus-skills
364
本技能集提供了一套完整的Ideogram API性能调优方案。它指导用户根据需求选择最佳的模型和速度等级,通过实现基于提示词的缓存机制避免重复调用,并利用并发队列管理大规模图片的高效并行生成。最后,还展示了与AWS S3等CDN服务的集成,极大提升了整个工作流的效率和吞吐量。
查看详情
MoE模型训练与优化
moe-training
Orchestra-Research/AI-Research-SKILLs
199
本技能详细介绍了专家混合模型(MoE)的训练方法,涵盖Mixtral、DeepSeek-V3等前沿模型架构。它指导用户如何在计算资源有限的情况下,实现大规模模型能力的扩展和高效训练。核心内容包括Top-k路由机制、负载均衡、专家并行以及使用DeepSpeed和HuggingFace等框架进行优化,显著降低训练成本。
查看详情
高吞吐量大模型服务
serving-llms-vllm
Orchestra-Research/AI-Research-SKILLs
422
使用 vLLM 的分块注意力、连续批处理、量化与张量并行能力,为 OpenAI 兼容接口提供高吞吐量的生产级大模型服务,兼顾延迟、GPU 利用和扩展性。
查看详情
结构化冲刺工作流执行
sprint-workflow
jeremylongshore/claude-code-plugins-plus-skills
456
本技能模拟了一个完整的、多智能体协作的软件开发生命周期,遵循敏捷和Scrum原则。它将项目引导通过六个阶段:架构规划、并行实现、全面测试、评审和最终化。整个流程采用收敛扩散模型,通过专业智能体不断完善规范和解决冲突,直到项目趋于稳定并完成。
查看详情
Megatron-Core大型语言模型训练
training-llms-megatron
Orchestra-Research/AI-Research-SKILLs
135
基于 Megatron-Core 提供端到端流程,可训练 2B-462B 参数的大语言模型,使用张量/流水/专家/上下文并行和 H100 上的高效资源利用。
查看详情
稳定基线3:强化学习算法工具包
stable-baselines3
K-Dense-AI/claude-scientific-skills
383
稳定基线3是一个基于PyTorch的专业库,用于提供生产级的强化学习算法实现(如PPO、SAC、DQN等)。它支持单智能体RL模型训练,提供创建自定义环境的能力,并支持通过向量化环境进行高效的并行训练。适用于快速原型开发和严谨的强化学习实验。
查看详情
系统资源检测与计算策略
get-available-resources
K-Dense-AI/scientific-agent-skills
364
本技能用于在进行任何计算密集型任务前,自动检测并报告系统所有的计算资源,包括CPU核心数、GPU支持(NVIDIA、AMD、Apple Silicon)、内存和磁盘空间。它不仅提供简单的资源指标,更生成包含战略性、上下文感知建议的JSON报告。这些建议能指导用户在数据分析或模型训练前,做出最佳的计算架构决策,例如是否需要采用Dask进行内存外计算,或选择最佳的并行处理参数。
查看详情
Claude API性能调优指南
clade-performance-tuning
jeremylongshore/claude-code-plugins-plus-skills
479
本指南提供了优化Anthropic Claude API性能的进阶策略。它详细讲解了如何通过流式传输、提示词缓存、模型精选(如Haiku/Sonnet)和请求并行化等技术,解决API调用中的延迟问题,帮助开发者构建高性能、用户体验流畅的AI应用。
查看详情
AssemblyAI转录性能优化指南
assemblyai-performance-tuning
jeremylongshore/claude-code-plugins-plus-skills
62
本指南提供了优化AssemblyAI转录性能的全面高级策略。涵盖了如何最大化处理吞吐量和最小化延迟,指导用户实现缓存机制、使用Webhook替代轮询、根据需求选择最佳模型,以及高效并行处理大规模批次任务。
查看详情
1
语言
简体中文
English