下载

Skill UI

浏览并发现 9916+ 精选技能

全部编程开发人工智能设计创意产品商业数据科学市场营销职场通用效率工具硬件工程语言学习

搜索模型并行，共找到 12 条记录

默认排序最新上传最多下载

Deepgram转录性能优化指南

deepgram-performance-tuning

jeremylongshore/claude-code-plugins-plus-skills

本指南提供了一套完整的Deepgram API性能优化流程。涵盖了使用ffmpeg进行音频预处理（降噪、重采样）、根据需求选择最佳转录模型，以及实现高效的流式和批量并行处理，旨在最大化转录吞吐量并最小化延迟。

TorchTitan 分布式预训练

distributed-llm-pretraining-torchtitan

Orchestra-Research/AI-Research-SKILLs

基于 PyTorch 的 TorchTitan 实现 4D 并行（FSDP2/TP/PP/CP），支持 8~512+ GPU、Float8、编译优化与分布式检查点，用于 Llama 3.1、DeepSeek V3 或自定义大模型的预训练。

Groq API性能优化指南

groq-performance-tuning

jeremylongshore/claude-code-plugins-plus-skills

本技能旨在提供一套完整的Groq API性能优化方案。它指导用户如何根据应用需求选择最佳模型，实现语义缓存、流式传输、精简Prompt和并行请求，从而在需要极低延迟和高吞吐量的大规模应用场景中，充分挖掘Groq算力的潜力。

Ideogram API性能调优

ideogram-performance-tuning

jeremylongshore/claude-code-plugins-plus-skills

本技能集提供了一套完整的Ideogram API性能调优方案。它指导用户根据需求选择最佳的模型和速度等级，通过实现基于提示词的缓存机制避免重复调用，并利用并发队列管理大规模图片的高效并行生成。最后，还展示了与AWS S3等CDN服务的集成，极大提升了整个工作流的效率和吞吐量。

MoE模型训练与优化

Orchestra-Research/AI-Research-SKILLs

本技能详细介绍了专家混合模型（MoE）的训练方法，涵盖Mixtral、DeepSeek-V3等前沿模型架构。它指导用户如何在计算资源有限的情况下，实现大规模模型能力的扩展和高效训练。核心内容包括Top-k路由机制、负载均衡、专家并行以及使用DeepSpeed和HuggingFace等框架进行优化，显著降低训练成本。

高吞吐量大模型服务

serving-llms-vllm

Orchestra-Research/AI-Research-SKILLs

使用 vLLM 的分块注意力、连续批处理、量化与张量并行能力，为 OpenAI 兼容接口提供高吞吐量的生产级大模型服务，兼顾延迟、GPU 利用和扩展性。

结构化冲刺工作流执行

sprint-workflow

jeremylongshore/claude-code-plugins-plus-skills

本技能模拟了一个完整的、多智能体协作的软件开发生命周期，遵循敏捷和Scrum原则。它将项目引导通过六个阶段：架构规划、并行实现、全面测试、评审和最终化。整个流程采用收敛扩散模型，通过专业智能体不断完善规范和解决冲突，直到项目趋于稳定并完成。

Megatron-Core大型语言模型训练

training-llms-megatron

Orchestra-Research/AI-Research-SKILLs

基于 Megatron-Core 提供端到端流程，可训练 2B-462B 参数的大语言模型，使用张量/流水/专家/上下文并行和 H100 上的高效资源利用。

稳定基线3：强化学习算法工具包

stable-baselines3

K-Dense-AI/claude-scientific-skills

稳定基线3是一个基于PyTorch的专业库，用于提供生产级的强化学习算法实现（如PPO、SAC、DQN等）。它支持单智能体RL模型训练，提供创建自定义环境的能力，并支持通过向量化环境进行高效的并行训练。适用于快速原型开发和严谨的强化学习实验。

系统资源检测与计算策略

get-available-resources

K-Dense-AI/scientific-agent-skills

本技能用于在进行任何计算密集型任务前，自动检测并报告系统所有的计算资源，包括CPU核心数、GPU支持（NVIDIA、AMD、Apple Silicon）、内存和磁盘空间。它不仅提供简单的资源指标，更生成包含战略性、上下文感知建议的JSON报告。这些建议能指导用户在数据分析或模型训练前，做出最佳的计算架构决策，例如是否需要采用Dask进行内存外计算，或选择最佳的并行处理参数。

Claude API性能调优指南

clade-performance-tuning

jeremylongshore/claude-code-plugins-plus-skills

本指南提供了优化Anthropic Claude API性能的进阶策略。它详细讲解了如何通过流式传输、提示词缓存、模型精选（如Haiku/Sonnet）和请求并行化等技术，解决API调用中的延迟问题，帮助开发者构建高性能、用户体验流畅的AI应用。

AssemblyAI转录性能优化指南

assemblyai-performance-tuning

jeremylongshore/claude-code-plugins-plus-skills

本指南提供了优化AssemblyAI转录性能的全面高级策略。涵盖了如何最大化处理吞吐量和最小化延迟，指导用户实现缓存机制、使用Webhook替代轮询、根据需求选择最佳模型，以及高效并行处理大规模批次任务。

1

语言