登录
下载
Skill UI
浏览并发现
6006+
精选技能
全部
编程开发
人工智能
设计创意
产品商业
数据科学
市场营销
职场通用
效率工具
硬件工程
语言学习
搜索
训练框架
,共找到
13
条记录
默认排序
最新上传
最多下载
BLIP-2 视觉语言预训练
blip-2-vision-language
Orchestra-Research/AI-Research-SKILLs
375
BLIP-2 将冻结图像编码器与大语言模型连接为视觉语言预训练框架,可用于高质量图像描述、视觉问答、图文检索或零样本多模态对话。
查看详情
梯度裁剪助手
gradient-clipping-helper
jeremylongshore/claude-code-plugins-plus-skills
417
梯度裁剪助手针对机器学习训练流程提供自动化支持,指导梯度裁剪模式、生成可部署代码与配置,并校验 PyTorch、TensorFlow 等框架下的结果。
查看详情
企业级 Miles 强化学习
miles-rl-training
Orchestra-Research/AI-Research-SKILLs
258
提供 miles 框架下大规模 MoE 模型的强化学习训练指导,涵盖 FP8/INT4 低精度训练、训练推理对齐、推测式 RL 提速策略以及面向企业级部署的稳定性实践。
查看详情
OpenRLHF高性能训练
openrlhf-training
Orchestra-Research/AI-Research-SKILLs
344
OpenRLHF 是基于 Ray 与 vLLM 的高性能 RLHF 框架,通过 ZeRO-3 与 GPU 资源共享加速 PPO、GRPO、RLOO 和 DPO 等算法的 7B-70B+ 大模型分布式训练。
查看详情
PyTorch Lightning 训练框架
pytorch-lightning
Orchestra-Research/AI-Research-SKILLs
235
PyTorch Lightning 提供高层训练框架,内置分布式训练(DDP/FSDP/DeepSpeed)、回调、检查点、日志与设备管理,帮助你从笔记本到多节点集群轻松运行高质量模型训练。
查看详情
Pyvene 因果干预框架
pyvene-interventions
Orchestra-Research/AI-Research-SKILLs
109
面向 PyTorch 模型的声明式因果干预工具,包含激活修补、因果追踪与互换干预训练,便于研究者验证模型组件的因果作用并共享实验。
查看详情
句子变换器嵌入框架
sentence-transformers
Orchestra-Research/AI-Research-SKILLs
342
Sentence Transformers 提供 5000+ 预训练模型,支持多语言、多模态与领域定制嵌入,方便在 RAG、语义搜索、聚类和生产环境中本地生成高质量向量,无需调用外部 API。
查看详情
Slime 强化学习训练框架
slime-rl-training
Orchestra-Research/AI-Research-SKILLs
214
使用 Slime(Megatron+SGLang)框架提供 LLM 强化学习后训练指引,涵盖 GLM、Qwen、Llama 等模型的数据缓冲、Rollout 管理与 Megatron-LM 集成,便于扩展式策略优化。
查看详情
Torchforge 强化学习训练指南
torchforge-rl-training
Orchestra-Research/AI-Research-SKILLs
260
Torchforge RL Training 介绍了 Meta 的 PyTorch 原生强化学习框架 torchforge,强调算法与基础设施的隔离,便于用 GRPO/SFT 等损失做实验,并借助 Monarch、TorchTitan 和 vLLM 进行多卡大规模训练,同时提供配置与监控要点。
查看详情
Megatron 大型模型训练
training-llms-megatron
Orchestra-Research/AI-Research-SKILLs
199
Megatron-Core 通过张量、流水线、上下文和专家并行策略,在 H100 集群上高效训练 2B~462B 参数的 LLM,是 Nemotron、LLaMA、DeepSeek 等项目的生产就绪框架。
查看详情
verl 强化学习训练指南
verl-rl-training
Orchestra-Research/AI-Research-SKILLs
486
使用 verl 的 HybridFlow 框架,在数百亿参数模型上以 PPO、GRPO、DAPO 等算法进行 RLHF 后训练,支持多种训练后端、带工具的多轮 rollout 及评估。
查看详情
PufferLib 高性能强化学习
pufferlib
K-Dense-AI/claude-scientific-skills
172
PufferLib 是一个高性能强化学习框架,适合需要并行模拟、向量化环境和多智能体训练的场景,可实现百万步/秒级 PPO 训练,并与 Gymnasium、Atari、Procgen 等环境无缝集成。
查看详情
1
2
下一页
语言
简体中文
English