登录
下载
Skill UI
浏览并发现
5066+
精选技能
全部
编程开发
人工智能
设计创意
产品商业
数据科学
市场营销
职场通用
效率工具
硬件工程
语言学习
搜索
强化学习
,共找到
7
条记录
默认排序
最新上传
最多下载
GRPO 强化学习训练
grpo-rl-training
Orchestra-Research/AI-Research-SKILLs
455
提供使用 TRL 实施 GRPO 的实战指南,面向结构化输出和可验证任务,通过自定义奖励函数强化模型推理能力。
查看详情
企业级 Miles 强化学习
miles-rl-training
Orchestra-Research/AI-Research-SKILLs
258
提供 miles 框架下大规模 MoE 模型的强化学习训练指导,涵盖 FP8/INT4 低精度训练、训练推理对齐、推测式 RL 提速策略以及面向企业级部署的稳定性实践。
查看详情
Slime 强化学习训练框架
slime-rl-training
Orchestra-Research/AI-Research-SKILLs
214
使用 Slime(Megatron+SGLang)框架提供 LLM 强化学习后训练指引,涵盖 GLM、Qwen、Llama 等模型的数据缓冲、Rollout 管理与 Megatron-LM 集成,便于扩展式策略优化。
查看详情
Torchforge 强化学习训练指南
torchforge-rl-training
Orchestra-Research/AI-Research-SKILLs
260
Torchforge RL Training 介绍了 Meta 的 PyTorch 原生强化学习框架 torchforge,强调算法与基础设施的隔离,便于用 GRPO/SFT 等损失做实验,并借助 Monarch、TorchTitan 和 vLLM 进行多卡大规模训练,同时提供配置与监控要点。
查看详情
verl 强化学习训练指南
verl-rl-training
Orchestra-Research/AI-Research-SKILLs
486
使用 verl 的 HybridFlow 框架,在数百亿参数模型上以 PPO、GRPO、DAPO 等算法进行 RLHF 后训练,支持多种训练后端、带工具的多轮 rollout 及评估。
查看详情
PufferLib 高性能强化学习
pufferlib
K-Dense-AI/claude-scientific-skills
172
PufferLib 是一个高性能强化学习框架,适合需要并行模拟、向量化环境和多智能体训练的场景,可实现百万步/秒级 PPO 训练,并与 Gymnasium、Atari、Procgen 等环境无缝集成。
查看详情
稳健基线3强化学习指南
stable-baselines3
K-Dense-AI/claude-scientific-skills
500
Stable Baselines3 提供基于 PyTorch 的强化学习算法、统一 API、训练流程、环境模板、向量化执行与回调机制,适合 Gymnasium 单智能体实验与快速原型开发。
查看详情
1
语言
简体中文
English