下载

Skill UI

浏览并发现 5066+ 精选技能

全部编程开发人工智能设计创意产品商业数据科学市场营销职场通用效率工具硬件工程语言学习

搜索强化学习，共找到 7 条记录

默认排序最新上传最多下载

GRPO 强化学习训练

grpo-rl-training

Orchestra-Research/AI-Research-SKILLs

提供使用 TRL 实施 GRPO 的实战指南，面向结构化输出和可验证任务，通过自定义奖励函数强化模型推理能力。

企业级 Miles 强化学习

miles-rl-training

Orchestra-Research/AI-Research-SKILLs

提供 miles 框架下大规模 MoE 模型的强化学习训练指导，涵盖 FP8/INT4 低精度训练、训练推理对齐、推测式 RL 提速策略以及面向企业级部署的稳定性实践。

Slime 强化学习训练框架

slime-rl-training

Orchestra-Research/AI-Research-SKILLs

使用 Slime（Megatron+SGLang）框架提供 LLM 强化学习后训练指引，涵盖 GLM、Qwen、Llama 等模型的数据缓冲、Rollout 管理与 Megatron-LM 集成，便于扩展式策略优化。

Torchforge 强化学习训练指南

torchforge-rl-training

Orchestra-Research/AI-Research-SKILLs

Torchforge RL Training 介绍了 Meta 的 PyTorch 原生强化学习框架 torchforge，强调算法与基础设施的隔离，便于用 GRPO/SFT 等损失做实验，并借助 Monarch、TorchTitan 和 vLLM 进行多卡大规模训练，同时提供配置与监控要点。

verl 强化学习训练指南

verl-rl-training

Orchestra-Research/AI-Research-SKILLs

使用 verl 的 HybridFlow 框架，在数百亿参数模型上以 PPO、GRPO、DAPO 等算法进行 RLHF 后训练，支持多种训练后端、带工具的多轮 rollout 及评估。

PufferLib 高性能强化学习

K-Dense-AI/claude-scientific-skills

PufferLib 是一个高性能强化学习框架，适合需要并行模拟、向量化环境和多智能体训练的场景，可实现百万步/秒级 PPO 训练，并与 Gymnasium、Atari、Procgen 等环境无缝集成。

稳健基线3强化学习指南

stable-baselines3

K-Dense-AI/claude-scientific-skills

Stable Baselines3 提供基于 PyTorch 的强化学习算法、统一 API、训练流程、环境模板、向量化执行与回调机制，适合 Gymnasium 单智能体实验与快速原型开发。

1

语言