下载

Skill UI

浏览并发现 10393+ 精选技能

全部编程开发人工智能设计创意产品商业数据科学市场营销职场通用效率工具硬件工程语言学习

搜索 GRPO ，共找到 7 条记录

默认排序最新上传最多下载

TRL RLHF 训练管线

fine-tuning-with-trl

Orchestra-Research/AI-Research-SKILLs

使用 TRL 提供的 SFT、DPO、PPO/GRPO 和奖励模型训练流程，对 HuggingFace 模型进行 RLHF 调整，使其符合偏好与人类反馈。

GRPO强化学习微调

grpo-rl-training

Orchestra-Research/AI-Research-SKILLs

提供基于TRL的GRPO/RLHF训练实战经验，包含数据集预处理、奖励函数设计与结构化输出指导，适合需多目标对齐且缺乏偏好对的数据场景。

OpenRLHF训练套件

openrlhf-training

Orchestra-Research/AI-Research-SKILLs

一个基于Ray和vLLM的高性能RLHF训练框架，兼容PPO、GRPO、RLOO、DPO，借助ZeRO-3与分布式架构在多GPU集群上加速7B-70B+大模型的策略与奖励优化流程。

SLIME 强化训练框架

slime-rl-training

Orchestra-Research/AI-Research-SKILLs

为 GLM 系列大模型提供基于 Megatron-LM 与 SGLang 的后训练强化学习指导，包含 GRPO rollout、灵活数据缓冲与异步/多轮训练流程，适用于研究及产研部署。

PyTorch原生智能体RL训练框架

torchforge-rl-training

Orchestra-Research/AI-Research-SKILLs

torchforge是Meta推出的用于智能体强化学习（RL）的PyTorch原生框架。它将核心的RL算法与复杂的分布式基础设施进行了彻底分离。用户可以专注于算法的快速实验和开发，无需担心底层分布式训练、权重同步等复杂问题，支持从单卡到大规模集群的扩展训练。

火山引擎LLM强化训练

verl-rl-training

Orchestra-Research/AI-Research-SKILLs

使用火山引擎 verl 训练 LLM 的强化学习指南，涵盖 GRPO、PPO、价值网络、分布式 rollout、数据配置与生产部署等流程。

Hugging Face TRL 训练

hugging-face-model-trainer

sickn33/antigravity-awesome-skills

通过 Hugging Face Jobs 在云 GPU 上执行 TRL（SFT/DPO/GRPO）训练，自动存储至 Hub，并支持 GGUF 导出，无需本地环境部署。

1

语言