登录
下载
Skill UI
浏览并发现
9180+
精选技能
全部
编程开发
人工智能
设计创意
产品商业
数据科学
市场营销
职场通用
效率工具
硬件工程
语言学习
搜索
RLHF
,共找到
3
条记录
默认排序
最新上传
最多下载
TRL RLHF 训练管线
fine-tuning-with-trl
Orchestra-Research/AI-Research-SKILLs
393
使用 TRL 提供的 SFT、DPO、PPO/GRPO 和奖励模型训练流程,对 HuggingFace 模型进行 RLHF 调整,使其符合偏好与人类反馈。
查看详情
GRPO强化学习微调
grpo-rl-training
Orchestra-Research/AI-Research-SKILLs
374
提供基于TRL的GRPO/RLHF训练实战经验,包含数据集预处理、奖励函数设计与结构化输出指导,适合需多目标对齐且缺乏偏好对的数据场景。
查看详情
OpenRLHF训练套件
openrlhf-training
Orchestra-Research/AI-Research-SKILLs
105
一个基于Ray和vLLM的高性能RLHF训练框架,兼容PPO、GRPO、RLOO、DPO,借助ZeRO-3与分布式架构在多GPU集群上加速7B-70B+大模型的策略与奖励优化流程。
查看详情
1
语言
简体中文
English