登录
下载
Skill UI
浏览并发现
5019+
精选技能
全部
编程开发
人工智能
设计创意
产品商业
数据科学
市场营销
职场通用
效率工具
硬件工程
语言学习
搜索
RLHF
,共找到
3
条记录
默认排序
最新上传
最多下载
TRL 强化学习微调套件
fine-tuning-with-trl
Orchestra-Research/AI-Research-SKILLs
240
提供基于 TRL 的强化学习微调流程,涵盖 SFT、奖励模型、PPO、DPO 与 GRPO,帮助团队用 HuggingFace 模型对齐人类偏好,支持流水线与命令行工具。
查看详情
OpenRLHF高性能训练
openrlhf-training
Orchestra-Research/AI-Research-SKILLs
344
OpenRLHF 是基于 Ray 与 vLLM 的高性能 RLHF 框架,通过 ZeRO-3 与 GPU 资源共享加速 PPO、GRPO、RLOO 和 DPO 等算法的 7B-70B+ 大模型分布式训练。
查看详情
verl 强化学习训练指南
verl-rl-training
Orchestra-Research/AI-Research-SKILLs
486
使用 verl 的 HybridFlow 框架,在数百亿参数模型上以 PPO、GRPO、DAPO 等算法进行 RLHF 后训练,支持多种训练后端、带工具的多轮 rollout 及评估。
查看详情
1
语言
简体中文
English