登录
下载
Skill UI
浏览并发现
5998+
精选技能
全部
编程开发
人工智能
设计创意
产品商业
数据科学
市场营销
职场通用
效率工具
硬件工程
语言学习
搜索
GRPO
,共找到
2
条记录
默认排序
最新上传
最多下载
TRL 强化学习微调套件
fine-tuning-with-trl
Orchestra-Research/AI-Research-SKILLs
240
提供基于 TRL 的强化学习微调流程,涵盖 SFT、奖励模型、PPO、DPO 与 GRPO,帮助团队用 HuggingFace 模型对齐人类偏好,支持流水线与命令行工具。
查看详情
Hugging Face TRL 训练
hugging-face-model-trainer
sickn33/antigravity-awesome-skills
75
在 Hugging Face Jobs 上通过 TRL(SFT、DPO、GRPO、Reward Modeling)在云端 GPU 上完成语言模型训练,并借助 Trackio 实时监控、自动推送到 Hugging Face Hub,免除本地设备依赖。
查看详情
1
语言
简体中文
English