登录
下载
Skill UI
浏览并发现
5096+
精选技能
全部
编程开发
人工智能
设计创意
产品商业
数据科学
市场营销
职场通用
效率工具
硬件工程
语言学习
搜索
SFT
,共找到
3
条记录
默认排序
最新上传
最多下载
TRL 强化学习微调套件
fine-tuning-with-trl
Orchestra-Research/AI-Research-SKILLs
240
提供基于 TRL 的强化学习微调流程,涵盖 SFT、奖励模型、PPO、DPO 与 GRPO,帮助团队用 HuggingFace 模型对齐人类偏好,支持流水线与命令行工具。
查看详情
Torchforge 强化学习训练指南
torchforge-rl-training
Orchestra-Research/AI-Research-SKILLs
260
Torchforge RL Training 介绍了 Meta 的 PyTorch 原生强化学习框架 torchforge,强调算法与基础设施的隔离,便于用 GRPO/SFT 等损失做实验,并借助 Monarch、TorchTitan 和 vLLM 进行多卡大规模训练,同时提供配置与监控要点。
查看详情
Hugging Face TRL 模型训练
hugging-face-model-trainer
sickn33/antigravity-awesome-skills
335
在 Hugging Face Jobs 上使用 TRL(SFT/DPO/GRPO/奖励建模)训练或微调语言模型,提交脚本到 hf_jobs 并通过 Trackio 实时监控,支持 GGUF 导出及云 GPU 自动管理。
查看详情
1
语言
简体中文
English