登录
下载
Skill UI
浏览并发现
5115+
精选技能
全部
编程开发
人工智能
设计创意
产品商业
数据科学
市场营销
职场通用
效率工具
硬件工程
语言学习
搜索
GRPO
,共找到
8
条记录
默认排序
最新上传
最多下载
Axolotl 微调指南
axolotl
Orchestra-Research/AI-Research-SKILLs
498
引导开发者使用 Axolotl 对大型模型进行微调,包含 YAML 配置示例、LoRA/QLoRA 与 DPO/KTO/ORPO/GRPO 流程、FSDP 参数建议、压缩检查点与调试技巧,适用于多模态训练场景。
查看详情
Axolotl 微调指南
axolotl
Orchestra-Research/AI-Research-SKILLs
498
引导开发者使用 Axolotl 对大型模型进行微调,包含 YAML 配置示例、LoRA/QLoRA 与 DPO/KTO/ORPO/GRPO 流程、FSDP 参数建议、压缩检查点与调试技巧,适用于多模态训练场景。
查看详情
TRL 强化学习微调套件
fine-tuning-with-trl
Orchestra-Research/AI-Research-SKILLs
240
提供基于 TRL 的强化学习微调流程,涵盖 SFT、奖励模型、PPO、DPO 与 GRPO,帮助团队用 HuggingFace 模型对齐人类偏好,支持流水线与命令行工具。
查看详情
GRPO 强化学习训练
grpo-rl-training
Orchestra-Research/AI-Research-SKILLs
455
提供使用 TRL 实施 GRPO 的实战指南,面向结构化输出和可验证任务,通过自定义奖励函数强化模型推理能力。
查看详情
OpenRLHF高性能训练
openrlhf-training
Orchestra-Research/AI-Research-SKILLs
344
OpenRLHF 是基于 Ray 与 vLLM 的高性能 RLHF 框架,通过 ZeRO-3 与 GPU 资源共享加速 PPO、GRPO、RLOO 和 DPO 等算法的 7B-70B+ 大模型分布式训练。
查看详情
Torchforge 强化学习训练指南
torchforge-rl-training
Orchestra-Research/AI-Research-SKILLs
260
Torchforge RL Training 介绍了 Meta 的 PyTorch 原生强化学习框架 torchforge,强调算法与基础设施的隔离,便于用 GRPO/SFT 等损失做实验,并借助 Monarch、TorchTitan 和 vLLM 进行多卡大规模训练,同时提供配置与监控要点。
查看详情
verl 强化学习训练指南
verl-rl-training
Orchestra-Research/AI-Research-SKILLs
486
使用 verl 的 HybridFlow 框架,在数百亿参数模型上以 PPO、GRPO、DAPO 等算法进行 RLHF 后训练,支持多种训练后端、带工具的多轮 rollout 及评估。
查看详情
Hugging Face TRL 模型训练
hugging-face-model-trainer
sickn33/antigravity-awesome-skills
335
在 Hugging Face Jobs 上使用 TRL(SFT/DPO/GRPO/奖励建模)训练或微调语言模型,提交脚本到 hf_jobs 并通过 Trackio 实时监控,支持 GGUF 导出及云 GPU 自动管理。
查看详情
1
语言
简体中文
English