登录
下载
Skill UI
浏览并发现
9180+
精选技能
全部
编程开发
人工智能
设计创意
产品商业
数据科学
市场营销
职场通用
效率工具
硬件工程
语言学习
搜索
强化学习
,共找到
11
条记录
默认排序
最新上传
最多下载
GRPO强化学习微调
grpo-rl-training
Orchestra-Research/AI-Research-SKILLs
374
提供基于TRL的GRPO/RLHF训练实战经验,包含数据集预处理、奖励函数设计与结构化输出指导,适合需多目标对齐且缺乏偏好对的数据场景。
查看详情
企业级大模型强化学习训练
miles-rl-training
Orchestra-Research/AI-Research-SKILLs
145
为企业级 MoE 大模型提供 miles 强化学习训练指导,覆盖 FP8/INT4 低精度、训练推理对齐与投机式推理流程,保障稳定性与最大吞吐量。
查看详情
SLIME 强化训练框架
slime-rl-training
Orchestra-Research/AI-Research-SKILLs
451
为 GLM 系列大模型提供基于 Megatron-LM 与 SGLang 的后训练强化学习指导,包含 GRPO rollout、灵活数据缓冲与异步/多轮训练流程,适用于研究及产研部署。
查看详情
PyTorch原生智能体RL训练框架
torchforge-rl-training
Orchestra-Research/AI-Research-SKILLs
317
torchforge是Meta推出的用于智能体强化学习(RL)的PyTorch原生框架。它将核心的RL算法与复杂的分布式基础设施进行了彻底分离。用户可以专注于算法的快速实验和开发,无需担心底层分布式训练、权重同步等复杂问题,支持从单卡到大规模集群的扩展训练。
查看详情
火山引擎LLM强化训练
verl-rl-training
Orchestra-Research/AI-Research-SKILLs
189
使用火山引擎 verl 训练 LLM 的强化学习指南,涵盖 GRPO、PPO、价值网络、分布式 rollout、数据配置与生产部署等流程。
查看详情
高性能强化学习框架
pufferlib
K-Dense-AI/claude-scientific-skills
205
PufferLib是一个高性能的强化学习框架,专为大规模、高速的RL训练和仿真而设计。它通过优化的向量化和原生多智能体支持,实现了每秒数百万步的训练速度,极大地提升了RL研究和应用效率,适用于单智能体和多智能体环境的构建与训练。
查看详情
稳定基线3:强化学习算法工具包
stable-baselines3
K-Dense-AI/claude-scientific-skills
383
稳定基线3是一个基于PyTorch的专业库,用于提供生产级的强化学习算法实现(如PPO、SAC、DQN等)。它支持单智能体RL模型训练,提供创建自定义环境的能力,并支持通过向量化环境进行高效的并行训练。适用于快速原型开发和严谨的强化学习实验。
查看详情
首百客户销售策略
first-customers
slavingia/skills
216
以《极简创业者》哲学为框架,指导创始人围绕“卖给第一百名客户”制定行动:亲友到社区再到冷启动,定价与指标迭代,先卖后发,强化学习反馈。
查看详情
持续学习模式总结
continuous-learning
rohitg00/awesome-claude-code-toolkit
433
通过记录每次编码会话中的修正、成功实践和反模式,并配置信心评分,帮助团队整理、复用和强化技术经验。
查看详情
高性能强化学习框架
pufferlib
K-Dense-AI/scientific-agent-skills
191
PufferLib是一个高性能的强化学习框架,专为大规模、高速的RL训练和仿真而设计。它通过优化的向量化和原生多智能体支持,实现了每秒数百万步的训练速度,极大地提升了RL研究和应用效率,适用于单智能体和多智能体环境的构建与训练。
查看详情
稳定基线3:强化学习算法工具包
stable-baselines3
K-Dense-AI/scientific-agent-skills
478
稳定基线3是一个基于PyTorch的专业库,用于提供生产级的强化学习算法实现(如PPO、SAC、DQN等)。它支持单智能体RL模型训练,提供创建自定义环境的能力,并支持通过向量化环境进行高效的并行训练。适用于快速原型开发和严谨的强化学习实验。
查看详情
1
语言
简体中文
English