下载

Skill UI

浏览并发现 9180+ 精选技能

全部编程开发人工智能设计创意产品商业数据科学市场营销职场通用效率工具硬件工程语言学习

搜索强化学习，共找到 11 条记录

默认排序最新上传最多下载

GRPO强化学习微调

grpo-rl-training

Orchestra-Research/AI-Research-SKILLs

提供基于TRL的GRPO/RLHF训练实战经验，包含数据集预处理、奖励函数设计与结构化输出指导，适合需多目标对齐且缺乏偏好对的数据场景。

企业级大模型强化学习训练

miles-rl-training

Orchestra-Research/AI-Research-SKILLs

为企业级 MoE 大模型提供 miles 强化学习训练指导，覆盖 FP8/INT4 低精度、训练推理对齐与投机式推理流程，保障稳定性与最大吞吐量。

SLIME 强化训练框架

slime-rl-training

Orchestra-Research/AI-Research-SKILLs

为 GLM 系列大模型提供基于 Megatron-LM 与 SGLang 的后训练强化学习指导，包含 GRPO rollout、灵活数据缓冲与异步/多轮训练流程，适用于研究及产研部署。

PyTorch原生智能体RL训练框架

torchforge-rl-training

Orchestra-Research/AI-Research-SKILLs

torchforge是Meta推出的用于智能体强化学习（RL）的PyTorch原生框架。它将核心的RL算法与复杂的分布式基础设施进行了彻底分离。用户可以专注于算法的快速实验和开发，无需担心底层分布式训练、权重同步等复杂问题，支持从单卡到大规模集群的扩展训练。

火山引擎LLM强化训练

verl-rl-training

Orchestra-Research/AI-Research-SKILLs

使用火山引擎 verl 训练 LLM 的强化学习指南，涵盖 GRPO、PPO、价值网络、分布式 rollout、数据配置与生产部署等流程。

高性能强化学习框架

K-Dense-AI/claude-scientific-skills

PufferLib是一个高性能的强化学习框架，专为大规模、高速的RL训练和仿真而设计。它通过优化的向量化和原生多智能体支持，实现了每秒数百万步的训练速度，极大地提升了RL研究和应用效率，适用于单智能体和多智能体环境的构建与训练。

稳定基线3：强化学习算法工具包

stable-baselines3

K-Dense-AI/claude-scientific-skills

稳定基线3是一个基于PyTorch的专业库，用于提供生产级的强化学习算法实现（如PPO、SAC、DQN等）。它支持单智能体RL模型训练，提供创建自定义环境的能力，并支持通过向量化环境进行高效的并行训练。适用于快速原型开发和严谨的强化学习实验。

首百客户销售策略

first-customers

slavingia/skills

以《极简创业者》哲学为框架，指导创始人围绕“卖给第一百名客户”制定行动：亲友到社区再到冷启动，定价与指标迭代，先卖后发，强化学习反馈。

持续学习模式总结

continuous-learning

rohitg00/awesome-claude-code-toolkit

通过记录每次编码会话中的修正、成功实践和反模式，并配置信心评分，帮助团队整理、复用和强化技术经验。

高性能强化学习框架

K-Dense-AI/scientific-agent-skills

PufferLib是一个高性能的强化学习框架，专为大规模、高速的RL训练和仿真而设计。它通过优化的向量化和原生多智能体支持，实现了每秒数百万步的训练速度，极大地提升了RL研究和应用效率，适用于单智能体和多智能体环境的构建与训练。

稳定基线3：强化学习算法工具包

stable-baselines3

K-Dense-AI/scientific-agent-skills

稳定基线3是一个基于PyTorch的专业库，用于提供生产级的强化学习算法实现（如PPO、SAC、DQN等）。它支持单智能体RL模型训练，提供创建自定义环境的能力，并支持通过向量化环境进行高效的并行训练。适用于快速原型开发和严谨的强化学习实验。

1

语言