登录
下载
Skill UI
浏览并发现
6044+
精选技能
全部
编程开发
人工智能
设计创意
产品商业
数据科学
市场营销
职场通用
效率工具
硬件工程
语言学习
搜索
强化
,共找到
11
条记录
默认排序
最新上传
最多下载
宪法式人工智能安全
constitutional-ai
Orchestra-Research/AI-Research-SKILLs
358
介绍如何通过自我批判的监督训练和 RLAIF 强化训练,构建无需人工标签也能减轻有害输出的宪法式 AI 安全体系,适用于 Claude 等助手的安全对齐。
查看详情
GRPO 强化学习训练
grpo-rl-training
Orchestra-Research/AI-Research-SKILLs
455
提供使用 TRL 实施 GRPO 的实战指南,面向结构化输出和可验证任务,通过自定义奖励函数强化模型推理能力。
查看详情
企业级 Miles 强化学习
miles-rl-training
Orchestra-Research/AI-Research-SKILLs
258
提供 miles 框架下大规模 MoE 模型的强化学习训练指导,涵盖 FP8/INT4 低精度训练、训练推理对齐、推测式 RL 提速策略以及面向企业级部署的稳定性实践。
查看详情
Slime 强化学习训练框架
slime-rl-training
Orchestra-Research/AI-Research-SKILLs
214
使用 Slime(Megatron+SGLang)框架提供 LLM 强化学习后训练指引,涵盖 GLM、Qwen、Llama 等模型的数据缓冲、Rollout 管理与 Megatron-LM 集成,便于扩展式策略优化。
查看详情
Torchforge 强化学习训练指南
torchforge-rl-training
Orchestra-Research/AI-Research-SKILLs
260
Torchforge RL Training 介绍了 Meta 的 PyTorch 原生强化学习框架 torchforge,强调算法与基础设施的隔离,便于用 GRPO/SFT 等损失做实验,并借助 Monarch、TorchTitan 和 vLLM 进行多卡大规模训练,同时提供配置与监控要点。
查看详情
verl 强化学习训练指南
verl-rl-training
Orchestra-Research/AI-Research-SKILLs
486
使用 verl 的 HybridFlow 框架,在数百亿参数模型上以 PPO、GRPO、DAPO 等算法进行 RLHF 后训练,支持多种训练后端、带工具的多轮 rollout 及评估。
查看详情
PufferLib 高性能强化学习
pufferlib
K-Dense-AI/claude-scientific-skills
172
PufferLib 是一个高性能强化学习框架,适合需要并行模拟、向量化环境和多智能体训练的场景,可实现百万步/秒级 PPO 训练,并与 Gymnasium、Atari、Procgen 等环境无缝集成。
查看详情
稳健基线3强化学习指南
stable-baselines3
K-Dense-AI/claude-scientific-skills
500
Stable Baselines3 提供基于 PyTorch 的强化学习算法、统一 API、训练流程、环境模板、向量化执行与回调机制,适合 Gymnasium 单智能体实验与快速原型开发。
查看详情
语境工程诊断顾问
context-engineering-advisor
deanpeters/Product-Manager-Skills
387
帮助产品经理判断 AI 流程是堆填式上下文还是结构化语境工程,并指导界定边界、强化检索与结构化流程,减少噪声、稳定多步智能体的输出。
查看详情
Hugging Face 数据集管理助手
hugging-face-datasets
sickn33/antigravity-awesome-skills
164
通过 DuckDB 驱动的脚本创建、配置并流式更新 Hugging Face Hub 数据集,支持 SQL 查询、抽样、聚合与子集推送,提供 JSON 校验与批处理,强化数据集全生命周期管理。
查看详情
AI.MD结构化指令转换
ai-md
sickn33/antigravity-awesome-skills
383
将 CLAUDE.md 等自然语言指令转为 AI.MD 的结构化标签格式,减少 token、提高模型执行率,适合在不同 LLM 工具间迁移规则并强化合规性。
查看详情
1
语言
简体中文
English