下载

Skill UI

浏览并发现 6044+ 精选技能

全部编程开发人工智能设计创意产品商业数据科学市场营销职场通用效率工具硬件工程语言学习

搜索强化，共找到 11 条记录

默认排序最新上传最多下载

宪法式人工智能安全

constitutional-ai

Orchestra-Research/AI-Research-SKILLs

介绍如何通过自我批判的监督训练和 RLAIF 强化训练，构建无需人工标签也能减轻有害输出的宪法式 AI 安全体系，适用于 Claude 等助手的安全对齐。

GRPO 强化学习训练

grpo-rl-training

Orchestra-Research/AI-Research-SKILLs

提供使用 TRL 实施 GRPO 的实战指南，面向结构化输出和可验证任务，通过自定义奖励函数强化模型推理能力。

企业级 Miles 强化学习

miles-rl-training

Orchestra-Research/AI-Research-SKILLs

提供 miles 框架下大规模 MoE 模型的强化学习训练指导，涵盖 FP8/INT4 低精度训练、训练推理对齐、推测式 RL 提速策略以及面向企业级部署的稳定性实践。

Slime 强化学习训练框架

slime-rl-training

Orchestra-Research/AI-Research-SKILLs

使用 Slime（Megatron+SGLang）框架提供 LLM 强化学习后训练指引，涵盖 GLM、Qwen、Llama 等模型的数据缓冲、Rollout 管理与 Megatron-LM 集成，便于扩展式策略优化。

Torchforge 强化学习训练指南

torchforge-rl-training

Orchestra-Research/AI-Research-SKILLs

Torchforge RL Training 介绍了 Meta 的 PyTorch 原生强化学习框架 torchforge，强调算法与基础设施的隔离，便于用 GRPO/SFT 等损失做实验，并借助 Monarch、TorchTitan 和 vLLM 进行多卡大规模训练，同时提供配置与监控要点。

verl 强化学习训练指南

verl-rl-training

Orchestra-Research/AI-Research-SKILLs

使用 verl 的 HybridFlow 框架，在数百亿参数模型上以 PPO、GRPO、DAPO 等算法进行 RLHF 后训练，支持多种训练后端、带工具的多轮 rollout 及评估。

PufferLib 高性能强化学习

K-Dense-AI/claude-scientific-skills

PufferLib 是一个高性能强化学习框架，适合需要并行模拟、向量化环境和多智能体训练的场景，可实现百万步/秒级 PPO 训练，并与 Gymnasium、Atari、Procgen 等环境无缝集成。

稳健基线3强化学习指南

stable-baselines3

K-Dense-AI/claude-scientific-skills

Stable Baselines3 提供基于 PyTorch 的强化学习算法、统一 API、训练流程、环境模板、向量化执行与回调机制，适合 Gymnasium 单智能体实验与快速原型开发。

语境工程诊断顾问

context-engineering-advisor

deanpeters/Product-Manager-Skills

帮助产品经理判断 AI 流程是堆填式上下文还是结构化语境工程，并指导界定边界、强化检索与结构化流程，减少噪声、稳定多步智能体的输出。

Hugging Face 数据集管理助手

hugging-face-datasets

sickn33/antigravity-awesome-skills

通过 DuckDB 驱动的脚本创建、配置并流式更新 Hugging Face Hub 数据集，支持 SQL 查询、抽样、聚合与子集推送，提供 JSON 校验与批处理，强化数据集全生命周期管理。

AI.MD结构化指令转换

sickn33/antigravity-awesome-skills

将 CLAUDE.md 等自然语言指令转为 AI.MD 的结构化标签格式，减少 token、提高模型执行率，适合在不同 LLM 工具间迁移规则并强化合规性。

1

语言