登录
下载
Skill UI
浏览并发现
7115+
精选技能
全部
编程开发
人工智能
设计创意
产品商业
数据科学
市场营销
职场通用
效率工具
硬件工程
语言学习
搜索
RPO
,共找到
18
条记录
默认排序
最新上传
最多下载
CLIP 视觉语言工具
clip
Orchestra-Research/AI-Research-SKILLs
480
CLIP 借助预训练对比模型,在零样本图像分类、语义匹配、图像搜索和内容审核等视觉语言场景中无需微调即可部署。
查看详情
TRL RLHF 训练管线
fine-tuning-with-trl
Orchestra-Research/AI-Research-SKILLs
415
使用 TRL 提供的 SFT、DPO、PPO/GRPO 和奖励模型训练流程,对 HuggingFace 模型进行 RLHF 调整,使其符合偏好与人类反馈。
查看详情
GRPO强化学习微调
grpo-rl-training
Orchestra-Research/AI-Research-SKILLs
439
提供基于TRL的GRPO/RLHF训练实战经验,包含数据集预处理、奖励函数设计与结构化输出指导,适合需多目标对齐且缺乏偏好对的数据场景。
查看详情
长上下文扩展技术
long-context
Orchestra-Research/AI-Research-SKILLs
174
通过 RoPE、YaRN、ALiBi 和位置插值等技术扩展 transformer 的上下文窗口,便于处理 32k-128k+ 令牌长文档、延长预训练模型的上下文能力,并实现更高效的位置编码与外推策略。
查看详情
极简GPT模型训练与学习系统
nanogpt
Orchestra-Research/AI-Research-SKILLs
251
nanoGPT是一个极简主义的GPT模型实现,专为教育和学习设计。它以简洁、可修改的代码复刻了GPT-2的核心架构,使用户能够从零开始理解整个Transformer流程。该框架支持完整的工作流,包括数据准备、模型训练和文本生成,非常适合学习NLP和深度学习原理的学生和研究人员。
查看详情
OpenRLHF训练套件
openrlhf-training
Orchestra-Research/AI-Research-SKILLs
150
一个基于Ray和vLLM的高性能RLHF训练框架,兼容PPO、GRPO、RLOO、DPO,借助ZeRO-3与分布式架构在多GPU集群上加速7B-70B+大模型的策略与奖励优化流程。
查看详情
SLIME 强化训练框架
slime-rl-training
Orchestra-Research/AI-Research-SKILLs
356
为 GLM 系列大模型提供基于 Megatron-LM 与 SGLang 的后训练强化学习指导,包含 GRPO rollout、灵活数据缓冲与异步/多轮训练流程,适用于研究及产研部署。
查看详情
稀疏自编码器:模型可解释性分析
sparse-autoencoder-training
Orchestra-Research/AI-Research-SKILLs
243
本工具提供稀疏自编码器(SAE)的训练和分析框架。SAEs能够将大型语言模型内部密集的、多义的激活信号分解为稀疏、单义的特征。适用于需要发现模型学到的离散可解释概念、研究特征叠加性,或分析模型内部特定安全相关行为(如偏见或欺骗)的场景。
查看详情
子代理创建指南
subagent-creator
tech-leads-club/agent-skills
312
提供创建具备独立上下文的 AI 子代理的流程,涵盖目的设定、元数据配置、提示撰写,以及验证、调试、安全审计、代码评审等常见角色示例,帮助在复杂多步任务中分工委托。
查看详情
PyTorch原生智能体RL训练框架
torchforge-rl-training
Orchestra-Research/AI-Research-SKILLs
97
torchforge是Meta推出的用于智能体强化学习(RL)的PyTorch原生框架。它将核心的RL算法与复杂的分布式基础设施进行了彻底分离。用户可以专注于算法的快速实验和开发,无需担心底层分布式训练、权重同步等复杂问题,支持从单卡到大规模集群的扩展训练。
查看详情
火山引擎LLM强化训练
verl-rl-training
Orchestra-Research/AI-Research-SKILLs
381
使用火山引擎 verl 训练 LLM 的强化学习指南,涵盖 GRPO、PPO、价值网络、分布式 rollout、数据配置与生产部署等流程。
查看详情
Hugging Face TRL 训练
hugging-face-model-trainer
sickn33/antigravity-awesome-skills
128
通过 Hugging Face Jobs 在云 GPU 上执行 TRL(SFT/DPO/GRPO)训练,自动存储至 Hub,并支持 GGUF 导出,无需本地环境部署。
查看详情
1
2
下一页
语言
简体中文
English