下载

Skill UI

浏览并发现 15558+ 精选技能

全部编程开发人工智能设计创意产品商业数据科学市场营销职场通用效率工具硬件工程语言学习

搜索 Transformer ，共找到 30 条记录

默认排序最新上传最多下载

神经网络构建器

building-neural-networks

jeremylongshore/claude-code-plugins-plus-skills

通过 neural-network-builder 插件让 Claude 自动配置或修改神经网络架构，明确层、激活函数和训练参数，适合构建 CNN、RNN、Transformer 等模型。

嵌入模型选择与优化指南

embedding-strategies

sickn33/antigravity-awesome-skills

本指南详细介绍了为构建向量搜索和RAG应用选择和优化嵌入模型的全套策略。内容涵盖了主流模型对比、文本分块（chunking）技术、维度降低方法，并提供了基于OpenAI和本地Sentence Transformer的Python实战代码，帮助用户构建高质量的向量化存储系统。

TRL RLHF 训练管线

fine-tuning-with-trl

Orchestra-Research/AI-Research-SKILLs

使用 TRL 提供的 SFT、DPO、PPO/GRPO 和奖励模型训练流程，对 HuggingFace 模型进行 RLHF 调整，使其符合偏好与人类反馈。

GPTQ LLM 量化指南

Orchestra-Research/AI-Research-SKILLs

GPTQ 提供后训练 4 位量化，可在 RTX 4090/3090 等消费级 GPU 上将大模型压缩至 1/4 内存并加速推理，同时维持低于 2% 的困惑度损失，适合部署和 QLoRA 微调。

长上下文扩展技术

Orchestra-Research/AI-Research-SKILLs

通过 RoPE、YaRN、ALiBi 和位置插值等技术扩展 transformer 的上下文窗口，便于处理 32k-128k+ 令牌长文档、延长预训练模型的上下文能力，并实现更高效的位置编码与外推策略。

Mamba选择性状态空间模型

mamba-architecture

Orchestra-Research/AI-Research-SKILLs

Mamba 是选择性状态空间架构，提供 Mamba-1 与 Mamba-2，可用 O(n) 复杂度处理百万级序列，节省显存、适配硬件、替代 Transformer 生成任务。

极简GPT模型训练与学习系统

Orchestra-Research/AI-Research-SKILLs

nanoGPT是一个极简主义的GPT模型实现，专为教育和学习设计。它以简洁、可修改的代码复刻了GPT-2的核心架构，使用户能够从零开始理解整个Transformer流程。该框架支持完整的工作流，包括数据准备、模型训练和文本生成，非常适合学习NLP和深度学习原理的学生和研究人员。

闪电注意力优化器

optimizing-attention-flash

Orchestra-Research/AI-Research-SKILLs

Flash Attention 优化器在训练或运行长序列 Transformer 时提供 2-4 倍加速和 10-20 倍内存削减，适用于缓解注意力显存瓶颈与推理延迟，支持 PyTorch 原生 SDPA、flash-attn 库、H100 FP8 及滑动窗口注意力等场景。

结构化文本生成器

Orchestra-Research/AI-Research-SKILLs

Outlines 通过 Pydantic 模型与语法驱动的有限状态机在生成时约束 token，使 JSON/XML/代码结构必然有效，并支持 Transformers、llama.cpp 与 vLLM 等本地模型，实现高速推理与抽样控制。

Pyspark转换器助手

pyspark-transformer

jeremylongshore/claude-code-plugins-plus-skills

该技能在数据管道领域提供 pyspark Transformer 自动化辅导，响应相关请求，涵盖 ETL、数据转换、流程编排与流式处理等场景。

响应转换器指导

response-transformer

jeremylongshore/claude-code-plugins-plus-skills

自动响应转换器技能，针对 API 集成中的响应转换器场景提供模式指导、第三方接口和 webhook 支持、SDK 生成与验证建议。

RWKV 混合架构

rwkv-architecture

Orchestra-Research/AI-Research-SKILLs

RWKV 是结合 Transformer 训练与 RNN 推理的混合架构，提供线性时间推理、无限上下文与零 KV 缓存，可在流式或超长上下文场景中用 CUDA/CPU 低内存部署。

语言