下载

Skill UI

浏览并发现 9621+ 精选技能

全部编程开发人工智能设计创意产品商业数据科学市场营销职场通用效率工具硬件工程语言学习

搜索视觉模型，共找到 31 条记录

默认排序最新上传最多下载

BLIP-2 视觉语言框架

blip-2-vision-language

Orchestra-Research/AI-Research-SKILLs

该框架将冻结的图像编码器与大语言模型连接，适用于图像描述、视觉问答、检索与多模态对话，在无需微调的条件下实现零样本推理，并仅训练轻量 Q-Former。

CLIP 视觉语言工具

Orchestra-Research/AI-Research-SKILLs

CLIP 借助预训练对比模型，在零样本图像分类、语义匹配、图像搜索和内容审核等视觉语言场景中无需微调即可部署。

领先计算机视觉架构师

computer-vision-expert

sickn33/antigravity-awesome-skills

提供设计、实现和优化前沿计算机视觉流程的专业指导。涵盖实时目标检测（YOLO26）、基于提示的语义分割（SAM 3）以及利用视觉语言模型（VLM）进行高级视觉推理。适用于机器人、自动驾驶和工业检测等场景，尤其擅长3D重建和边缘侧部署优化。

AI图像与视频生成

sickn33/antigravity-awesome-skills

利用fal.ai AI模型，本技能可以实现高质量的图像和视频内容生成。适用于所有需要创意视觉素材、进行多媒体内容创作或概念原型设计的场景。核心功能是将文本描述转化为复杂的视觉媒体。

Groq多模态工作流：语音、图像、语音合成

groq-core-workflow-b

jeremylongshore/claude-code-plugins-plus-skills

该工作流是基于Groq的综合多模态解决方案，超越了基础的聊天补全功能。它支持超快速的音频转录（Whisper），利用视觉模型进行图像理解，以及高质量的文本转语音合成。适用于实时内容处理、多媒体分析和自动化内容生成等场景。

AI图像生成技能

sickn33/antigravity-awesome-skills

该技能利用Google Gemini强大的图像生成模型，能够创建高质量、上下文相关的视觉内容。它在开发中用途广泛，特别适用于前端开发中的占位符图片、技术文档的流程图和插图，以及任何需要可视化概念、架构图或UI资产的场景。

LLaVA 视觉语言助手

Orchestra-Research/AI-Research-SKILLs

LLaVA 将 CLIP 图像编码与 Vicuna/LLaMA 语言模型结合，提供基于图像的多轮对话、视觉问答、描述生成与指令跟随能力，适用于图像理解和视觉语言机器人。

通用物体分割模型

segment-anything-model

Orchestra-Research/AI-Research-SKILLs

提供 Meta AI 的 Segment Anything Model，用交互式点/框提示或自动生成遮罩完成零样本图像分割，便于快速制作数据集并融合到视觉流水线中。

计算机视觉生产级工程技能

senior-computer-vision

alirezarezvani/claude-skills

涵盖了从基础模型到生产部署的完整计算机视觉AI全流程技能。掌握目标检测（YOLO、Faster R-CNN）、实例/语义分割（Mask R-CNN、SAM）等核心技术，并熟练运用PyTorch进行模型训练，最终通过ONNX和TensorRT等工具优化模型，实现边缘或云端设备的稳定部署。

稳定扩散图像生成指南

stable-diffusion-image-generation

Orchestra-Research/AI-Research-SKILLs

本指南全面介绍了如何使用HuggingFace Diffusers库和Stable Diffusion模型进行高级图像生成。用户可以实现从文本描述生成图像（Text-to-Image）、图像到图像的风格迁移、局部重绘（Inpainting）以及图像扩展等功能。适用于需要高性能、高保真度和可定制化工作流的创意或计算机视觉应用场景。

AI 图像生成器

K-Dense-AI/claude-scientific-skills

通过 OpenRouter 的 Gemini 3.1 Flash 和 Flux 2 Pro 模型生成或编辑照片、插画与视觉素材，只需配置 API 密钥后运行脚本即可完成提示词、修改或批量输出，适用于演示、营销和创意场景。

预训练Transformer模型

K-Dense-AI/claude-scientific-skills

用于处理NLP、计算机视觉、音频等多个领域的预训练Transformer模型。支持文本生成、分类、问答、摘要提取、图像检测等复杂任务，并提供模型微调和部署的完整流程，适用于构建专业级的AI应用。

语言