登录
下载
Skill UI
浏览并发现
9621+
精选技能
全部
编程开发
人工智能
设计创意
产品商业
数据科学
市场营销
职场通用
效率工具
硬件工程
语言学习
搜索
视觉模型
,共找到
31
条记录
默认排序
最新上传
最多下载
BLIP-2 视觉语言框架
blip-2-vision-language
Orchestra-Research/AI-Research-SKILLs
239
该框架将冻结的图像编码器与大语言模型连接,适用于图像描述、视觉问答、检索与多模态对话,在无需微调的条件下实现零样本推理,并仅训练轻量 Q-Former。
查看详情
CLIP 视觉语言工具
clip
Orchestra-Research/AI-Research-SKILLs
142
CLIP 借助预训练对比模型,在零样本图像分类、语义匹配、图像搜索和内容审核等视觉语言场景中无需微调即可部署。
查看详情
领先计算机视觉架构师
computer-vision-expert
sickn33/antigravity-awesome-skills
285
提供设计、实现和优化前沿计算机视觉流程的专业指导。涵盖实时目标检测(YOLO26)、基于提示的语义分割(SAM 3)以及利用视觉语言模型(VLM)进行高级视觉推理。适用于机器人、自动驾驶和工业检测等场景,尤其擅长3D重建和边缘侧部署优化。
查看详情
AI图像与视频生成
fal-generate
sickn33/antigravity-awesome-skills
398
利用fal.ai AI模型,本技能可以实现高质量的图像和视频内容生成。适用于所有需要创意视觉素材、进行多媒体内容创作或概念原型设计的场景。核心功能是将文本描述转化为复杂的视觉媒体。
查看详情
Groq多模态工作流:语音、图像、语音合成
groq-core-workflow-b
jeremylongshore/claude-code-plugins-plus-skills
122
该工作流是基于Groq的综合多模态解决方案,超越了基础的聊天补全功能。它支持超快速的音频转录(Whisper),利用视觉模型进行图像理解,以及高质量的文本转语音合成。适用于实时内容处理、多媒体分析和自动化内容生成等场景。
查看详情
AI图像生成技能
imagen
sickn33/antigravity-awesome-skills
311
该技能利用Google Gemini强大的图像生成模型,能够创建高质量、上下文相关的视觉内容。它在开发中用途广泛,特别适用于前端开发中的占位符图片、技术文档的流程图和插图,以及任何需要可视化概念、架构图或UI资产的场景。
查看详情
LLaVA 视觉语言助手
llava
Orchestra-Research/AI-Research-SKILLs
101
LLaVA 将 CLIP 图像编码与 Vicuna/LLaMA 语言模型结合,提供基于图像的多轮对话、视觉问答、描述生成与指令跟随能力,适用于图像理解和视觉语言机器人。
查看详情
通用物体分割模型
segment-anything-model
Orchestra-Research/AI-Research-SKILLs
381
提供 Meta AI 的 Segment Anything Model,用交互式点/框提示或自动生成遮罩完成零样本图像分割,便于快速制作数据集并融合到视觉流水线中。
查看详情
计算机视觉生产级工程技能
senior-computer-vision
alirezarezvani/claude-skills
257
涵盖了从基础模型到生产部署的完整计算机视觉AI全流程技能。掌握目标检测(YOLO、Faster R-CNN)、实例/语义分割(Mask R-CNN、SAM)等核心技术,并熟练运用PyTorch进行模型训练,最终通过ONNX和TensorRT等工具优化模型,实现边缘或云端设备的稳定部署。
查看详情
稳定扩散图像生成指南
stable-diffusion-image-generation
Orchestra-Research/AI-Research-SKILLs
489
本指南全面介绍了如何使用HuggingFace Diffusers库和Stable Diffusion模型进行高级图像生成。用户可以实现从文本描述生成图像(Text-to-Image)、图像到图像的风格迁移、局部重绘(Inpainting)以及图像扩展等功能。适用于需要高性能、高保真度和可定制化工作流的创意或计算机视觉应用场景。
查看详情
AI 图像生成器
generate-image
K-Dense-AI/claude-scientific-skills
409
通过 OpenRouter 的 Gemini 3.1 Flash 和 Flux 2 Pro 模型生成或编辑照片、插画与视觉素材,只需配置 API 密钥后运行脚本即可完成提示词、修改或批量输出,适用于演示、营销和创意场景。
查看详情
预训练Transformer模型
transformers
K-Dense-AI/claude-scientific-skills
151
用于处理NLP、计算机视觉、音频等多个领域的预训练Transformer模型。支持文本生成、分类、问答、摘要提取、图像检测等复杂任务,并提供模型微调和部署的完整流程,适用于构建专业级的AI应用。
查看详情
1
2
3
下一页
语言
简体中文
English