下载

Skill UI

浏览并发现 9765+ 精选技能

全部编程开发人工智能设计创意产品商业数据科学市场营销职场通用效率工具硬件工程语言学习

搜索视觉语言模型，共找到 9 条记录

默认排序最新上传最多下载

BLIP-2 视觉语言框架

blip-2-vision-language

Orchestra-Research/AI-Research-SKILLs

该框架将冻结的图像编码器与大语言模型连接，适用于图像描述、视觉问答、检索与多模态对话，在无需微调的条件下实现零样本推理，并仅训练轻量 Q-Former。

CLIP 视觉语言工具

Orchestra-Research/AI-Research-SKILLs

CLIP 借助预训练对比模型，在零样本图像分类、语义匹配、图像搜索和内容审核等视觉语言场景中无需微调即可部署。

领先计算机视觉架构师

computer-vision-expert

sickn33/antigravity-awesome-skills

提供设计、实现和优化前沿计算机视觉流程的专业指导。涵盖实时目标检测（YOLO26）、基于提示的语义分割（SAM 3）以及利用视觉语言模型（VLM）进行高级视觉推理。适用于机器人、自动驾驶和工业检测等场景，尤其擅长3D重建和边缘侧部署优化。

LLaVA 视觉语言助手

Orchestra-Research/AI-Research-SKILLs

LLaVA 将 CLIP 图像编码与 Vicuna/LLaMA 语言模型结合，提供基于图像的多轮对话、视觉问答、描述生成与指令跟随能力，适用于图像理解和视觉语言机器人。

转换器库：AI模型开发与微调

K-Dense-AI/scientific-agent-skills

这是一个用于访问和使用海量预训练AI模型的工具库。它支持自然语言处理、计算机视觉、音频处理等多种任务。用户可以使用Pipeline进行快速推理，或使用Trainer API对模型进行专业微调，适用于构建完整的AI应用。

家庭安防AI基准测试套件

home-security-ai-benchmark

SharpAI/DeepCamera

本套件是一个全面的评估工具，用于基准测试大型语言模型（LLM）和视觉语言模型（VLM）在家庭安防领域的性能。它涵盖了143项测试，覆盖了工具使用、提示注入抵抗性、上下文推理、警报分诊和场景分析等16个关键领域，旨在确保智能家居AI系统的稳健性。

家庭助手AI集成桥接

homeassistant-bridge

SharpAI/DeepCamera

该桥接实现了家庭助手（HA）与先进AI系统之间的双向集成。它将HA摄像头实时视频流送入AI进行深度分析（包括目标检测、视觉语言模型和人脸识别）。反之，AI分析得到的物体、描述和人物身份等结果，将回传为HA的实体，从而驱动复杂的自动化场景和智能警报。

室内安全隐患检测基准

SharpAI/DeepCamera

本基准测试用于评估视觉语言模型（VLM）从静态图像中识别室内环境潜在安全隐患的能力。测试覆盖了火灾、电路、跌倒、儿童安全和坠物等五大类别的40个场景，旨在模拟真实世界的固定安防监控，提供VLM实用安全检测能力的严格衡量标准。

智能家居视频异常检测基准

smarthome-video-anomaly-benchmark

SharpAI/DeepCamera

本基准测试套件专用于评估视觉语言模型（VLM）在智能家居视频异常检测方面的能力。它基于真实的家庭数据集，覆盖了安全入侵、老人跌倒、宠物异常行为等多个生活场景。该测试要求模型进行深度多帧视频理解，是检验AI系统视频理解能力和实时监测准确性的专业级工具。

1

语言