OpenVision – 加州大学开源的视觉编码器家族

最近更新: 2026年6月7日下午8:03

OpenVision是什么

OpenVision是加州大学圣克鲁兹分校（UCSC）推出的完全开放、高效且灵活的高级视觉编码器家族，专注于多模态学习。提供从5.9M到632.1M参数的多种规模模型，适用于从边缘设备到高性能服务器的不同场景。OpenVision采用渐进式多阶段分辨率训练策略，训练效率比同类专有模型快2到3倍。在多模态基准测试中表现出色，与OpenAI的CLIP和SigLIP等模型相当。OpenVision支持8×8和16×16的可变大小patch，能灵活应对详细视觉理解或高效处理的需求。

阅读目录

OpenVision是什么
OpenVision的主要功能
OpenVision的技术原理
OpenVision的项目地址
OpenVision的应用场景

OpenVision

OpenVision的主要功能

完全开放：数据集、训练配方和模型检查点全部公开，在Apache 2.0许可证下开源，促进了多模态研究的可重复性和透明度。
模型规模多样：提供从5.9M到632.1M参数的视觉编码器，共有26种不同的模型，涵盖了从边缘设备到高性能服务器的各种部署需求。
性能卓越：在多模态基准测试中，OpenVision的性能与OpenAI的CLIP和SigLIP等专有视觉编码器相当，在某些情况下超越了它们。
训练效率高：通过渐进式多阶段分辨率训练策略，OpenVision在训练效率上比专有对手快2到3倍。
灵活配置：支持8×8和16×16的可变大小patch，支持根据实际需求进行详细视觉理解或高效处理。

OpenVision的技术原理

渐进式分辨率训练策略：OpenVision采用从低分辨率（如84×84）开始，逐步提高到高分辨率（如336×336或384×384）的训练方式。显著提高了训练效率，比CLIP和SigLIP快2到3倍，不损失下游性能。
视觉编码器预训练：在预训练阶段，OpenVision的每个编码器会在三个连续的分辨率阶段进行训练。具体而言，不同变体的模型会根据其规模，在不同分辨率下进行训练，如Large、SoViT-400M和Huge变体分别在84×84、224×224，最终在336×336或384×384进行训练。预训练完成后，舍弃文本塔和解码器，仅保留视觉主干。
多模态学习架构：OpenVision的模型架构主要由视觉编码器和文本编码器组成。视觉编码器负责提取图像的特征，文本编码器用于提取自然语言序列的特征。在训练过程中，模型通过图像-文本对的对比学习，最大化正样本对的相似度，最小化负样本对的相似度。
优化轻量级系统和边缘计算应用：OpenVision与小型语言模型有效结合，构建低参数量的多模态模型。