WebSSL – Meta联合纽约大学等机构推出的视觉自监督学习系列模型

最近更新: 2026年6月8日下午2:44

WebSSL是什么

WebSSL（Web-scale Self-Supervised Learning）是Meta、纽约大学等机构推出的视觉自监督学习（SSL）系列模型，基于大规模网络数据（如数十亿图像）训练视觉模型，无需语言监督学习。WebSSL包括多个模型变体，如Web-DINO和Web-MAE，参数规模从3亿到70亿不等。模型在多模态任务（如视觉问答VQA、OCR和图表理解）中表现出色，甚至超越依赖语言监督的模型（如CLIP）。WebSSL的核心优势在于对大规模数据的使用能力及对数据分布的敏感性，基于筛选包含更多文本的图像数据，显著提升OCR和图表理解能力。

阅读目录

WebSSL是什么
WebSSL的主要功能
WebSSL的技术原理
WebSSL的项目地址
WebSSL的应用场景

WebSSL

WebSSL的主要功能

无需语言监督：基于大规模图像数据训练，无需语言监督即可学习有效的视觉表示。
多模态任务表现优异：在视觉问答（VQA）、OCR和图表理解等多模态任务中，性能匹敌甚至超越语言监督模型（如CLIP）。
数据筛选提升特定任务性能：基于筛选包含更多文本的图像数据，提升OCR和图表理解能力。
模型和数据规模扩展性强：随着模型容量和训练数据的增加，性能持续提升。

WebSSL的技术原理

自监督学习（SSL）：基于自监督学习方法，如对比学习（Contrastive Learning）或掩码图像建模（Masked Image Modeling），从大规模无标注图像数据中学习视觉表示。对比学习通过将图像的不同增强视图拉近，将不同图像的增强视图推远，学习图像的语义表示。掩码图像建模基于预测图像中被掩码的部分，学习图像的局部和全局结构。
大规模数据训练：用大规模网络数据进行训练，数据的多样性和规模为模型提供丰富的学习素材。基于增加训练数据的规模，模型能学习到更广泛和更复杂的视觉概念。
模型扩展：扩展模型的参数规模（从3亿到70亿参数），提升模型的学习能力和表示能力。大规模模型能捕捉到更复杂的视觉模式和语义信息，在多模态任务中表现出色。
数据筛选：筛选包含更多文本的图像数据（如图表、文档等），提升OCR和图表理解能力。数据筛选策略让模型专注于学习与文本相关的视觉特征，在相关任务中表现更好。
多模态任务的评估：用视觉问答（VQA）作为主要的评估框架，涵盖多个任务类别（如通用、知识、OCR和图表、视觉中心任务）。全面的评估方法能更好地反映模型在实际应用中的性能。