💡 站外导读:当前多模态大模型(MLLM)领域,自回归模型虽占主流,但在复杂推理与双向上下文建模上存在瓶颈。混合架构虽能部分弥补,却常带来系统复杂性与训练不稳定的挑战。纯扩散模型架构作为新兴范式,正展现出独特潜力。人大高瓴AI与蚂蚁集团联合推出的LLaDA-V,正是在这一背景下应运而生,旨在通过纯扩散模型解决视觉-语言对齐难题,推动多模态理解能力迈向新高度。
LLaDA-V是什么
LLaDA-V是中国人民大学高瓴人工智能学院、蚂蚁集团推出的多模态大语言模型(MLLM),基于纯扩散模型架构,专注于视觉指令微调。模型在LLaDA的基础上,引入视觉编码器和MLP连接器,将视觉特征映射到语言嵌入空间,实现有效的多模态对齐。LLaDA-V在多模态理解方面达到最新水平,超越现有的混合自回归-扩散和纯扩散模型。

LLaDA-V的主要功能
- 图像描述生成:根据输入的图像生成详细的描述文本。
- 视觉问答:回答与图像内容相关的问题。
- 多轮多模态对话:在给定图像的上下文中进行多轮对话,理解生成与图像和对话历史相关的回答。
- 复杂推理任务:在涉及图像和文本的复合任务中进行推理,例如解决与图像相关的数学问题或逻辑问题。
LLaDA-V的技术原理
- 扩散模型(Diffusion Models):扩散模型基于逐步去除噪声生成数据。在LLaDA-V中,用掩码扩散模型(Masked Diffusion Models),在句子中随机掩码(替换为特殊标记[M])一些词,训练模型预测掩码词的原始内容。
- 视觉指令微调(Visual Instruction Tuning):基于视觉指令微调框架,框架包括视觉塔(Vision Tower)和MLP连接器(MLP Connector)。视觉塔用SigLIP 2模型将图像转换为视觉表示。MLP连接器将视觉表示映射到语言模型的词嵌入空间,让视觉特征和语言特征能有效地对齐和融合。
- 多阶段训练策略:在第一阶段,训练MLP连接器以对齐视觉表示和语言嵌入。在第二阶段,对整个模型进行微调,理解和遵循视觉指令。在第三阶段,进一步增强模型的多模态推理能力,训练模型处理复杂的多模态推理任务。
- 双向注意力机制:在多轮对话中,LLaDA-V用双向注意力机制,支持模型在预测掩码词时考虑整个对话上下文,有助于模型更好地理解对话的整体逻辑和内容。
LLaDA-V的项目地址
- 项目官网:https://ml-gsai.github.io/LLaDA-V
- GitHub仓库:https://github.com/ML-GSAI/LLaDA-V
- arXiv技术论文:https://arxiv.org/pdf/2505.16933
LLaDA-V的应用场景
- 图像描述生成:自动生成图像的详细描述,帮助理解图像内容。
- 视觉问答:回答与图像相关的问题,适用于教育、旅游等领域。
- 多轮对话:在智能客服、虚拟助手等场景中进行多轮多模态对话。
- 复杂推理:解决涉及图像和文本的复杂推理任务,如数学问题解答。
- 多图像与视频理解:分析多图像和视频内容,适用视频分析和监控等场景。
📝 站长洞察 (Editor’s Insight)
LLaDA-V的发布标志着多模态大模型技术路线的一个重要分野。它选择了一条少有人走的路——纯扩散模型架构,这超越了业界对扩散模型仅用于生成的传统认知。其核心创新在于将掩码扩散模型与视觉指令微调深度结合,通过三阶段训练策略,系统性解决了视觉特征到语言空间的语义对齐问题。双向注意力机制的引入,更是直指当前自回归模型在多轮复杂推理中的上下文理解短板。这不仅是技术上的SOTA刷新,更预示着多模态AI范式可能迎来多元发展。蚂蚁集团与顶尖学术机构的深度合作,也体现了产业界正将前沿学术研究快速工程化、产品化的强大能力。未来,纯扩散模型能否在更多开放域任务中挑战自回归模型的统治地位,值得持续关注。
