💡 站外导读:在AIGC浪潮中,视觉生成与理解长期被视为两个独立赛道,模型割裂、数据孤岛、协同困难成为行业痛点。中国科学院计算技术研究所与国科大联合推出Jodi,一个颠覆性的统一扩散模型框架。它通过联合建模图像与多个视觉标签域,首次在一个模型内无缝实现联合生成、可控生成与图像感知三大核心任务,为解决多模态任务的碎片化问题提供了全新范式,标志着AI在视觉统一建模上迈出关键一步。
Jodi是什么
Jodi是中国科学院计算技术研究所和中国科学院大学推出的扩散模型框架,基于联合建模图像域和多个标签域,将视觉生成与理解统一起来。Jodi基于线性扩散Transformer和角色切换机制,执行联合生成(同时生成图像和多个标签)、可控生成(基于标签组合生成图像)及图像感知(从图像预测多个标签)三种任务。Jodi用包含20万张高质量图像和7个视觉域标签的Joint-1.6M数据集进行训练。Jodi在生成和理解任务中均表现出色,展现强大的可扩展性和跨领域一致性。

Jodi的主要功能
- 联合生成:同时生成图像和多个标签,例如深度图、法线图、边缘图等,生成的图像和标签在语义和空间上保持一致。
- 可控生成:根据给定的标签组合生成图像,用户指定某些标签作为条件输入,控制生成图像的特定属性或特征。
- 图像感知:从给定的图像中同时预测多个标签,实现对图像的多维度理解和分析,例如同时进行深度估计、边缘检测、语义分割等任务。
Jodi的技术原理
- 联合建模:基于图像域和多个标签域的联合分布进行建模,基于学习联合分布p(x, y1, y2, …, yM),推导出生成任务和理解任务所需的边际分布和条件分布。
- 角色切换机制:在训练过程中,每个域随机分配三种角色之一,生成目标([G])、条件输入([C])或被忽略([X])。模型能同时学习不同类型的概率分布,包括联合生成、可控生成和图像感知。
- 线性扩散Transformer:用线性扩散Transformer作为主干网络,基于线性注意力机制有效降低计算复杂度,让模型能高效地处理多个视觉域。引入了掩码线性注意力和领域不变的位置嵌入,增强不同视觉域之间的一致性和对齐。
- 数据集构建:为支持多视觉域的联合建模,Jodi构建Joint-1.6M数据集,包含20万张高质量图像以及对应的7个视觉域的自动标签,为模型训练提供丰富的数据支持。
Jodi的项目地址
- 项目官网:https://vipl-genun.github.io/Project-Jodi/
- GitHub仓库:https://github.com/VIPL-GENUN/Jodi
- HuggingFace模型库:https://huggingface.co/VIPL-GENUN/Jodi
- arXiv技术论文:https://arxiv.org/pdf/2505.19084
Jodi的应用场景
- 创意内容生成:为艺术家和设计师提供灵感,快速生成具有特定风格或元素的图像。
- 多模态数据增强:生成高质量的多模态数据,增强机器学习模型的训练数据集。
- 图像编辑与修复:根据用户输入修复或编辑图像,生成缺失部分或调整风格。
- 视觉理解与分析:预测多种视觉标签,辅助图像理解任务,如医学图像分析。
- 虚拟现实与增强现实:生成逼真的虚拟场景和标注信息,提升VR和AR应用的体验。
📝 站长洞察 (Editor’s Insight)
Jodi的发布,远不止是一个新模型的问世。它精准击中了当前AIGC领域‘生成’与‘理解’二元割裂的核心矛盾。在行业追求‘世界模型’和‘通用智能体’的大背景下,Jodi通过联合建模与角色切换机制,优雅地实现了多任务、多模态的统一学习,这预示着AI架构正从‘专用化’向‘通用化’加速演进。其基于线性扩散Transformer的技术路径,也反映了业界对计算效率与模型可扩展性的极致追求。尽管仍处于学术开源阶段,但其展现出的跨领域一致性和强大能力,已为未来虚拟内容生成、机器人感知、自动驾驶仿真等应用描绘了清晰蓝图。这不仅是技术突破,更是一次关于AI如何更高效、更一体化地理解与创造世界的范式探索。
