MMaDA – 字节联合普林斯顿大学等推出的多模态扩散模型

最近更新: 2026年6月7日下午7:05

MMaDA是什么

MMaDA（Multimodal Large Diffusion Language Models）是普林斯顿大学、清华大学、北京大学和字节跳动推出的多模态扩散模型，支持跨文本推理、多模态理解和文本到图像生成等多个领域实现卓越性能。模型用统一的扩散架构，具备模态不可知的设计，消除对特定模态组件的需求，引入混合长链推理（CoT）微调策略，统一跨模态的CoT格式，推出UniGRPO，针对扩散基础模型的统一策略梯度强化学习算法，基于多样化的奖励建模，统一推理和生成任务的后训练，确保性能一致提升。MMaDA在多项任务上展现出超越现有模型的性能，为多模态AI的发展提供新的方向。

阅读目录

MMaDA是什么
MMaDA的主要功能
MMaDA的技术原理
MMaDA的项目地址
MMaDA的应用场景

MMaDA

MMaDA的主要功能

文本生成：能生成高质量的文本内容，支持从简单的文本描述到复杂的推理任务。
多模态理解：理解和处理文本与图像的结合，支持对图像内容的详细描述和基于图像的问答。
文本到图像生成：根据文本描述生成相应的图像，支持从抽象概念到具体场景的生成。
复杂推理任务：支持处理数学问题、逻辑推理等复杂任务，提供详细的推理过程和准确的答案。
跨模态协同学习：基于统一的架构和训练策略，实现文本和图像模态之间的协同学习和优化。

MMaDA的技术原理

统一的扩散架构：用统一的扩散架构，基于共享的概率公式和模态不可知的设计，消除对特定模态组件的需求。模型能无缝处理文本和图像数据。在预训练阶段，模型基于掩码标记预测任务联合训练文本和图像模态。模型学习从噪声数据中恢复原始数据。
混合长链推理（Mixed Long Chain-of-Thought, CoT）微调策略：基于统一的CoT格式对齐不同任务的推理过程。CoT格式包括逐步推理轨迹和最终结果，模型能生成详细的推理过程。用多样化的推理数据进行微调，包括数学问题、逻辑推理和多模态推理任务。让模型在处理复杂任务时表现出色。
统一的策略梯度强化学习算法（UniGRPO）：UniGRPO基于多样化的奖励建模，统一推理和生成任务的后训练。奖励函数包括正确性、格式、CLIP分数等，确保模型在不同任务上都能表现出色。UniGRPO用多步去噪学习，让模型能从部分噪声数据中学习，更好地用扩散模型的多步生成能力。

MMaDA的项目地址

GitHub仓库：https://github.com/Gen-Verse/MMaDA
HuggingFace模型库：https://huggingface.co/Gen-Verse/MMaDA
arXiv技术论文：https://arxiv.org/pdf/2505.15809
在线体验Demo：https://huggingface.co/spaces/Gen-Verse/MMaDA

MMaDA的应用场景

内容创作：生成文本和图像，用于写作、设计和艺术创作。
教育辅助：提供个性化学习材料和详细解题步骤，助力教学。
智能客服：基于文本和图像交互，解答用户问题，提升服务体验。
医疗健康：辅助医学图像分析，提供健康建议，支持医疗决策。
娱乐游戏：生成游戏内容和增强现实体验，丰富娱乐互动。

Software Copyright Materials Skill – 开源软著资料生成Skill

Devstral – Mistral AI联合All Hands AI开源的编程专用AI模型

发表评价

MMaDA – 字节联合普林斯顿大学等推出的多模态扩散模型

MMaDA是什么

MMaDA的主要功能

MMaDA的技术原理

MMaDA的项目地址

MMaDA的应用场景

发表评价取消回复

最近更新

OMNE Multiagent – 天桥脑科学研究院推出的大模型多智能体框架

DuoAttention – 提高LLMs处理长上下文推理效率的AI框架

HuggingChat macOS – Hugging Face开源的macOS聊天应用程序

OmniParser – 微软推出的屏幕解析工具，将UI截图转换为结构化数据

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

Support

MMaDA是什么

MMaDA的主要功能

MMaDA的技术原理

MMaDA的项目地址

MMaDA的应用场景

发表评价 取消回复

最近更新

相关推荐

发表评价取消回复