Nexus-Gen – 魔搭联合华东师范等机构开源的全模态图像生成模型

最近更新: 2026年6月7日下午8:03

Nexus-Gen是什么

Nexus-Gen 是魔搭团队、华东师范大学等机构推出的开源全能图像生成模型，支持同时完成图像理解、生成和编辑任务。Nexus-Gen融合强大的语言模型与扩散模型的能力，基于预填充自回归策略解决传统方法中图像嵌入误差累积的问题。模型在图像质量和编辑能力上达到与 GPT-4o 相当的水平，推动全模态模型领域的发展。

阅读目录

Nexus-Gen是什么
Nexus-Gen的主要功能
Nexus-Gen的技术原理
Nexus-Gen的项目地址
Nexus-Gen的应用场景

Nexus-Gen

Nexus-Gen的主要功能

图像理解：分析图像内容，生成描述性文本，回答与图像相关的问题。
图像生成：根据文本描述生成高质量图像，支持复杂场景和风格的生成。
图像编辑：提供多种编辑功能，包括颜色调整、对象添加/删除、风格转换等。

Nexus-Gen的技术原理

架构设计：将输入的文本和图像基于文本 Tokenizer 和视觉编码器（Vision Encoder）转化为嵌入向量，输入到自回归 Transformer 中生成输出的文本 Token 和图像嵌入。图像嵌入用视觉投影器（Vision Projector）对齐到与输入相同的特征空间，基于扩散模型（Vision Decoder）解码为像素级图像。
预填充自回归策略：引入预填充自回归策略。在训练阶段，模型用可学习的特殊 Token 填充图像嵌入位置。在推理阶段，模型基于预测图像起始 Token（BOI）后直接预填充特殊 Token，统一训练和推理行为，避免误差累积。
统一任务表示：基于统一的任务表示格式，将图像理解、生成和编辑任务整合到一个框架中。所有任务的数据都用类似的消息格式组织，模型学习不同任务之间的协同作用，提升多模态任务的处理能力。
双阶段对齐训练
自回归 Transformer 训练：基于三阶段训练逐步赋予模型图像生成和编辑能力，最终用高质量数据提升生成质量。
扩散模型训练：基于单阶段训练，将输入条件从文本调整为图像嵌入，实现高质量图像重建。

Nexus-Gen的项目地址

GitHub仓库：https://github.com/modelscope/Nexus-Gen
HuggingFace模型库：https://huggingface.co/modelscope/Nexus-Gen
arXiv技术论文：https://arxiv.org/pdf/2504.21356

Nexus-Gen的应用场景

创意设计：快速生成艺术作品、插画或概念图，支持风格转换，提升创作效率。
内容创作：生成文章配图、视频素材，编辑图像匹配内容主题。
广告营销：制作符合品牌风格的广告素材，快速生成产品展示图。
教育学习：生成历史、科学或文学场景的图像，增强学习直观性。
游戏开发：快速生成游戏场景、角色和道具，支持虚拟现实（VR）和增强现实（AR）应用。

MME-CoT – 港中文等机构推出评估视觉推理能力的基准框架

Emotion-LLaMA – 多模态情绪识别与推理模型，融合音频、视觉和文本输入

发表评价

Nexus-Gen – 魔搭联合华东师范等机构开源的全模态图像生成模型

Nexus-Gen是什么

Nexus-Gen的主要功能

Nexus-Gen的技术原理

Nexus-Gen的项目地址

Nexus-Gen的应用场景

发表评价取消回复

最近更新

红果短剧发布AI角色规范，专项整治“高频AI脸”与素材侵权

黑森林实验室FLUX3 多模态模型登场：单次生成 20 秒音视频，胜率碾压Grok与Seedance

菲尔兹奖新得主齐默尔曼官宣加入OpenAI，数学最高荣誉得主转向AI安全

Runway推出Media Router：自动切换AI模型帮你省Token，创意验证到成片一条龙搞定

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

Support

Nexus-Gen是什么

Nexus-Gen的主要功能

Nexus-Gen的技术原理

Nexus-Gen的项目地址

Nexus-Gen的应用场景

发表评价 取消回复

最近更新

相关推荐

发表评价取消回复