Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: Mogao – 字节跳动Seed团队推出的多模态理解与生成统一架构
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AIGC 资讯 > Mogao – 字节跳动Seed团队推出的多模态理解与生成统一架构
AIGC 资讯

Mogao – 字节跳动Seed团队推出的多模态理解与生成统一架构

站外新闻
最近更新: 2026年6月8日 上午12:59
SHARE

Mogao是什么

Mogao是字节跳动Seed团队推出的交错多模态生成全基础模型。在架构上采用了双视觉编码器,结合变分自编码器(VAE)和视觉变换器(ViT),能更好地进行视觉理解并改善图像生成的上下文对齐。Mogao引入了交错旋转位置嵌入(IL-RoPE),用于捕捉图像的二维空间位置信息和多模态数据的时间位置关系,通过多模态无分类器引导技术进一步提升生成质量和一致性。

阅读目录
  • Mogao是什么
  • Mogao的主要功能
  • Mogao的技术原理
  • Mogao的项目地址
  • Mogao的应用场景

Mogao

Mogao的主要功能

  • 多模态理解和生成:Mogao 能处理文本和图像的交错序列,实现高质量的多模态理解和生成。可以在给定文本描述的情况下生成高质量图像,能在给定图像的情况下生成相关的文本内容。在多模态理解任务中,文本标记会关注历史序列中的视觉变换器(ViT)标记和文本标记,更好地理解图像内容。
  • 零样本图像编辑与组合生成:Mogao 展现出强大的零样本图像编辑能力,能在没有额外训练的情况下对图像进行编辑和修改。具备组合生成能力,可以将不同的元素组合在一起生成新的图像,具有很强的一致性和连贯性。
  • 高质量图像生成:Mogao 在图像生成方面表现出色,在真实感、图形设计、动漫、插图等多个风格分类上表现优异。支持最高 2K 分辨率的图像生成,能生成具有高细节和高质量的图像。
  • 文本渲染能力:Mogao 在文本渲染方面有显著提升,文本可用率高达 94%,有效解决以往图像生成中中文字渲染难题。

Mogao的技术原理

  • 双视觉编码器:Mogao 使用变分自编码器(VAE)和视觉变换器(ViT)作为视觉编码器。当图像作为条件输入时,同时提取 VAE 和 ViT 的视觉特征,将它们附加到历史序列中。对于多模态理解任务,文本标记仅关注 ViT 标记和文本标记;对于多模态生成任务,噪声 VAE 标记会关注历史序列中的所有标记。
  • 深度融合架构:基于预训练的大语言模型(LLM),Mogao 使用统一的自注意力层同时处理视觉和文本序列,在前馈网络(FFN)中使用不同的多层感知机(MLP)来分别处理视觉和文本模态。
  • 交错旋转位置嵌入(IL-RoPE):用于捕捉图像的二维空间位置信息和多模态数据的时间位置关系,模型能更好地处理交错的文本和图像序列。
  • 混合分辨率训练:在不同宽高比和分辨率的图像上进行预训练和微调,从低分辨率(如 256²)到高分辨率(如 2048²),引入尺寸嵌入使模型能够感知目标分辨率。
  • 跨模态 RoPE:将文本 token 视为二维 token,应用二维 RoPE,进一步增强视觉和文本 token 的对齐效果。
  • 后训练阶段:包括持续训练(CT)、监督微调(SFT)、人工反馈对齐(RLHF)和提示工程(PE),提升模型的性能和可控性。
  • 缺陷感知型训练范式:引入缺陷检测器,精确定位缺陷区域,通过掩码隐含空间优化,有效扩展训练数据集。
  • Hyper-SD 和 RayFlow:优化生成路径,引导每个数据点至特定实例的目标分布,减少路径碰撞,提高生成稳定性和样本多样性。
  • 重要性采样机制:学习在训练过程中关注最关键的时间步,支持高效的少步数采样,不影响生成质量。

Mogao的项目地址

  • arXiv技术论文:https://arxiv.org/pdf/2505.05472

Mogao的应用场景

  • 内容创作:Mogao 能根据文本描述生成高质量的图像,也可以根据图像生成相关的文本描述。
  • 智能助手:Mogao 可以结合语音、图像和文本等多种模态,实现更自然、更智能的人机交互。
  • 图像和文本的相互检索:用户可以通过输入文本描述来查找相关的图像,或者通过上传图像来获取相关的文本描述。
  • 虚拟现实与增强现实:Mogao 可以用于生成虚拟环境和互动元素,提升虚拟现实和增强现实的用户体验。
  • 医疗影像分析:Mogao 可以将不同模态的医疗影像(如 MRI、CT、超声波等)与文本描述相结合,提高疾病诊断的准确性和早期发现能力。
AvatarGO – 南洋理工联合上海 AI Lab 等推出的4D人体与物体交互生成框架
Flipbook:前OpenAI团队打造AI原生视觉浏览器,颠覆HTML的无限像素交互革命
LalaEval – 港中文联合货拉拉推出面向特定领域的模型评估框架
YC总裁亲测开源GBrain:打造AI Agent永生记忆,万级文件知识图谱实战解析
GPT‑5.3‑Codex‑Spark – OpenAI推出的轻量级编程模型
分享
Email 复制链接 打印
Share
上一篇 可灵2.0 – 快手推出的新一代AI视频生成模型
下一篇 Eagle 2.5 – 英伟达推出的视觉语言模型
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

快手OneRec:颠覆传统推荐!端到端生成式AI系统引爆观看时长与GMV
AI 工具 AIGC 资讯
Kimi-Researcher:月之暗面端到端强化学习Agent,深度研究基准测试超Claude 4 Opus
AI 工具 AIGC 资讯
华为盘古大模型5.5震撼发布:7180亿参数Ultra MoE领衔,五大模型重塑产业智能
AI 工具 AIGC 资讯
腾讯清华重磅开源MindOmni:强化学习驱动的多模态推理生成模型,重塑视觉AI边界
AI 工具 AIGC 资讯

相关推荐

AI 工具AIGC 资讯

阶跃星辰StepAudio 2.5 ASR发布:500 TPS极速推理与30分钟长音频端到端转写,定义语音识别新SOTA

站外新闻
ASR 大语言模型 自动语音识别 语音转写 阶跃星辰
AI 工具AIGC 资讯

GPT-5.3-Codex-Spark震撼发布:OpenAI首款实时编程模型,速度破千Token/秒,开发者协作体验颠覆

站外新闻
AI编程模型 Cerebras WSE-3 GPT-5.3-Codex-Spark openai 实时编程
AIGC 资讯

C盘空间瞬间释放4GB!谷歌浏览器终于服软,新版 Chrome 允许彻底禁用并删除本地 AI 大模型

站外新闻
AIGC 资讯

OmniHuman – 字节跳动推出的单张照片生成全身动态视频生成框架

站外新闻
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI大模型 AI安全 AI工具 AI智能体 AI绘画 AI编程 AI编程助手 AI编程工具 AI编程模型 AI视频生成 AI音乐生成 Anthropic chatgpt Claude Claude Code DeepSeek Gemini GPT-5.3 Instant GPT-5.3-Codex-Spark GPT-5.4 MCP协议 meta Midjourney MiniMax MoE架构 MoE模型 openai prompt Qwen3 RAG SWE-Bench xAI 上海人工智能实验室 世界模型 人工智能 人物 代码生成 企业级AI 全模态大模型 具身智能 命令行工具 图像生成 图像生成模型 多智能体 多模态 多模态AI 多模态大模型 多模态模型 大模型 大模型应用 大语言模型 字节跳动 小红书 展台 开源 开源AI 开源AI工具 开源大模型 开源工具 开源平台 开源框架 开源模型 开源项目 强化学习 微软 扩散模型 教程 数字人 文本转语音 早报 昆仑万维 智谱AI 月之暗面 清华大学 知识管理 科大讯飞 端侧AI 美团 腾讯 腾讯混元 自然语言处理 英伟达 蚂蚁集团 视觉语言模型 视频生成 视频生成模型 语音合成 谷歌 谷歌AI 谷歌DeepMind 通义千问 阶跃星辰 阿里巴巴 阿里通义 面壁智能 香港大学
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.