Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: 字节跳动Mamoda2.5重磅发布:25B参数MoE统一多模态模型,视频生成编辑速度提升12-18倍
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AI 工具 > 字节跳动Mamoda2.5重磅发布:25B参数MoE统一多模态模型,视频生成编辑速度提升12-18倍
AI 工具AIGC 资讯

字节跳动Mamoda2.5重磅发布:25B参数MoE统一多模态模型,视频生成编辑速度提升12-18倍

站外新闻
最近更新: 2026年5月24日 上午2:28
MoE稀疏激活 多模态大模型 字节跳动AI 文生视频 视频编辑
SHARE

💡 站外导读:AIGC时代,视频内容创作仍面临多重痛点:理解与生成模型分离导致误差累积,高分辨率视频生成动辄数十分钟,编辑任务缺乏统一框架。字节跳动Mamoda2.5应运而生,以AR-Diffusion统一架构打破壁垒,将多模态理解、文生图、文生视频、视频编辑集于单一模型,标志着行业从专用工具迈向通用智能生成的关键转折。

Mamoda2.5是什么

Mamoda2.5 是字节跳动推出的统一多模态 AR-Diffusion 模型,基于 128 专家细粒度 DiT-MoE 架构,总参数量 25B、每次仅激活约 3B。模型集多模态理解、文生图、文生视频、图像/视频编辑于一体,在 OpenVE-Bench、FiVE-Bench、Reco-Bench 视频编辑榜单均位列第一,720p 视频生成速度比同类模型快 12–18 倍。

阅读目录
  • Mamoda2.5是什么
  • Mamoda2.5的主要功能
  • Mamoda2.5的技术原理
  • 如何使用Mamoda2.5
  • Mamoda2.5的关键信息和使用要求
  • Mamoda2.5的核心优势
  • Mamoda2.5的项目地址
  • Mamoda2.5的同类竞品对比
  • Mamoda2.5的应用场景
      • 📝 站长洞察 (Editor’s Insight)

Mamoda2.5

Mamoda2.5的主要功能

  • 文生视频:根据文本描述生成 720p 高质量视频,推理速度比同类模型快 12–18 倍。
  • 视频编辑:支持添加、移除、替换、风格迁移和字幕编辑五种操作,在三大视频编辑基准均排名第一。
  • 文生图:依据多语言提示词生成高美学质量的静态图像。
  • 图像编辑:通过自然语言指令完成图像的局部修改、风格变换、人脸及姿态调整等。
  • 多模态理解:基于 Qwen3-VL-8B 实现视觉问答、OCR、图表解析等理解能力,与生成编辑形成统一闭环。

Mamoda2.5的技术原理

  • AR-Diffusion 统一架构:模型将”理解”与”生成”纳入单一端到端框架:前端采用自回归(AR)模块进行语义理解与指令解析,后端通过 Diffusion Transformer(DiT)迭代去噪生成视觉内容,避免了传统方案中理解模型与生成模型分离带来的误差累积和延迟问题。
  • 细粒度 DiT-MoE 稀疏激活:在扩散骨干中引入 Mixture-of-Experts(MoE)设计,设置 128 个 routed experts 与 1 个 shared expert,采用 Top-8 token 级路由策略。总参数量扩至 25B,但每轮前向传播仅激活约 3B 参数(稀疏度约 12%),在大幅提升模型容量的同时,将计算成本控制在密集模型的低水平。
  • MetaQueries 桥接机制:AR 理解模块通过一组可学习的 MetaQueries 激活生成专家(Gen Experts),将语义表征高效注入 DiT-MoE。设计保留了 AR 模型强大的指令理解能力,规避自回归视觉生成的高延迟与误差累积缺陷。
  • In-Context 多任务条件生成:所有任务(文生图、文生视频、图像/视频编辑)被统一建模为条件生成问题。多模态条件特征(指令文本、参考图像/视频、byT5 字符级文本编码)经精炼后与噪声隐变量沿序列维度拼接,DiT 对全局拼接序列执行自注意力,实现深层特征融合,无需为不同任务修改网络结构。
  • Dense-to-MoE Upcycling 初始化:为降低从头训练 25B MoE 模型的成本,团队提出三阶段上循环初始化:直接复用密集模型(Wan2.2 5B)的 Attention 与 LayerNorm 参数;对 FFN 层采用随机神经元采样策略,将 14,336 维中间神经元无重复地分配给 128 个细粒度专家;路由器权重随机初始化并配合 Expert Bias 负载均衡。消融实验表明该策略收敛速度提升约 2.2 倍。
  • 联合少步蒸馏与强化学习加速:针对视频编辑推理成本高的问题,构建联合蒸馏+RL 框架:以 30 步教师模型为基准,训练 4 步学生模型,同时去除 Classifier-Free Guidance(CFG)开销。蒸馏版在保持编辑质量的前提下,将 480p 视频编辑延迟从 69 秒压缩至 9 秒,相较开源基线实现最高 95.9 倍加速。
  • 高压缩 3D 因果 VAE:采用 Wan2.2 的 4×16×16 时空压缩 VAE,相比业界常用的 4×8×8 配置,空间 token 数量减少 4 倍,显著降低了 DiT 在视频长序列上的二次注意力计算开销与显存占用,是其实现 720p 视频 111 秒生成的关键工程基础。

如何使用Mamoda2.5

  • 访问官网:前往项目官网查看技术报告与演示案例。
  • 获取模型:关注 GitHub / HuggingFace 开源仓库,下载 25B MoE 检查点。
  • 环境配置:准备支持 MoE 推理的 GPU 环境,加载模型权重。
  • 调用任务:输入文本/图像/视频指令,选择对应任务模式(生成或编辑)。
  • 极速模式:如需极致速度,切换至 4-step 蒸馏版本进行视频编辑。

Mamoda2.5的关键信息和使用要求

  • 硬件:单设备可跑 720p 生成,但 25B MoE 模型仍需较高显存(稀疏激活约 3B,建议 24GB+ VRAM,具体以官方发布配置为准)。
  • 推理框架:需支持 MoE 稀疏激活的推理后端(如 vLLM、Megatron-LM 或团队自研推理代码)。
  • 依赖基座:理解模块基于 Qwen3-VL-8B,VAE 基于 Wan2.2,需配套加载。
  • 授权协议:待官方明确(通常为 Apache 2.0 或字节跳动自定义开源协议),商用需留意协议限制。
  • 快速体验:目前可通过官网查看 Demo 与论文;本地部署需等待开源仓库发布完整权重与启动脚本。

Mamoda2.5的核心优势

  • 一模型多任务:单一架构统一覆盖理解、生成、编辑,无需任务专属模型。
  • 极致推理效率:稀疏激活 + 高压缩 VAE,视频生成/编辑速度数量级领先。
  • SOTA 编辑能力:OpenVE-Bench、FiVE-Bench、Reco-Bench 均排名第一,超越 Kling O1。
  • 低成本扩展:Upcycling 初始化充分利用已有密集模型权重,避免从零训练 25B 参数的巨额开销。

Mamoda2.5的项目地址

  • 项目官网:https://mamoda25.github.io/
  • GitHub仓库:https://github.com/bytedance/mammothmoda
  • arXiv技术论文:https://arxiv.org/pdf/2605.02641

Mamoda2.5的同类竞品对比

对比维度 Mamoda2.5 Wan2.2 VInO
发布方 字节跳动 阿里 开源社区
核心定位 统一理解+生成+编辑 专用文生视频 专用视频编辑
架构 DiT-MoE(25B总参/3B激活) Dense DiT(28B-A14B) MMDiT + VLM(13B)
文生视频 支持,VBench 2.0 顶级 支持,开源标杆 不支持
视频编辑 SOTA,三榜第一 不支持 支持,开源前列
图像生成/编辑 支持 不支持 不支持
多模态理解 支持(Qwen3-VL-8B) 不支持 有限
统一单模型 是 否 是(仅限编辑)
720p生成速度 111秒 1366秒 —
480p编辑延迟 9秒(蒸馏版) — 882秒
开源状态 论文已发,权重待开源 已开源 已开源

Mamoda2.5的应用场景

  • 广告创意与内容审核:Mamoda2.5 已在字节跳动内部广告场景落地,用于创意视频编辑与内容安全修复,任务成功率达 98%。支持快速替换商品、添加品牌元素、修正字幕错别字。
  • 短视频批量生产:创作者可通过自然语言指令完成风格迁移(如”转成赛博朋克风”)、元素增删(如”去掉背景人物”)、季节变换等操作,单条 480p 视频编辑仅需 9 秒,适合日更级产能需求。
  • 电商视觉营销:一键生成商品展示视频,或基于实拍素材进行背景替换、模特换装、多语言字幕添加,降低拍摄与后期成本。
  • 影视与动画预演:导演与制片方可用文生视频快速生成分镜预演,通过视频编辑调整角色、场景与镜头运动,加速前期决策。
  • 教育与培训内容:将静态课件转为动态讲解视频,或对现有教学视频进行内容更新(如替换旧版 UI 界面、更新数据图表),无需重新录制。

📝 站长洞察 (Editor’s Insight)

Mamoda2.5的发布,标志着多模态AI进入“一模型多任务”的新范式。其核心创新在于AR-Diffusion统一架构——前端自回归理解、后端Diffusion生成的分工协作,既保留了大语言模型的指令解析能力,又规避了自回归视觉生成的延迟陷阱。128专家MoE的稀疏激活设计更显工程智慧:25B参数规模下仅激活3B,兼顾模型容量与推理效率,这正是工业级部署的关键。配合高压缩3D因果VAE和联合蒸馏强化学习,720p视频生成111秒、480p编辑9秒的速度,让实时创意迭代成为可能。从行业视角看,字节此举直指AIGC基础设施的制高点——当单一模型能覆盖理解到生成的全链路,内容生产的边际成本将急剧下降。值得关注的是,其Upcycling初始化策略复用Wan2.2权重,大幅降低训练成本,展现了高效利用现有AI资产的范式。随着开源临近,Mamoda2.5或将重塑视频生成与编辑的竞争格局,推动AI创作从工具走向平台。

Riffusion
Content At Scale
Algalon AI
有道写作
Deepbrain AI Studios
TAGGED:MoE稀疏激活多模态大模型字节跳动AI文生视频视频编辑
分享
Email 复制链接 打印
Share
上一篇 xAI重磅发布Grok Voice Think Fast 1.0:语音AI智能体技术领先,转化率提升20%
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

xAI重磅发布Grok Voice Think Fast 1.0:语音AI智能体技术领先,转化率提升20%
AI 工具 AIGC 资讯
Realtime TTS-2:Inworld AI 实时语音合成模型革新,多轮感知与跨语言控制引领下一代对话AI
AI 工具 AIGC 资讯
GPT-Realtime-Translate:OpenAI 实时语音翻译模型,70+语言端到端直译,成本仅为人类同传万分之一
AI 工具 AIGC 资讯
OpenAI GPT-Realtime-Whisper 实时语音转文字模型发布:低至每分钟0.017美元,实现边说边出字的超低延迟转录
AI 工具 AIGC 资讯

相关推荐

AI 工具

DebateAI辩论

remaker
AI 工具

ExperAI

remaker
AI 工具

Content Company

remaker
AI 工具

Frex.ai

remaker
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

3D AI AI Agent AIGC AI人像 AI工具 AI换脸 AI智能体 AI海报设计 AI生成视频 AI绘画 AI编程 AI编程工具 AI视频 AI设计 app图标 b站 chatgpt Claude Code DALL-E3 excel meta Midjourney openai Pika prompt runway SDXL Stability AI stable diffusion UI设计 世界模型 丛林 乐高 人像 人工智能 人物 办公自动化 动物 吉卜力 咒语 图像生成 图标设计 壁纸 多模态大模型 大模型 大语言模型 女性 字节跳动 室内设计 家居 局部重绘 展台 帅哥 建筑 建筑设计 开源工具 开源平台 开源框架 开源模型 微摄影 微软 怪物 提示词 摄影 教程 文心一言 新闻 日本排放核污水 早报 智能体 智象未来 水果 海报 海报设计 游戏 游戏美术 玻璃 百度 矢量插画 破碎 科幻 穿搭 窗 美食 背景 腾讯混元 芭比 花 表情包 视频编辑 语音合成 赛博朋克 超现实主义 运动 阿里通义 阿里通义千问 风景 食物 香水
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.