Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: 字节跳动Mamoda2.5重磅发布:25B参数MoE统一多模态模型,视频生成编辑速度提升12-18倍
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AI 工具 > 字节跳动Mamoda2.5重磅发布:25B参数MoE统一多模态模型,视频生成编辑速度提升12-18倍
AI 工具AIGC 资讯

字节跳动Mamoda2.5重磅发布:25B参数MoE统一多模态模型,视频生成编辑速度提升12-18倍

站外新闻
最近更新: 2026年5月24日 上午2:28
MoE稀疏激活 多模态大模型 字节跳动AI 文生视频 视频编辑
SHARE

💡 站外导读:AIGC时代,视频内容创作仍面临多重痛点:理解与生成模型分离导致误差累积,高分辨率视频生成动辄数十分钟,编辑任务缺乏统一框架。字节跳动Mamoda2.5应运而生,以AR-Diffusion统一架构打破壁垒,将多模态理解、文生图、文生视频、视频编辑集于单一模型,标志着行业从专用工具迈向通用智能生成的关键转折。

Mamoda2.5是什么

Mamoda2.5 是字节跳动推出的统一多模态 AR-Diffusion 模型,基于 128 专家细粒度 DiT-MoE 架构,总参数量 25B、每次仅激活约 3B。模型集多模态理解、文生图、文生视频、图像/视频编辑于一体,在 OpenVE-Bench、FiVE-Bench、Reco-Bench 视频编辑榜单均位列第一,720p 视频生成速度比同类模型快 12–18 倍。

阅读目录
  • Mamoda2.5是什么
  • Mamoda2.5的主要功能
  • Mamoda2.5的技术原理
  • 如何使用Mamoda2.5
  • Mamoda2.5的关键信息和使用要求
  • Mamoda2.5的核心优势
  • Mamoda2.5的项目地址
  • Mamoda2.5的同类竞品对比
  • Mamoda2.5的应用场景
      • 📝 站长洞察 (Editor’s Insight)

Mamoda2.5

Mamoda2.5的主要功能

  • 文生视频:根据文本描述生成 720p 高质量视频,推理速度比同类模型快 12–18 倍。
  • 视频编辑:支持添加、移除、替换、风格迁移和字幕编辑五种操作,在三大视频编辑基准均排名第一。
  • 文生图:依据多语言提示词生成高美学质量的静态图像。
  • 图像编辑:通过自然语言指令完成图像的局部修改、风格变换、人脸及姿态调整等。
  • 多模态理解:基于 Qwen3-VL-8B 实现视觉问答、OCR、图表解析等理解能力,与生成编辑形成统一闭环。

Mamoda2.5的技术原理

  • AR-Diffusion 统一架构:模型将”理解”与”生成”纳入单一端到端框架:前端采用自回归(AR)模块进行语义理解与指令解析,后端通过 Diffusion Transformer(DiT)迭代去噪生成视觉内容,避免了传统方案中理解模型与生成模型分离带来的误差累积和延迟问题。
  • 细粒度 DiT-MoE 稀疏激活:在扩散骨干中引入 Mixture-of-Experts(MoE)设计,设置 128 个 routed experts 与 1 个 shared expert,采用 Top-8 token 级路由策略。总参数量扩至 25B,但每轮前向传播仅激活约 3B 参数(稀疏度约 12%),在大幅提升模型容量的同时,将计算成本控制在密集模型的低水平。
  • MetaQueries 桥接机制:AR 理解模块通过一组可学习的 MetaQueries 激活生成专家(Gen Experts),将语义表征高效注入 DiT-MoE。设计保留了 AR 模型强大的指令理解能力,规避自回归视觉生成的高延迟与误差累积缺陷。
  • In-Context 多任务条件生成:所有任务(文生图、文生视频、图像/视频编辑)被统一建模为条件生成问题。多模态条件特征(指令文本、参考图像/视频、byT5 字符级文本编码)经精炼后与噪声隐变量沿序列维度拼接,DiT 对全局拼接序列执行自注意力,实现深层特征融合,无需为不同任务修改网络结构。
  • Dense-to-MoE Upcycling 初始化:为降低从头训练 25B MoE 模型的成本,团队提出三阶段上循环初始化:直接复用密集模型(Wan2.2 5B)的 Attention 与 LayerNorm 参数;对 FFN 层采用随机神经元采样策略,将 14,336 维中间神经元无重复地分配给 128 个细粒度专家;路由器权重随机初始化并配合 Expert Bias 负载均衡。消融实验表明该策略收敛速度提升约 2.2 倍。
  • 联合少步蒸馏与强化学习加速:针对视频编辑推理成本高的问题,构建联合蒸馏+RL 框架:以 30 步教师模型为基准,训练 4 步学生模型,同时去除 Classifier-Free Guidance(CFG)开销。蒸馏版在保持编辑质量的前提下,将 480p 视频编辑延迟从 69 秒压缩至 9 秒,相较开源基线实现最高 95.9 倍加速。
  • 高压缩 3D 因果 VAE:采用 Wan2.2 的 4×16×16 时空压缩 VAE,相比业界常用的 4×8×8 配置,空间 token 数量减少 4 倍,显著降低了 DiT 在视频长序列上的二次注意力计算开销与显存占用,是其实现 720p 视频 111 秒生成的关键工程基础。

如何使用Mamoda2.5

  • 访问官网:前往项目官网查看技术报告与演示案例。
  • 获取模型:关注 GitHub / HuggingFace 开源仓库,下载 25B MoE 检查点。
  • 环境配置:准备支持 MoE 推理的 GPU 环境,加载模型权重。
  • 调用任务:输入文本/图像/视频指令,选择对应任务模式(生成或编辑)。
  • 极速模式:如需极致速度,切换至 4-step 蒸馏版本进行视频编辑。

Mamoda2.5的关键信息和使用要求

  • 硬件:单设备可跑 720p 生成,但 25B MoE 模型仍需较高显存(稀疏激活约 3B,建议 24GB+ VRAM,具体以官方发布配置为准)。
  • 推理框架:需支持 MoE 稀疏激活的推理后端(如 vLLM、Megatron-LM 或团队自研推理代码)。
  • 依赖基座:理解模块基于 Qwen3-VL-8B,VAE 基于 Wan2.2,需配套加载。
  • 授权协议:待官方明确(通常为 Apache 2.0 或字节跳动自定义开源协议),商用需留意协议限制。
  • 快速体验:目前可通过官网查看 Demo 与论文;本地部署需等待开源仓库发布完整权重与启动脚本。

Mamoda2.5的核心优势

  • 一模型多任务:单一架构统一覆盖理解、生成、编辑,无需任务专属模型。
  • 极致推理效率:稀疏激活 + 高压缩 VAE,视频生成/编辑速度数量级领先。
  • SOTA 编辑能力:OpenVE-Bench、FiVE-Bench、Reco-Bench 均排名第一,超越 Kling O1。
  • 低成本扩展:Upcycling 初始化充分利用已有密集模型权重,避免从零训练 25B 参数的巨额开销。

Mamoda2.5的项目地址

  • 项目官网:https://mamoda25.github.io/
  • GitHub仓库:https://github.com/bytedance/mammothmoda
  • arXiv技术论文:https://arxiv.org/pdf/2605.02641

Mamoda2.5的同类竞品对比

对比维度 Mamoda2.5 Wan2.2 VInO
发布方 字节跳动 阿里 开源社区
核心定位 统一理解+生成+编辑 专用文生视频 专用视频编辑
架构 DiT-MoE(25B总参/3B激活) Dense DiT(28B-A14B) MMDiT + VLM(13B)
文生视频 支持,VBench 2.0 顶级 支持,开源标杆 不支持
视频编辑 SOTA,三榜第一 不支持 支持,开源前列
图像生成/编辑 支持 不支持 不支持
多模态理解 支持(Qwen3-VL-8B) 不支持 有限
统一单模型 是 否 是(仅限编辑)
720p生成速度 111秒 1366秒 —
480p编辑延迟 9秒(蒸馏版) — 882秒
开源状态 论文已发,权重待开源 已开源 已开源

Mamoda2.5的应用场景

  • 广告创意与内容审核:Mamoda2.5 已在字节跳动内部广告场景落地,用于创意视频编辑与内容安全修复,任务成功率达 98%。支持快速替换商品、添加品牌元素、修正字幕错别字。
  • 短视频批量生产:创作者可通过自然语言指令完成风格迁移(如”转成赛博朋克风”)、元素增删(如”去掉背景人物”)、季节变换等操作,单条 480p 视频编辑仅需 9 秒,适合日更级产能需求。
  • 电商视觉营销:一键生成商品展示视频,或基于实拍素材进行背景替换、模特换装、多语言字幕添加,降低拍摄与后期成本。
  • 影视与动画预演:导演与制片方可用文生视频快速生成分镜预演,通过视频编辑调整角色、场景与镜头运动,加速前期决策。
  • 教育与培训内容:将静态课件转为动态讲解视频,或对现有教学视频进行内容更新(如替换旧版 UI 界面、更新数据图表),无需重新录制。

📝 站长洞察 (Editor’s Insight)

Mamoda2.5的发布,标志着多模态AI进入“一模型多任务”的新范式。其核心创新在于AR-Diffusion统一架构——前端自回归理解、后端Diffusion生成的分工协作,既保留了大语言模型的指令解析能力,又规避了自回归视觉生成的延迟陷阱。128专家MoE的稀疏激活设计更显工程智慧:25B参数规模下仅激活3B,兼顾模型容量与推理效率,这正是工业级部署的关键。配合高压缩3D因果VAE和联合蒸馏强化学习,720p视频生成111秒、480p编辑9秒的速度,让实时创意迭代成为可能。从行业视角看,字节此举直指AIGC基础设施的制高点——当单一模型能覆盖理解到生成的全链路,内容生产的边际成本将急剧下降。值得关注的是,其Upcycling初始化策略复用Wan2.2权重,大幅降低训练成本,展现了高效利用现有AI资产的范式。随着开源临近,Mamoda2.5或将重塑视频生成与编辑的竞争格局,推动AI创作从工具走向平台。

Paper2Code – AI论文自动转为代码的多智能体框架
Lipsync-2 – Sync Labs 推出的首个零-shot 嘴型同步模型
Hunyuan3D 2.0 – 腾讯推出的大规模 3D 资产生成系统
Magma – 微软研究院联合华盛顿等高校推出的多模态AI基础模型
ICEdit – 浙江大学联合哈佛大学推出的指令式图像编辑框架
TAGGED:MoE稀疏激活多模态大模型字节跳动AI文生视频视频编辑
分享
Email 复制链接 打印
Share
上一篇 xAI重磅发布Grok Voice Think Fast 1.0:语音AI智能体技术领先,转化率提升20%
下一篇 Models.dev 开源了!一站式 AI 模型数据库,开发者选型成本估算终极指南
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

Ming‑Flash‑Omni 2.0 – 蚂蚁开源的全模态大模型
AIGC 资讯
VideoReward – 港中文、清华、快手等联合推出的视频生成偏好数据集及奖励模型
AIGC 资讯
PaSa – 字节跳动推出的学术论文检索智能体
AIGC 资讯
Weebo – AI语音聊天机器人,实时响应用户语音指令和问题
AIGC 资讯

相关推荐

AIGC 资讯

FantasyID – 阿里联合北邮大学推出的身份保持视频生成框架

站外新闻
AIGC 资讯

FreeLLMAPI – 开源 AI 模型聚合平台,统一OpenAI兼容格式

站外新闻
AIGC 资讯

Horizon – 开源 AI 信息聚合系统,构建专属新闻雷达

站外新闻
AIGC 资讯

TesserAct – AI 4D具身世界模型,能预测3D场景的动态演变

站外新闻
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AGI AI AI Agent AIGC AI商业化 AI大模型 AI安全 AI工具 AI搜索 AI智能体 AI生成内容 AI监管 AI绘画 AI编程 AI编程工具 AI编程智能体 AI芯片 AI视频 AI视频生成 AI设计 Anthropic chatgpt Claude Claude Code Claude Mythos Claude Opus 4.8 DeepSeek DuckDuckGo Gemini GPT-5.5 MCP协议 meta Midjourney MiniMax MoE MoE架构 NVIDIA openai OpenRouter Pika prompt SpaceX stable diffusion SWE-Bench xAI 世界模型 丛林 人工智能 人物 企业级AI 具身智能 命令行工具 图像生成模型 多模态 多模态大模型 大模型 大模型API 大模型应用 大语言模型 字节跳动 家居 小米 展台 建筑 开源 开源大模型 开源工具 开源框架 开源模型 强化学习 微软 教程 早报 智能体 智能体编程 智谱AI 月之暗面 本地AI 海报设计 生成式AI 科大讯飞 科幻 端侧AI 端侧大模型 网络安全 联想 腾讯混元 英伟达 苹果 视频生成模型 语音合成 谷歌 谷歌AI 赛博朋克 长上下文 阶跃星辰 阿里通义 阿里通义千问 风景
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.