Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: 字节跳动Mamoda2.5重磅发布:25B参数MoE统一多模态模型,视频生成编辑速度提升12-18倍
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AI 工具 > 字节跳动Mamoda2.5重磅发布:25B参数MoE统一多模态模型,视频生成编辑速度提升12-18倍
AI 工具AIGC 资讯

字节跳动Mamoda2.5重磅发布:25B参数MoE统一多模态模型,视频生成编辑速度提升12-18倍

站外新闻
最近更新: 2026年5月24日 上午2:28
MoE稀疏激活 多模态大模型 字节跳动AI 文生视频 视频编辑
SHARE

💡 站外导读:AIGC时代,视频内容创作仍面临多重痛点:理解与生成模型分离导致误差累积,高分辨率视频生成动辄数十分钟,编辑任务缺乏统一框架。字节跳动Mamoda2.5应运而生,以AR-Diffusion统一架构打破壁垒,将多模态理解、文生图、文生视频、视频编辑集于单一模型,标志着行业从专用工具迈向通用智能生成的关键转折。

Mamoda2.5是什么

Mamoda2.5 是字节跳动推出的统一多模态 AR-Diffusion 模型,基于 128 专家细粒度 DiT-MoE 架构,总参数量 25B、每次仅激活约 3B。模型集多模态理解、文生图、文生视频、图像/视频编辑于一体,在 OpenVE-Bench、FiVE-Bench、Reco-Bench 视频编辑榜单均位列第一,720p 视频生成速度比同类模型快 12–18 倍。

阅读目录
  • Mamoda2.5是什么
  • Mamoda2.5的主要功能
  • Mamoda2.5的技术原理
  • 如何使用Mamoda2.5
  • Mamoda2.5的关键信息和使用要求
  • Mamoda2.5的核心优势
  • Mamoda2.5的项目地址
  • Mamoda2.5的同类竞品对比
  • Mamoda2.5的应用场景
      • 📝 站长洞察 (Editor’s Insight)

Mamoda2.5

Mamoda2.5的主要功能

  • 文生视频:根据文本描述生成 720p 高质量视频,推理速度比同类模型快 12–18 倍。
  • 视频编辑:支持添加、移除、替换、风格迁移和字幕编辑五种操作,在三大视频编辑基准均排名第一。
  • 文生图:依据多语言提示词生成高美学质量的静态图像。
  • 图像编辑:通过自然语言指令完成图像的局部修改、风格变换、人脸及姿态调整等。
  • 多模态理解:基于 Qwen3-VL-8B 实现视觉问答、OCR、图表解析等理解能力,与生成编辑形成统一闭环。

Mamoda2.5的技术原理

  • AR-Diffusion 统一架构:模型将”理解”与”生成”纳入单一端到端框架:前端采用自回归(AR)模块进行语义理解与指令解析,后端通过 Diffusion Transformer(DiT)迭代去噪生成视觉内容,避免了传统方案中理解模型与生成模型分离带来的误差累积和延迟问题。
  • 细粒度 DiT-MoE 稀疏激活:在扩散骨干中引入 Mixture-of-Experts(MoE)设计,设置 128 个 routed experts 与 1 个 shared expert,采用 Top-8 token 级路由策略。总参数量扩至 25B,但每轮前向传播仅激活约 3B 参数(稀疏度约 12%),在大幅提升模型容量的同时,将计算成本控制在密集模型的低水平。
  • MetaQueries 桥接机制:AR 理解模块通过一组可学习的 MetaQueries 激活生成专家(Gen Experts),将语义表征高效注入 DiT-MoE。设计保留了 AR 模型强大的指令理解能力,规避自回归视觉生成的高延迟与误差累积缺陷。
  • In-Context 多任务条件生成:所有任务(文生图、文生视频、图像/视频编辑)被统一建模为条件生成问题。多模态条件特征(指令文本、参考图像/视频、byT5 字符级文本编码)经精炼后与噪声隐变量沿序列维度拼接,DiT 对全局拼接序列执行自注意力,实现深层特征融合,无需为不同任务修改网络结构。
  • Dense-to-MoE Upcycling 初始化:为降低从头训练 25B MoE 模型的成本,团队提出三阶段上循环初始化:直接复用密集模型(Wan2.2 5B)的 Attention 与 LayerNorm 参数;对 FFN 层采用随机神经元采样策略,将 14,336 维中间神经元无重复地分配给 128 个细粒度专家;路由器权重随机初始化并配合 Expert Bias 负载均衡。消融实验表明该策略收敛速度提升约 2.2 倍。
  • 联合少步蒸馏与强化学习加速:针对视频编辑推理成本高的问题,构建联合蒸馏+RL 框架:以 30 步教师模型为基准,训练 4 步学生模型,同时去除 Classifier-Free Guidance(CFG)开销。蒸馏版在保持编辑质量的前提下,将 480p 视频编辑延迟从 69 秒压缩至 9 秒,相较开源基线实现最高 95.9 倍加速。
  • 高压缩 3D 因果 VAE:采用 Wan2.2 的 4×16×16 时空压缩 VAE,相比业界常用的 4×8×8 配置,空间 token 数量减少 4 倍,显著降低了 DiT 在视频长序列上的二次注意力计算开销与显存占用,是其实现 720p 视频 111 秒生成的关键工程基础。

如何使用Mamoda2.5

  • 访问官网:前往项目官网查看技术报告与演示案例。
  • 获取模型:关注 GitHub / HuggingFace 开源仓库,下载 25B MoE 检查点。
  • 环境配置:准备支持 MoE 推理的 GPU 环境,加载模型权重。
  • 调用任务:输入文本/图像/视频指令,选择对应任务模式(生成或编辑)。
  • 极速模式:如需极致速度,切换至 4-step 蒸馏版本进行视频编辑。

Mamoda2.5的关键信息和使用要求

  • 硬件:单设备可跑 720p 生成,但 25B MoE 模型仍需较高显存(稀疏激活约 3B,建议 24GB+ VRAM,具体以官方发布配置为准)。
  • 推理框架:需支持 MoE 稀疏激活的推理后端(如 vLLM、Megatron-LM 或团队自研推理代码)。
  • 依赖基座:理解模块基于 Qwen3-VL-8B,VAE 基于 Wan2.2,需配套加载。
  • 授权协议:待官方明确(通常为 Apache 2.0 或字节跳动自定义开源协议),商用需留意协议限制。
  • 快速体验:目前可通过官网查看 Demo 与论文;本地部署需等待开源仓库发布完整权重与启动脚本。

Mamoda2.5的核心优势

  • 一模型多任务:单一架构统一覆盖理解、生成、编辑,无需任务专属模型。
  • 极致推理效率:稀疏激活 + 高压缩 VAE,视频生成/编辑速度数量级领先。
  • SOTA 编辑能力:OpenVE-Bench、FiVE-Bench、Reco-Bench 均排名第一,超越 Kling O1。
  • 低成本扩展:Upcycling 初始化充分利用已有密集模型权重,避免从零训练 25B 参数的巨额开销。

Mamoda2.5的项目地址

  • 项目官网:https://mamoda25.github.io/
  • GitHub仓库:https://github.com/bytedance/mammothmoda
  • arXiv技术论文:https://arxiv.org/pdf/2605.02641

Mamoda2.5的同类竞品对比

对比维度 Mamoda2.5 Wan2.2 VInO
发布方 字节跳动 阿里 开源社区
核心定位 统一理解+生成+编辑 专用文生视频 专用视频编辑
架构 DiT-MoE(25B总参/3B激活) Dense DiT(28B-A14B) MMDiT + VLM(13B)
文生视频 支持,VBench 2.0 顶级 支持,开源标杆 不支持
视频编辑 SOTA,三榜第一 不支持 支持,开源前列
图像生成/编辑 支持 不支持 不支持
多模态理解 支持(Qwen3-VL-8B) 不支持 有限
统一单模型 是 否 是(仅限编辑)
720p生成速度 111秒 1366秒 —
480p编辑延迟 9秒(蒸馏版) — 882秒
开源状态 论文已发,权重待开源 已开源 已开源

Mamoda2.5的应用场景

  • 广告创意与内容审核:Mamoda2.5 已在字节跳动内部广告场景落地,用于创意视频编辑与内容安全修复,任务成功率达 98%。支持快速替换商品、添加品牌元素、修正字幕错别字。
  • 短视频批量生产:创作者可通过自然语言指令完成风格迁移(如”转成赛博朋克风”)、元素增删(如”去掉背景人物”)、季节变换等操作,单条 480p 视频编辑仅需 9 秒,适合日更级产能需求。
  • 电商视觉营销:一键生成商品展示视频,或基于实拍素材进行背景替换、模特换装、多语言字幕添加,降低拍摄与后期成本。
  • 影视与动画预演:导演与制片方可用文生视频快速生成分镜预演,通过视频编辑调整角色、场景与镜头运动,加速前期决策。
  • 教育与培训内容:将静态课件转为动态讲解视频,或对现有教学视频进行内容更新(如替换旧版 UI 界面、更新数据图表),无需重新录制。

📝 站长洞察 (Editor’s Insight)

Mamoda2.5的发布,标志着多模态AI进入“一模型多任务”的新范式。其核心创新在于AR-Diffusion统一架构——前端自回归理解、后端Diffusion生成的分工协作,既保留了大语言模型的指令解析能力,又规避了自回归视觉生成的延迟陷阱。128专家MoE的稀疏激活设计更显工程智慧:25B参数规模下仅激活3B,兼顾模型容量与推理效率,这正是工业级部署的关键。配合高压缩3D因果VAE和联合蒸馏强化学习,720p视频生成111秒、480p编辑9秒的速度,让实时创意迭代成为可能。从行业视角看,字节此举直指AIGC基础设施的制高点——当单一模型能覆盖理解到生成的全链路,内容生产的边际成本将急剧下降。值得关注的是,其Upcycling初始化策略复用Wan2.2权重,大幅降低训练成本,展现了高效利用现有AI资产的范式。随着开源临近,Mamoda2.5或将重塑视频生成与编辑的竞争格局,推动AI创作从工具走向平台。

SANA 1.5 – 英伟联合MIT、清北等机构推出的文生图新框架
rStar-Math – 微软推出的小模型复杂推理与自进化SLMs的创新技术
ChatUI – 阿里推出的开源智能对话式 UI 组件库
支付宝AI支付破3亿笔:全球首个AI原生支付基建落地,Token Pay与AI钱包重塑智能体交易
Helper AI助手
TAGGED:MoE稀疏激活多模态大模型字节跳动AI文生视频视频编辑
分享
Email 复制链接 打印
Share
上一篇 xAI重磅发布Grok Voice Think Fast 1.0:语音AI智能体技术领先,转化率提升20%
下一篇 Models.dev 开源了!一站式 AI 模型数据库,开发者选型成本估算终极指南
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

流光脑波AI大脑占位特色图
2026年3月美国AI榜单巨变:Claude单月狂飙130%紧追ChatGPT,格局突变信号已现
AIGC 资讯 最新趋势
得物实战揭秘:AI Coding工具如何突破数仓开发’失忆’痛点,Harness工程引领新范式
AI 工具 AIGC 资讯
全息流体渐变通用占位特色图
历史性和解!Meta妥协规避审判,美国首例学校诉社交媒体成瘾案落幕,揭示行业司法风向
AIGC 资讯
量子芯片科技感占位特色图
Spotify与环球音乐联手:AI翻唱混音工具上线,正版版权终结Suno野蛮生长
AI 工具 AIGC 资讯 最新趋势

相关推荐

AI 工具AIGC 资讯

百度文心大模型X1.1深度解析:超越DeepSeek、叫板GPT-5的国产AI新标杆

站外新闻
AIGC 文心大模型 深度学习 百度
AIGC 资讯

Moonlight-16B-A3B – 月之暗面开源的 MoE 模型

站外新闻
AI 工具AIGC 资讯

MiniMax发布MMX-CLI:专为AI Agent打造的全模态命令行神器,一键集成七大生成能力

站外新闻
AI Agent MiniMax MMX-CLI 全模态生成 自动化工作流
AI 工具

天工AI助手

remaker
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI大模型 AI安全 AI工具 AI智能体 AI模型 AI绘画 AI编程 AI编程助手 AI编程工具 AI视频生成 AI音乐生成 Anthropic Cerebras WSE-3 chatgpt Claude Claude Code DeepSeek Gemini GPT-5.3 Instant GPT-5.3-Codex-Spark GPT-5.4 MCP协议 meta Midjourney MiniMax Mistral AI MoE架构 openai prompt Qwen3 RAG SWE-Bench xAI 上海人工智能实验室 世界模型 人工智能 人物 代码生成 企业级AI 全模态大模型 具身智能 图像生成 图像生成模型 多智能体 多模态 多模态AI 多模态大模型 多模态模型 大模型 大模型应用 大语言模型 字节跳动 小红书 展台 开源 开源AI 开源AI工具 开源大模型 开源工具 开源框架 开源模型 开源项目 强化学习 微软 扩散模型 推理模型 教程 数字人 文本转语音 早报 昆仑万维 智谱AI 月之暗面 本地部署 清华大学 生成式AI 知识管理 美团 腾讯混元 自然语言处理 英伟达 蚂蚁集团 视觉语言模型 视频生成 视频生成模型 语音合成 谷歌 谷歌AI 谷歌DeepMind 轻量级模型 通义千问 阶跃星辰 阿里巴巴 阿里通义 面壁智能 香港大学
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.