Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: 字节跳动Mamoda2.5重磅发布:25B参数MoE统一多模态模型,视频生成编辑速度提升12-18倍
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AI 工具 > 字节跳动Mamoda2.5重磅发布:25B参数MoE统一多模态模型,视频生成编辑速度提升12-18倍
AI 工具AIGC 资讯

字节跳动Mamoda2.5重磅发布:25B参数MoE统一多模态模型,视频生成编辑速度提升12-18倍

站外新闻
最近更新: 2026年5月24日 上午2:28
MoE稀疏激活 多模态大模型 字节跳动AI 文生视频 视频编辑
SHARE

💡 站外导读:AIGC时代,视频内容创作仍面临多重痛点:理解与生成模型分离导致误差累积,高分辨率视频生成动辄数十分钟,编辑任务缺乏统一框架。字节跳动Mamoda2.5应运而生,以AR-Diffusion统一架构打破壁垒,将多模态理解、文生图、文生视频、视频编辑集于单一模型,标志着行业从专用工具迈向通用智能生成的关键转折。

Mamoda2.5是什么

Mamoda2.5 是字节跳动推出的统一多模态 AR-Diffusion 模型,基于 128 专家细粒度 DiT-MoE 架构,总参数量 25B、每次仅激活约 3B。模型集多模态理解、文生图、文生视频、图像/视频编辑于一体,在 OpenVE-Bench、FiVE-Bench、Reco-Bench 视频编辑榜单均位列第一,720p 视频生成速度比同类模型快 12–18 倍。

阅读目录
  • Mamoda2.5是什么
  • Mamoda2.5的主要功能
  • Mamoda2.5的技术原理
  • 如何使用Mamoda2.5
  • Mamoda2.5的关键信息和使用要求
  • Mamoda2.5的核心优势
  • Mamoda2.5的项目地址
  • Mamoda2.5的同类竞品对比
  • Mamoda2.5的应用场景
      • 📝 站长洞察 (Editor’s Insight)

Mamoda2.5

Mamoda2.5的主要功能

  • 文生视频:根据文本描述生成 720p 高质量视频,推理速度比同类模型快 12–18 倍。
  • 视频编辑:支持添加、移除、替换、风格迁移和字幕编辑五种操作,在三大视频编辑基准均排名第一。
  • 文生图:依据多语言提示词生成高美学质量的静态图像。
  • 图像编辑:通过自然语言指令完成图像的局部修改、风格变换、人脸及姿态调整等。
  • 多模态理解:基于 Qwen3-VL-8B 实现视觉问答、OCR、图表解析等理解能力,与生成编辑形成统一闭环。

Mamoda2.5的技术原理

  • AR-Diffusion 统一架构:模型将”理解”与”生成”纳入单一端到端框架:前端采用自回归(AR)模块进行语义理解与指令解析,后端通过 Diffusion Transformer(DiT)迭代去噪生成视觉内容,避免了传统方案中理解模型与生成模型分离带来的误差累积和延迟问题。
  • 细粒度 DiT-MoE 稀疏激活:在扩散骨干中引入 Mixture-of-Experts(MoE)设计,设置 128 个 routed experts 与 1 个 shared expert,采用 Top-8 token 级路由策略。总参数量扩至 25B,但每轮前向传播仅激活约 3B 参数(稀疏度约 12%),在大幅提升模型容量的同时,将计算成本控制在密集模型的低水平。
  • MetaQueries 桥接机制:AR 理解模块通过一组可学习的 MetaQueries 激活生成专家(Gen Experts),将语义表征高效注入 DiT-MoE。设计保留了 AR 模型强大的指令理解能力,规避自回归视觉生成的高延迟与误差累积缺陷。
  • In-Context 多任务条件生成:所有任务(文生图、文生视频、图像/视频编辑)被统一建模为条件生成问题。多模态条件特征(指令文本、参考图像/视频、byT5 字符级文本编码)经精炼后与噪声隐变量沿序列维度拼接,DiT 对全局拼接序列执行自注意力,实现深层特征融合,无需为不同任务修改网络结构。
  • Dense-to-MoE Upcycling 初始化:为降低从头训练 25B MoE 模型的成本,团队提出三阶段上循环初始化:直接复用密集模型(Wan2.2 5B)的 Attention 与 LayerNorm 参数;对 FFN 层采用随机神经元采样策略,将 14,336 维中间神经元无重复地分配给 128 个细粒度专家;路由器权重随机初始化并配合 Expert Bias 负载均衡。消融实验表明该策略收敛速度提升约 2.2 倍。
  • 联合少步蒸馏与强化学习加速:针对视频编辑推理成本高的问题,构建联合蒸馏+RL 框架:以 30 步教师模型为基准,训练 4 步学生模型,同时去除 Classifier-Free Guidance(CFG)开销。蒸馏版在保持编辑质量的前提下,将 480p 视频编辑延迟从 69 秒压缩至 9 秒,相较开源基线实现最高 95.9 倍加速。
  • 高压缩 3D 因果 VAE:采用 Wan2.2 的 4×16×16 时空压缩 VAE,相比业界常用的 4×8×8 配置,空间 token 数量减少 4 倍,显著降低了 DiT 在视频长序列上的二次注意力计算开销与显存占用,是其实现 720p 视频 111 秒生成的关键工程基础。

如何使用Mamoda2.5

  • 访问官网:前往项目官网查看技术报告与演示案例。
  • 获取模型:关注 GitHub / HuggingFace 开源仓库,下载 25B MoE 检查点。
  • 环境配置:准备支持 MoE 推理的 GPU 环境,加载模型权重。
  • 调用任务:输入文本/图像/视频指令,选择对应任务模式(生成或编辑)。
  • 极速模式:如需极致速度,切换至 4-step 蒸馏版本进行视频编辑。

Mamoda2.5的关键信息和使用要求

  • 硬件:单设备可跑 720p 生成,但 25B MoE 模型仍需较高显存(稀疏激活约 3B,建议 24GB+ VRAM,具体以官方发布配置为准)。
  • 推理框架:需支持 MoE 稀疏激活的推理后端(如 vLLM、Megatron-LM 或团队自研推理代码)。
  • 依赖基座:理解模块基于 Qwen3-VL-8B,VAE 基于 Wan2.2,需配套加载。
  • 授权协议:待官方明确(通常为 Apache 2.0 或字节跳动自定义开源协议),商用需留意协议限制。
  • 快速体验:目前可通过官网查看 Demo 与论文;本地部署需等待开源仓库发布完整权重与启动脚本。

Mamoda2.5的核心优势

  • 一模型多任务:单一架构统一覆盖理解、生成、编辑,无需任务专属模型。
  • 极致推理效率:稀疏激活 + 高压缩 VAE,视频生成/编辑速度数量级领先。
  • SOTA 编辑能力:OpenVE-Bench、FiVE-Bench、Reco-Bench 均排名第一,超越 Kling O1。
  • 低成本扩展:Upcycling 初始化充分利用已有密集模型权重,避免从零训练 25B 参数的巨额开销。

Mamoda2.5的项目地址

  • 项目官网:https://mamoda25.github.io/
  • GitHub仓库:https://github.com/bytedance/mammothmoda
  • arXiv技术论文:https://arxiv.org/pdf/2605.02641

Mamoda2.5的同类竞品对比

对比维度 Mamoda2.5 Wan2.2 VInO
发布方 字节跳动 阿里 开源社区
核心定位 统一理解+生成+编辑 专用文生视频 专用视频编辑
架构 DiT-MoE(25B总参/3B激活) Dense DiT(28B-A14B) MMDiT + VLM(13B)
文生视频 支持,VBench 2.0 顶级 支持,开源标杆 不支持
视频编辑 SOTA,三榜第一 不支持 支持,开源前列
图像生成/编辑 支持 不支持 不支持
多模态理解 支持(Qwen3-VL-8B) 不支持 有限
统一单模型 是 否 是(仅限编辑)
720p生成速度 111秒 1366秒 —
480p编辑延迟 9秒(蒸馏版) — 882秒
开源状态 论文已发,权重待开源 已开源 已开源

Mamoda2.5的应用场景

  • 广告创意与内容审核:Mamoda2.5 已在字节跳动内部广告场景落地,用于创意视频编辑与内容安全修复,任务成功率达 98%。支持快速替换商品、添加品牌元素、修正字幕错别字。
  • 短视频批量生产:创作者可通过自然语言指令完成风格迁移(如”转成赛博朋克风”)、元素增删(如”去掉背景人物”)、季节变换等操作,单条 480p 视频编辑仅需 9 秒,适合日更级产能需求。
  • 电商视觉营销:一键生成商品展示视频,或基于实拍素材进行背景替换、模特换装、多语言字幕添加,降低拍摄与后期成本。
  • 影视与动画预演:导演与制片方可用文生视频快速生成分镜预演,通过视频编辑调整角色、场景与镜头运动,加速前期决策。
  • 教育与培训内容:将静态课件转为动态讲解视频,或对现有教学视频进行内容更新(如替换旧版 UI 界面、更新数据图表),无需重新录制。

📝 站长洞察 (Editor’s Insight)

Mamoda2.5的发布,标志着多模态AI进入“一模型多任务”的新范式。其核心创新在于AR-Diffusion统一架构——前端自回归理解、后端Diffusion生成的分工协作,既保留了大语言模型的指令解析能力,又规避了自回归视觉生成的延迟陷阱。128专家MoE的稀疏激活设计更显工程智慧:25B参数规模下仅激活3B,兼顾模型容量与推理效率,这正是工业级部署的关键。配合高压缩3D因果VAE和联合蒸馏强化学习,720p视频生成111秒、480p编辑9秒的速度,让实时创意迭代成为可能。从行业视角看,字节此举直指AIGC基础设施的制高点——当单一模型能覆盖理解到生成的全链路,内容生产的边际成本将急剧下降。值得关注的是,其Upcycling初始化策略复用Wan2.2权重,大幅降低训练成本,展现了高效利用现有AI资产的范式。随着开源临近,Mamoda2.5或将重塑视频生成与编辑的竞争格局,推动AI创作从工具走向平台。

PP-DocBee – 百度飞桨推出的文档图像理解多模态大模型
Star Office UI:开源AI可视化看板,实时监控Agent工作状态与多智能体协作
Matrix-Zero – 昆仑万维推出的世界模型
Profiling Data – DeepSeek开源训练和推理框架的性能分析数据
MM-Eureka – 上海AI Lab联合上交大等推出的多模态推理模型
TAGGED:MoE稀疏激活多模态大模型字节跳动AI文生视频视频编辑
分享
Email 复制链接 打印
Share
上一篇 xAI重磅发布Grok Voice Think Fast 1.0:语音AI智能体技术领先,转化率提升20%
下一篇 Models.dev 开源了!一站式 AI 模型数据库,开发者选型成本估算终极指南
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

上海AI Lab重磅开源:Yume1.5交互式世界模型,单卡实时生成可探索虚拟世界
AI 工具 AIGC 资讯
腾讯混元Tencent-HY-MT1.5开源翻译模型:1.8B端侧量化仅需1GB,33种语言离线秒译
AI 工具
AutoMV: 多智能体协作开源AI系统,一键将歌曲生成节奏同步的音乐视频(附项目地址)
AI 工具 AIGC 资讯
阿里通义重磅开源Qwen3-VL-Reranker:跨模态检索精度飙升,多模态AI应用新引擎
AI 工具 AIGC 资讯

相关推荐

AIGC 资讯

RealisHuman – 用于修复生成图像中畸形人体部分的后处理框架

站外新闻
AI 工具AIGC 资讯

Vidu Q2参考生Pro发布:万物可参考,小白一键生成专业级特效视频的AI创作引擎

站外新闻
AIGC AI视频生成 Vidu Q2参考生Pro 多模态参考 视频特效
AI 工具

ShopMate AI

remaker
AIGC 资讯

EasyControl – Tiamat AI 联合上海科大等开源的图像生成控制框架

站外新闻
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI大模型 AI安全 AI工具 AI智能体 AI绘画 AI编程 AI编程工具 AI视频 AI视频生成 AI设计 AI音乐生成 Anthropic chatgpt Claude Claude Code Claude Mythos Claude Opus 4.8 DeepSeek Gemini GPT-5.4 GPT-5.5 MCP协议 Midjourney MiniMax Mistral AI MoE MoE架构 NVIDIA openai OpenClaw prompt SWE-Bench xAI 世界模型 丛林 人工智能 人物 企业级AI 具身智能 命令行工具 图像生成模型 多智能体 多模态 多模态AI 多模态大模型 大模型 大模型API 大模型应用 大模型推理 大语言模型 字节跳动 家居 小红书 展台 开源 开源AI工具 开源大模型 开源工具 开源框架 开源模型 开源项目 强化学习 微软 教程 早报 昆仑万维 智能体编程 智谱AI 月之暗面 本地AI 海报设计 清华大学 生成式AI 知识管理 科大讯飞 科幻 端侧AI 端侧大模型 端侧部署 网络安全 腾讯 腾讯混元 英伟达 视频生成 视频生成模型 语音合成 谷歌 谷歌AI 赛博朋克 边缘计算 通义千问 长上下文 阶跃星辰 阿里通义 面壁智能 香港大学
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.