MOVA：中国首个端到端开源音视频生成大模型，320亿参数实现电影级口型同步

💡 站外导读：在生成式AI浪潮中，音视频内容生成正成为核心战场。然而，主流模型生成的视频多是“哑剧”，音画同步难、口型对不上、缺乏环境音效等问题，严重制约了AIGC在影视、广告等专业领域的落地。行业急需一种能原生融合视觉与听觉、实现端到端一体化生成的解决方案。

MOVA是什么

MOVA（MOSS Video and Audio）是上海创智学院OpenMOSS团队与模思智能（MOSI）联合推出的，中国首个高性能开源音视频端到端生成模型。模型突破传统视频”静音”局限，采用异构双塔架构与双向桥接模块，实现原生跨模态交互。模型拥有320亿参数（MoE架构，推理激活180亿），可同步生成长达8秒、720p分辨率的视频与配套音频，在电影级口型同步、环境音效契合度上表现卓越。

阅读目录

MOVA是什么
MOVA的主要功能
MOVA的技术原理
MOVA的项目地址
MOVA的应用场景

📝 站长洞察 (Editor’s Insight)

MOVA

MOVA的主要功能

端到端音视频生成：模型能一次性同步输出视频与配套音频，告别”哑巴视频”。
双模式驱动生成：支持图像+文本或纯文本输入，灵活控制生成内容。
电影级口型同步：模型能精准匹配人物说话时的嘴型与语音，支持中英文多人物对话。
智能环境音效：根据画面场景自动合成匹配的背景音乐、动作声与环境音。
视频文字渲染：模型可在画面指定位置生成清晰可读的动态文字内容。
高分辨率输出：模型最高支持720p分辨率、8秒时长的视听片段生成。

MOVA的技术原理

异构双塔架构：模型采用14B视频扩散模型与1.3B音频扩散模型分别处理视觉与听觉信息，通过双向桥接模块实现两层隐藏状态的深度交叉注意力融合，让画面生成全程感知声音节奏。
跨模态时间对齐：视频与音频的采样密度差异巨大，Aligned ROPE机制通过精确的缩放比例映射，将两种模态的Token统一到同一物理时间坐标系，从根本上消除音画不同步问题。
渐进式训练策略：模型分三阶段由粗到细训练，先用360p低分辨率让随机初始化的桥接模块快速学会音视频对齐，逐步提升对齐稳定性，最后扩展到720p高分辨率进行画质精修。
双重CFG推理：针对音视频联合生成存在文本指令和模态桥接两个控制源的特点，支持独立调节两者的引导权重，在一般场景保画面质量，在对话场景强口型精度。

MOVA的项目地址

项目官网：https://mosi.cn/models/mova
GitHub仓库：https://github.com/OpenMOSS/MOVA
HuggingFace模型库：https://huggingface.co/collections/OpenMOSS-Team/mova

MOVA的应用场景

影视制作：快速生成分镜预览与配音小样，降低前期制作成本，加速创意验证。
短视频创作：为创作者提供带音效的高质量剧情素材，提升产出效率，丰富内容形式。
游戏开发：自动生成过场动画与角色对话，实现音画同步的沉浸体验，缩短开发周期。
教育培训：制作多语言口型精准的教学视频，支持全球化内容适配，提升学习效果。
电商营销：产出带解说与背景音乐的产品展示视频，加速营销内容迭代，增强转化能力。

📝 站长洞察 (Editor’s Insight)

MOVA的发布，标志着AIGC从“图文生成”正式迈入“视听一体化生成”的新阶段。其真正的突破在于“异构双塔+双向桥接”的架构设计，它从底层解决了音画同步这一行业顽疾，而非简单拼接。这不仅是技术的进步，更是范式的转变——它意味着AI内容生产将越来越接近人类创作的“通感”过程。对于产业而言，这种端到端能力将大幅降低专业视听内容的生产门槛，从影视预览到游戏过场，效率提升将是指数级的。开源策略更是关键，它将加速生态构建，可能催生出我们今天还无法想象的新应用形态。

MOVA：中国首个端到端开源音视频生成大模型，320亿参数实现电影级口型同步

MOVA是什么

MOVA的主要功能

MOVA的技术原理

MOVA的项目地址

MOVA的应用场景

📝 站长洞察 (Editor’s Insight)

发表评价取消回复

最近更新

110 亿参数塞进六类科学大脑：上智院开放”神珍”多模态模型，从蛋白质到气象场一个模型全读懂

人形机器人迎来飞跃！逐际动力张巍：智能水平已达 GPT-3 阶段

索尼音乐再诉AI巨头Udio：指控其违规复制逾三万段录音

Ming‑Flash‑Omni 2.0 – 蚂蚁开源的全模态大模型

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

Support

MOVA是什么

MOVA的主要功能

MOVA的技术原理

MOVA的项目地址

MOVA的应用场景

📝 站长洞察 (Editor’s Insight)

发表评价 取消回复

最近更新

相关推荐

发表评价取消回复