💡 站外导读:在生成式AI浪潮中,音视频内容生成正成为核心战场。然而,主流模型生成的视频多是“哑剧”,音画同步难、口型对不上、缺乏环境音效等问题,严重制约了AIGC在影视、广告等专业领域的落地。行业急需一种能原生融合视觉与听觉、实现端到端一体化生成的解决方案。
MOVA是什么
MOVA(MOSS Video and Audio)是上海创智学院OpenMOSS团队与模思智能(MOSI)联合推出的,中国首个高性能开源音视频端到端生成模型。模型突破传统视频”静音”局限,采用异构双塔架构与双向桥接模块,实现原生跨模态交互。模型拥有320亿参数(MoE架构,推理激活180亿),可同步生成长达8秒、720p分辨率的视频与配套音频,在电影级口型同步、环境音效契合度上表现卓越。

MOVA的主要功能
-
端到端音视频生成:模型能一次性同步输出视频与配套音频,告别”哑巴视频”。
-
双模式驱动生成:支持图像+文本或纯文本输入,灵活控制生成内容。
-
电影级口型同步:模型能精准匹配人物说话时的嘴型与语音,支持中英文多人物对话。
-
智能环境音效:根据画面场景自动合成匹配的背景音乐、动作声与环境音。
-
视频文字渲染:模型可在画面指定位置生成清晰可读的动态文字内容。
-
高分辨率输出:模型最高支持720p分辨率、8秒时长的视听片段生成。
MOVA的技术原理
- 异构双塔架构:模型采用14B视频扩散模型与1.3B音频扩散模型分别处理视觉与听觉信息,通过双向桥接模块实现两层隐藏状态的深度交叉注意力融合,让画面生成全程感知声音节奏。
- 跨模态时间对齐:视频与音频的采样密度差异巨大,Aligned ROPE机制通过精确的缩放比例映射,将两种模态的Token统一到同一物理时间坐标系,从根本上消除音画不同步问题。
- 渐进式训练策略:模型分三阶段由粗到细训练,先用360p低分辨率让随机初始化的桥接模块快速学会音视频对齐,逐步提升对齐稳定性,最后扩展到720p高分辨率进行画质精修。
- 双重CFG推理:针对音视频联合生成存在文本指令和模态桥接两个控制源的特点,支持独立调节两者的引导权重,在一般场景保画面质量,在对话场景强口型精度。
MOVA的项目地址
- 项目官网:https://mosi.cn/models/mova
- GitHub仓库:https://github.com/OpenMOSS/MOVA
- HuggingFace模型库:https://huggingface.co/collections/OpenMOSS-Team/mova
MOVA的应用场景
- 影视制作:快速生成分镜预览与配音小样,降低前期制作成本,加速创意验证。
- 短视频创作:为创作者提供带音效的高质量剧情素材,提升产出效率,丰富内容形式。
- 游戏开发:自动生成过场动画与角色对话,实现音画同步的沉浸体验,缩短开发周期。
- 教育培训:制作多语言口型精准的教学视频,支持全球化内容适配,提升学习效果。
- 电商营销:产出带解说与背景音乐的产品展示视频,加速营销内容迭代,增强转化能力。
📝 站长洞察 (Editor’s Insight)
MOVA的发布,标志着AIGC从“图文生成”正式迈入“视听一体化生成”的新阶段。其真正的突破在于“异构双塔+双向桥接”的架构设计,它从底层解决了音画同步这一行业顽疾,而非简单拼接。这不仅是技术的进步,更是范式的转变——它意味着AI内容生产将越来越接近人类创作的“通感”过程。对于产业而言,这种端到端能力将大幅降低专业视听内容的生产门槛,从影视预览到游戏过场,效率提升将是指数级的。开源策略更是关键,它将加速生态构建,可能催生出我们今天还无法想象的新应用形态。
