Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: MOVA:中国首个端到端开源音视频生成大模型,320亿参数实现电影级口型同步
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AI 工具 > MOVA:中国首个端到端开源音视频生成大模型,320亿参数实现电影级口型同步
AI 工具AIGC 资讯

MOVA:中国首个端到端开源音视频生成大模型,320亿参数实现电影级口型同步

站外新闻
最近更新: 2026年6月7日 下午8:06
AIGC MOVA 开源 端到端生成模型 音视频大模型
SHARE

💡 站外导读:在生成式AI浪潮中,音视频内容生成正成为核心战场。然而,主流模型生成的视频多是“哑剧”,音画同步难、口型对不上、缺乏环境音效等问题,严重制约了AIGC在影视、广告等专业领域的落地。行业急需一种能原生融合视觉与听觉、实现端到端一体化生成的解决方案。

MOVA是什么

MOVA(MOSS Video and Audio)是上海创智学院OpenMOSS团队与模思智能(MOSI)联合推出的,中国首个高性能开源音视频端到端生成模型。模型突破传统视频”静音”局限,采用异构双塔架构与双向桥接模块,实现原生跨模态交互。模型拥有320亿参数(MoE架构,推理激活180亿),可同步生成长达8秒、720p分辨率的视频与配套音频,在电影级口型同步、环境音效契合度上表现卓越。

阅读目录
  • MOVA是什么
  • MOVA的主要功能
  • MOVA的技术原理
  • MOVA的项目地址
  • MOVA的应用场景
      • 📝 站长洞察 (Editor’s Insight)

MOVA

MOVA的主要功能

  • 端到端音视频生成:模型能一次性同步输出视频与配套音频,告别”哑巴视频”。
  • 双模式驱动生成:支持图像+文本或纯文本输入,灵活控制生成内容。
  • 电影级口型同步:模型能精准匹配人物说话时的嘴型与语音,支持中英文多人物对话。
  • 智能环境音效:根据画面场景自动合成匹配的背景音乐、动作声与环境音。
  • 视频文字渲染:模型可在画面指定位置生成清晰可读的动态文字内容。
  • 高分辨率输出:模型最高支持720p分辨率、8秒时长的视听片段生成。

MOVA的技术原理

  • 异构双塔架构:模型采用14B视频扩散模型与1.3B音频扩散模型分别处理视觉与听觉信息,通过双向桥接模块实现两层隐藏状态的深度交叉注意力融合,让画面生成全程感知声音节奏。
  • 跨模态时间对齐:视频与音频的采样密度差异巨大,Aligned ROPE机制通过精确的缩放比例映射,将两种模态的Token统一到同一物理时间坐标系,从根本上消除音画不同步问题。
  • 渐进式训练策略:模型分三阶段由粗到细训练,先用360p低分辨率让随机初始化的桥接模块快速学会音视频对齐,逐步提升对齐稳定性,最后扩展到720p高分辨率进行画质精修。
  • 双重CFG推理:针对音视频联合生成存在文本指令和模态桥接两个控制源的特点,支持独立调节两者的引导权重,在一般场景保画面质量,在对话场景强口型精度。

MOVA的项目地址

  • 项目官网:https://mosi.cn/models/mova
  • GitHub仓库:https://github.com/OpenMOSS/MOVA
  • HuggingFace模型库:https://huggingface.co/collections/OpenMOSS-Team/mova

MOVA的应用场景

  • 影视制作:快速生成分镜预览与配音小样,降低前期制作成本,加速创意验证。
  • 短视频创作:为创作者提供带音效的高质量剧情素材,提升产出效率,丰富内容形式。
  • 游戏开发:自动生成过场动画与角色对话,实现音画同步的沉浸体验,缩短开发周期。
  • 教育培训:制作多语言口型精准的教学视频,支持全球化内容适配,提升学习效果。
  • 电商营销:产出带解说与背景音乐的产品展示视频,加速营销内容迭代,增强转化能力。

📝 站长洞察 (Editor’s Insight)

MOVA的发布,标志着AIGC从“图文生成”正式迈入“视听一体化生成”的新阶段。其真正的突破在于“异构双塔+双向桥接”的架构设计,它从底层解决了音画同步这一行业顽疾,而非简单拼接。这不仅是技术的进步,更是范式的转变——它意味着AI内容生产将越来越接近人类创作的“通感”过程。对于产业而言,这种端到端能力将大幅降低专业视听内容的生产门槛,从影视预览到游戏过场,效率提升将是指数级的。开源策略更是关键,它将加速生态构建,可能催生出我们今天还无法想象的新应用形态。

F-Lite – Freepik联合FAL开源的文生图模型
SketchVideo – 快手联合多所高校推出基于草图的视频生成与编辑框架
Clash of Bots
Create AI Voiceovers
Mubert
TAGGED:AIGCMOVA开源端到端生成模型音视频大模型
分享
Email 复制链接 打印
Share
上一篇 斯坦福&英伟达发布TTT-Discover:测试时强化学习实现低成本AI科学发现
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

斯坦福&英伟达发布TTT-Discover:测试时强化学习实现低成本AI科学发现
AIGC 资讯
Project Genie:谷歌DeepMind AI世界模型来袭,文字秒生可交互虚拟宇宙
AI 工具 AIGC 资讯
宇树科技重磅开源UnifoLM-VLA-0:基于Qwen2.5-VL-7B,单一模型实现12类机器人操作,准确率98.7%
AI 工具 AIGC 资讯
生数科技Vidu Q3重磅发布:全球首款16秒音画同步AI视频生成模型,技术原理与应用场景全解析
AI 工具 AIGC 资讯

相关推荐

AIGC 资讯

Ideogram 4 – Ideogram 开源的文本到图像生成模型

站外新闻
AI 工具AIGC 资讯

乐鑫 ESP-Claw 开源:用自然语言对话定义物联网设备行为的 AI Agent 框架

站外新闻
AI Agent ESP32 物联网 自然语言处理 边缘计算
AI 工具

Noise Eraser

remaker
AIGC 资讯

Nexus-Gen – 魔搭联合华东师范等机构开源的全模态图像生成模型

站外新闻
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI大模型 AI安全 AI工具 AI搜索 AI智能体 AI绘画 AI编程 AI编程工具 AI视频 AI视频生成 AI设计 AI音乐生成 Anthropic chatgpt Claude Claude Code Claude Mythos Claude Opus 4.8 DeepSeek DuckDuckGo Gemini GPT-5.5 MCP协议 meta Midjourney MiniMax Mistral AI MoE架构 NVIDIA openai OpenClaw OpenRouter Pika prompt stable diffusion SWE-Bench xAI 世界模型 丛林 人工智能 人物 企业级AI 具身智能 命令行工具 图像生成 多智能体 多模态 多模态AI 多模态大模型 大模型 大模型API 大模型应用 大语言模型 字节跳动 家居 小米 小红书 展台 建筑 开源 开源AI工具 开源大模型 开源工具 开源框架 开源模型 强化学习 微软 教程 早报 智能体 智能体编程 智谱AI 本地AI 海报设计 清华大学 生成式AI 科幻 端侧AI 网络安全 腾讯 腾讯混元 英伟达 苹果 视频生成模型 语音合成 谷歌 谷歌AI 赛博朋克 边缘计算 通义千问 长上下文 阶跃星辰 阿里通义 阿里通义千问 面壁智能 风景
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.