Motion Dreamer – 香港科技大学推出的运动合理视频生成框架

Motion Dreamer是什么

Motion Dreamer是香港科技大学（广州）研究者提出的视频生成框架，生成运动合理视频。基于两阶段生成方式，先基于输入图像和运动条件生成中间运动表示，再利用该表示生成高细节视频。其引入实例流这一新运动模态，可实现从稀疏到密集的运动控制，用户通过提供稀疏运动提示，模型能生成时间连贯视频。训练时采用随机掩码实例流策略，提升模型推理能力和泛化能力。在Physion数据集及自动驾驶数据集上的实验表明，Motion Dreamer在运动连贯性和物理合理性方面显著优于其他模型，同时生成高质量视频。

阅读目录

Motion Dreamer是什么
Motion Dreamer的主要功能
Motion Dreamer的技术原理
Motion Dreamer的项目地址
Motion Dreamer的应用场景

Motion Dreamer的主要功能

生成物理连贯的视频：作为一个两阶段视频生成框架，Motion Dreamer能生成符合物理规律的视频。在第一阶段，模型基于输入图像和运动条件生成中间运动表示，如分割图或深度图，专注于运动本身；在第二阶段，采用中间运动表示生成高细节的视频。
实现稀疏到密集的运动控制：引入了实例流这一新的运动模态，用户可以提供稀疏的运动提示，如表示平均光流的方向箭头，模型能生成像素对齐的密集运动表示，实现时间连贯的视频生成。
增强模型推理能力：采用随机掩码实例流的训练策略，训练时随机掩码部分实例流，要求模型重建完整的密集运动表示，促使模型推断缺失的运动提示，提高了模型的泛化能力和基于推理的运动生成效果。

Motion Dreamer的技术原理

两阶段生成框架
- 第一阶段：运动推理：基于输入图像和运动条件，生成中间运动表示，如分割图或深度图，专注于运动本身。这一阶段采用基于扩散的视频生成模型，强调低频运动表示，以提高时间连贯性。具体来说，模型会预测光流、实例分割图和深度图等中间运动表示，这些表示共同构成了对场景动态的全面描述。
- 第二阶段：高保真视频合成：利用第一阶段生成的中间运动表示作为条件，生成高细节的视频。通过将运动推理与视频合成解耦，使得模型能够更准确地生成符合物理规律的运动，同时保持视频的高质量细节。
实例流：实例流是一种新的稀疏到密集的运动模态，用于连接人类输入与密集运动表示。为了将实例流有效地整合到模型中，会准备多尺度版本的实例流，匹配网络中不同尺度的特征图。然后通过Softmax Splatting函数，根据流场将特征图进行变形，将特征分布到新的位置，无缝地整合运动信息，同时保持可微性以支持端到端训练。
随机掩码实例流训练策略：在训练过程中，随机掩码部分实例流，要求模型重建完整的密集运动表示。促使模型推断缺失的运动提示，增强模型的泛化能力和基于推理的运动生成效果。通过训练模型处理不完整的运动信息，能更好地理解和预测对象之间的交互以及合理的运动轨迹，即使在输入稀疏的情况下也能生成合理的运动。

Motion Dreamer的项目地址

项目官网：https://envision-research.github.io/MotionDreamer
Github仓库：https://github.com/EnVision-Research/MotionDreamer
arXiv技术论文：https://arxiv.org/pdf/2412.00547

Motion Dreamer的应用场景

视频内容创作：在电影、电视剧、广告等视频内容制作中，Motion Dreamer可以生成高质量且物理连贯的视频片段，为创作者提供更多的创意空间和素材选择。
动画制作：对于动画电影和游戏动画的制作，Motion Dreamer能生成逼真的角色动画，减少手动动画制作的时间和成本，提高动画制作的效率。
沉浸式体验：在VR和AR应用中，Motion Dreamer可以生成逼真的虚拟场景和动态效果，为用户提供更加沉浸式的体验。
交互式应用：通过用户输入稀疏的运动提示，Motion Dreamer能生成与用户交互的动态内容，实现更加自然和流畅的交互体验。
驾驶场景模拟：Motion Dreamer可以在自动驾驶领域用于生成各种复杂的驾驶场景，帮助测试和优化自动驾驶算法。
交通流量分析：用Motion Dreamer生成的大量驾驶场景数据，可以进行交通流量分析和预测，为城市交通规划和管理提供参考依据。

Motion Dreamer – 香港科技大学推出的运动合理视频生成框架

Motion Dreamer是什么

Motion Dreamer的主要功能

Motion Dreamer的技术原理

Motion Dreamer的项目地址

Motion Dreamer的应用场景

发表评价取消回复

最近更新

GPT-Rosalind – OpenAI 推出的生命科学专用推理模型

Kimi K2.6 – 月之暗面开源的最新旗舰模型

Sage – 商汤绝影推出的端侧多模态智能体基座大模型

MiMo-V2.5 – 小米推出的全模态 Agent 大模型系列

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

Support

Motion Dreamer是什么

Motion Dreamer的主要功能

Motion Dreamer的技术原理

Motion Dreamer的项目地址

Motion Dreamer的应用场景

发表评价 取消回复

最近更新

相关推荐

发表评价取消回复