💡 站外导读:当前AI视频生成虽能产出逼真画面,但多为“事后描述”而非“事前预测”,难以与环境进行实时、因果的交互。这严重制约了其在机器人自主决策、智能游戏引擎等核心场景的应用。清华与重庆大学推出的Vid2World,正致力于解决这一根本性痛点,旨在让AI不仅能“看懂”视频,更能基于动作“预演”未来。
Vid2World是什么
Vid2World是清华大学联合重庆大学推出的创新框架,支持将全序列、非因果的被动视频扩散模型(VDM)转换为自回归、交互式、动作条件化的世界模型。模型基于视频扩散因果化和因果动作引导两大核心技术,解决传统VDM在因果生成和动作条件化方面的不足。Vid2World在机器人操作和游戏模拟等复杂环境中表现出色,支持生成高保真、动态一致的视频序列,支持基于动作的交互式预测。Vid2World为提升世界模型的实用性和预测精度开辟新途径,具有广泛的应用前景。

Vid2World的主要功能
- 高保真视频生成:生成与真实视频在视觉保真度和动态一致性上高度相似的预测。
- 动作条件化:根据输入的动作序列生成相应的视频帧,支持细粒度的动作控制。
- 自回归生成:用自回归的方式逐帧生成视频,每一步的生成仅依赖于过去的帧和动作。
- 因果推理:模型能进行因果推演,预测仅依赖于过去的信息,不会受到未来信息的影响。
- 支持下游任务:支持辅助机器人操作、游戏模拟等交互式任务。
Vid2World的技术原理
- 视频扩散因果化:视频扩散模型(VDM)对整个视频序列同时进行去噪,全序列的生成方式不适合因果推演,因为未来的帧会影响过去的帧。为实现因果生成,Vid2World对预训练的VDM进行修改,时间注意力层基于应用因果掩码,限制注意力机制只能访问过去的帧,实现因果性。时间卷积层推出混合权重转移方案,保留预训练权重的同时,让模型适应因果卷积层。基于Diffusion Forcing技术,在训练时为每一帧独立采样噪声水平,让模型学习到不同帧之间的噪声水平组合,支持自回归生成。
- 因果动作引导:为让模型响应细粒度的动作,Vid2World引入因果动作引导机制。每个动作基于轻量级的多层感知机(MLP)进行编码,添加到对应的帧中。在训练时,用固定概率独立丢弃每个动作,迫使模型同时学习条件和非条件得分函数。在测试时,基于线性组合条件得分函数和非条件得分函数,调整对动作变化的响应性。基于独立丢弃动作,模型能学习到动作对生成结果的影响,在自回归生成过程中更好地响应动作输入。
Vid2World的项目地址
- 项目官网:https://knightnemo.github.io/vid2world/
- HuggingFace模型库:https://huggingface.co/papers/2505.14357
- arXiv技术论文:https://arxiv.org/pdf/2505.14357
Vid2World的应用场景
- 机器人操作:生成高保真预测,辅助机器人任务规划。
- 游戏模拟:生成与真实游戏高度一致的视频,助力神经游戏引擎开发。
- 策略评估:模拟不同策略执行结果,助力策略优化。
- 视频预测:基于已有帧和动作序列预测后续帧,用在视频补全等。
- 虚拟环境构建:生成响应动作的虚拟场景,提升虚拟现实交互性。
📝 站长洞察 (Editor’s Insight)
Vid2World的发布,标志着AI视频理解从被动观察向主动预测、交互式模拟的关键跃迁。其核心创新在于将全序列生成的视频扩散模型“因果化”,并注入动作条件,这直击当前世界模型研究中预测与交互脱节的瓶颈。结合Sora等生成式AI的浪潮,Vid2World提供了一条将强大生成能力转化为可控环境模拟器的实用路径。这不仅会加速具身智能和游戏AI的进化,更可能催生全新的“神经模拟器”范式,用于自动驾驶测试、虚拟训练等领域。其开源策略将进一步催化该方向的创新竞赛。
