WorldMem – 南洋理工联合北大和上海 AI Lab 推出的世界生成模型

最近更新: 2026年6月7日下午8:03

WorldMem是什么

WorldMem 是南洋理工大学、北京大学和上海 AI Lab 推出的创新 AI 世界生成模型。模型基于引入记忆机制，解决传统世界生成模型在长时序下缺乏一致性的关键问题。在WorldMem中，智能体在多样化场景中自由探索，生成的世界在视角和位置变化后能保持几何一致性。WorldMem 支持时间一致性建模，模拟动态变化（如物体对环境的影响）。模型在 Minecraft 数据集上进行大规模训练，在真实场景中验证有效性。WorldMem 为构建真实、持久、交互式的虚拟世界提供新的技术路径。

阅读目录

WorldMem是什么
WorldMem的主要功能
WorldMem的技术原理
WorldMem的项目地址
WorldMem的应用场景

WorldMem

WorldMem的主要功能

保持一致性：在长时间生成中，让虚拟世界保持一致。
模拟动态变化：模拟时间推移带来的变化，比如物体对环境的影响（如灯光融化积雪）。
支持交互：用户在虚拟世界中放置物体或进行操作，交互被记录影响后续生成。
多样化场景生成：支持在多种虚拟场景（如平原、沙漠、冰原等）中自由探索。
适用于真实场景：在真实世界数据集上验证生成一致性的能力。

WorldMem的技术原理

条件生成模块：基于条件扩散变换器（Conditional Diffusion Transformer）构建，结合 Diffusion Forcing 训练策略，支持自回归式长时生成。用外部动作信号（如移动、视角控制、物体放置等）引导第一人称视角的生成。
记忆读写模块：记忆库存储生成过程中的关键历史信息，每个记忆单元包含图像帧及其对应的状态（如视角位姿和时间戳）。记忆检索用贪心匹配算法，基于视野重叠和时间差异计算相似度，高效筛选出与当前场景最相关的记忆单元。
记忆融合模块：将当前帧与记忆帧的状态嵌入（位姿 + 时间）结合，基于注意力计算提取与当前场景最相关的记忆信息，生成融合特征引导当前帧的生成。用 Plücker 坐标表示位姿，基于 MLP 映射时间戳，引入相对嵌入机制，提升模型的空间理解和细节保持能力。