EnerVerse – 智元机器人推出的首个机器人4D世界模型

最近更新: 2026年6月9日上午1:37

EnerVerse是什么

EnerVerse 是智元机器人团队开发的首个机器人4D世界模型，通过生成未来具身空间来指导机器人完成复杂任务。模型采用自回归扩散模型，结合稀疏记忆机制（Sparse Memory）和自由锚定视角（Free Anchor View, FAV），显著提升4D生成能力和动作规划性能。实验结果表明，EnerVerse在机器人动作规划任务中达到了当前最优水平。EnerVerse的项目主页和论文已经上线，模型与数据集即将开源。

阅读目录

EnerVerse是什么
EnerVerse的主要功能
EnerVerse的技术原理
EnerVerse的项目地址
EnerVerse应用场景

EnerVerse的主要功能

未来空间生成：通过自回归扩散模型，EnerVerse 能生成未来的具身空间，帮助机器人在任务指引和实时观测的基础上规划未来动作。
高效动作规划：EnerVerse 在生成网络下游加入了由多层Transformer组成的Diffusion策略头，能在逆扩散的第一步即输出未来动作序列，确保动作预测的实时性。

EnerVerse的技术原理

自回归扩散模型
- 逐块生成：EnerVerse 采用逐块生成的自回归扩散模型（chunk-wise autoregressive diffusion），通过扩散模型为未来具身空间建模。这种模型通过逐步生成每个时刻的空间信息，使得机器人能够在执行复杂任务时，不仅依赖局部信息，还能整合来自多个时刻的环境数据。
- 扩散模型架构：基于结合时空注意力的UNet结构，每个空间块内部通过卷积与双向注意力建模；块与块之间通过单向因果逻辑保持时间一致性。
稀疏记忆机制（Sparse Memory）
- 记忆管理：借鉴大语言模型的上下文记忆，EnerVerse 在训练阶段对历史帧进行高比例随机掩码处理，在推理阶段以较大时间间隔更新记忆队列。这种机制有效降低了计算开销，同时显著提升了长程任务的生成能力。
自由锚定视角（Free Anchor View, FAV）
- 视角灵活性：FAV 允许机器人根据场景灵活调整视角，克服了固定多视角在狭窄或遮挡环境中的局限性。例如，在厨房等场景中，FAV可以轻松适应动态的遮挡环境。
- 空间一致性：基于光线投射原理，EnerVerse 使用视线方向图作为视角控制条件，并将2D空间注意力扩展为跨视角的3D空间注意力，确保生成视频的几何一致性。
Diffusion策略头
- 高效动作预测：在生成网络下游加入了由多层Transformer组成的Diffusion策略头，能够在逆扩散的第一步即输出未来动作序列，确保动作预测的实时性。
- 稀疏记忆支持：在动作预测推理中，稀疏记忆队列存储真实或重建的FAV观测结果，用于提升模型对于长程任务的规划能力。

EnerVerse的项目地址

项目官网：https://sites.google.com/view/enerverse/home
arXiv技术论文：https://arxiv.org/pdf/2501.01895

EnerVerse应用场景

环境感知与决策：在自动驾驶领域，EnerVerse 可以通过生成未来空间来辅助车辆进行环境感知和决策。
机器人操作与装配：在工业生产线上，EnerVerse 可以指导机器人完成复杂的装配任务。通过生成未来空间，机器人能够更好地理解零件之间的空间关系和装配顺序，从而提高装配效率和精度。
质量检测与维护：EnerVerse 还可以应用于工业设备的质量检测和维护。机器人可以利用生成的未来空间对设备进行更全面的检查，及时发现潜在的故障和问题。
家庭服务：在家庭环境中，EnerVerse 可以帮助服务机器人更好地理解和规划任务。例如，在整理房间、搬运物品等任务中，机器人能通过生成未来空间来预测物品的摆放位置和移动路径。
医疗辅助：在医疗领域，EnerVerse 可以辅助医疗机器人进行手术操作或康复训练。通过生成未来空间，机器人能够更准确地规划手术步骤或康复动作。