近日,蚂蚁灵波科技与香港科技大学等高校合作完成的研究论文 《Causal World Modeling for Robot Control》被国际机器人顶级学术会议 Robotics: Science and Systems(RSS)2026接收。

RSS会议被公认为全球机器人领域的顶级学术盛会,其研究视野长期覆盖机器人学习、控制、感知、规划及系统集成等前沿议题,并且以极高的录用标准著称。一篇论文能被RSS接收,不仅证明了其研究工作的学术原创性,更意味着它赢得了国际机器人学界的广泛认可。

这项研究的核心,是让机器人不只是完成动作,还能够在行动前预测世界会如何变化。论文提出了面向机器人控制的因果世界建模框架,并将其落地为全球首个开源的自回归视频-动作世界模型 LingBot-VA。该模型能够在机器人执行任务的过程中,持续预测环境变化,并根据预测结果生成下一步动作指令,使机器人具备类似人类“边观察、边判断、边行动”的能力。

对蚂蚁灵波团队而言,其论文成功入选RSS2026,这不仅是对其在“世界模型驱动机器人控制”这一创新方向上探索成果的权威背书,也再次证明了LingBot-VA作为具身智能基础模型所蕴含的巨大技术潜力。展望未来,这条技术路径有望引领机器人突破当前依赖指令执行的局限,迈向更深层次的环境理解、任务泛化与自主决策能力。

image.png

对机器人来说,真正困难的并不只是完成动作,还需要理解这个动作会带来什么变化。例如,拿起杯子后桌面会怎样变化,推动抽屉后物体位置会怎样改变。LingBot-VA 的核心突破,正是把这种对未来变化的预测能力引入机器人控制,让机器人先预测世界接下来会变成什么样,再根据预测结果决定应该如何行动。

这正是论文着重提出“因果世界建模”理念的关键所在。现实物理世界的时间流逝是单向不可逆的,因此机器人要预测未来,其推理过程也必须严格遵循时间顺序,一步步向前推演。LingBot-VA将这一根本性的因果逻辑嵌入到模型架构之中,确保其每一步预测都基于先前的观测与动作,依时序逐步展开。通过这种方式,模型生成的就不再是简单的未来视频演示,而是一条具备因果逻辑、可供机器人用于控制决策的完整轨迹。这一设计也赋予了模型出色的长期记忆能力,对于处理需要长时间跨度、涉及多个步骤的真实世界任务至关重要。

在技术实现上,LingBot-VA 采用 Mixture-of-Transformers(MoT)架构,将视频预测和动作生成统一到同一个自回归扩散框架中。模型还设计了闭环推演机制,在任务执行过程中持续接收真实环境反馈,减少长时间预测中的误差累积。

研究团队通过一系列仿真实验和真实机器人任务,对LingBot-VA的性能进行了全面评估。在RoboTwin2.0基准的50个双臂操作任务测试中,LingBot-VA在Easy和Hard两种难度设置下,分别取得了92.0%和91.1%的平均成功率;在LIBERO基准上,其成功率更是高达98.5%。

在真实世界评测中,面对长时序、高精度以及柔性与关节物体操控这三大类6项高难度挑战,LingBot-VA 仅需50条真实示范数据即可完成适配,整体成功率较业界基线 π0.5提升超过20个百分点,展现出良好的数据效率和泛化能力。

今年早些时候,LingBot-VA的模型权重、训练与推理代码已正式向社区开放。全球的研究人员与开发者均可通过Hugging Face和GitHub平台获取并下载使用。

论文链接:https://arxiv.org/abs/2601.21998

项目官方主页地址为:https://technology.robbyant.com/lingbot-va