机器人告别逐帧学动作！全球首个事件级具身智能世界模型WALL-WM重磅发布

💡 站外导读：当前机器人训练普遍采用逐帧填空方式，导致机器人在场景微调时极易失败，缺乏泛化能力。这一痛点制约了机器人理解与执行任务的能力发展，限制了其在真实复杂环境中的应用。行业亟需突破传统视觉-语言-动作模型的局限，实现更高级别的任务理解与规划。

5月29日，自变量机器人团队正式发布了全球首个基于“事件级预测”的具身智能世界模型WALL-WM。该模型打破了传统具身大模型按时间帧机械学习动作的局限，将世界模型的预测单位彻底切换为语义事件，标志着机器人理解与执行任务的能力迈向了全新阶段。

如今，具身智能领域的主流视觉-语言-动作（VLA）模型，大多遵循一个固定套路：看一眼当前画面，接收一条指令，然后预测出一连串预设长度的动作序列。这种类似于‘一帧一帧填空’的训练方法，看似精细，实则容易让机器人陷入‘只见树木，不见森林’的困境——它们可能学会了如何精确地挪动几厘米，却常常忘记了动作背后的根本目标。于是，一旦任务场景稍有变化，比如换个杯子或换张桌子，机器人就会因为缺乏举一反三的能力而频频‘失灵’。针对这一痛点，自变量团队在其学术研究中提出了深刻见解：文本、视觉和动作这三类信息，在现实世界中本就拥有各自独特的时间节奏和几何结构。如果硬要将它们塞进同一个共享空间里强行对齐，反而会破坏模型从海量数据中预训练得来的珍贵几何先验知识。

针对这一行业痛点，WALL-WM世界模型开创性地引入了“以事件为中心”的训练与执行机制。它将机器人的复杂任务根据动作边界切分为诸如伸手、抓取、移位等具有明确语义的事件关节。在实际运行中，模型不再死板地推算下一帧画面，而是先对“下一个事件会导致世界发生何种变化”进行超前预演，随后再将这种视觉变化精准翻译为机械臂的运动轨迹。

为了确保这套创新架构能在真实、复杂的物理环境中稳健运行，自变量机器人团队在工程实现上下了硬功夫，进行了一系列深度重构。系统设计极为精巧：它支持在同一个基础模型权重之上，灵活切换两种工作模式——既可运行输出可变长度动作序列的‘事件模式’，也能进行需要实时闭环控制的‘统一模式’。更关键的是，团队让视频模型与动作模型实现了‘单向耦合、分工生长’，这种设计有效防止了互联网视频中蕴含的宝贵动态规律，被机器人自身的动作数据过早地带偏或淹没。此外，为了让AI能更好地理解多摄像头捕捉到的空间信息，模型中引入了视锥掩码与管状掩码机制，迫使系统建立起跨视角的真实三维几何对应关系。而在决策响应速度这一关键指标上，团队开发了创新的‘阶梯式思维链解码’技术，它在保持决策逻辑清晰可解释的同时，显著降低了解码过程的延迟。

从支撑该模型长出动作能力的“数据金字塔”来看，团队同样构建了极其严密的系统工程。底层依托百万级网络通用视频补足视觉先验，顶层则聚焦真机接管与纠错数据。配合四级层级化标注、双聚类采样、分布式“Muon”训练系统以及部署端的FP8量化，WALL-WM不仅在具身视频生成质量和三维空间感知等多项指标上全面领跑，更在真机Core15L1基准测试的泛化场景中取得了极为优秀的任务完成分数。目前，该项目的开源代码及主页已正式对外公开。

📝 站长洞察 (Editor’s Insight)

WALL-WM模型的发布标志着具身智能从‘机械模仿’向‘理解意图’的关键跃迁。其核心创新在于将预测单位从物理帧提升至语义事件，这类似于人类先规划动作阶段再执行的认知过程。这种架构有望破解机器人训练中的‘脆弱泛化’难题，为机器人进入非结构化真实场景扫清障碍。结合其视频与动作模型解耦的工程思路，以及金字塔数据体系，展示了从学术到产业落地的系统化思考。未来，这类事件级模型可能成为通用机器人的标准‘思维底座’，推动自动驾驶、工业机器人等领域产生范式变革。

机器人告别逐帧学动作！全球首个事件级具身智能世界模型WALL-WM重磅发布

📝 站长洞察 (Editor’s Insight)

发表评价取消回复

最近更新

1100 名AI员工联名上书华盛顿：是时候给AI开发踩刹车了

OpenAI开源Codex安全扫描工具，把漏洞检测塞进开发者命令行

Anthropic 披露 Claude Mythos 破译两项加密算法，60小时攻破后量子候选方案

360发布企业智能体平台“纳米Work”，首批用户获1亿Token试用额度

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

Support

📝 站长洞察 (Editor’s Insight)

发表评价 取消回复

最近更新

相关推荐

发表评价取消回复