2026年5月,国内具身智能领域迎来重要技术突破。自变量机器人(X Square Robot)正式宣布开源其最新研发的 VLA(视觉-语言-动作)模型 Wall-OSS-0.5,该模型打破了行业长期以来依赖“考前微调”的传统范式,实现了未经任务特定微调即可在真实机器人上进行“零样本”部署的突破。

大模型 元宇宙 (1)

行业破局:从“定制脚本”到“通用大脑”

在具身智能领域,一直存在一个不言而喻的难题:绝大多数模型在公开其测试表现前,都离不开针对特定任务的大规模微调。这使得人们很难判断,一个模型究竟是拥有了类似“通用大脑”的广泛适应能力,还是仅仅学会了一套针对特定工作的“操作流程”。

自变量机器人通过 Wall-OSS-0.5给出了全新的回答。该模型在超过20种机器人形态、百万条轨迹数据以及9000万条多模态语料库上完成预训练。在不对其进行任何针对性任务微调的情况下,团队直接将其部署在真实机器人上,测试涵盖了语义理解、刚性/柔性物体操作及精细化操作等17个挑战性任务。

核心亮点:预训练模型的性能飞跃

测试数据显示,Wall-OSS-0.5的表现远超预期:

  • 零样本部署的显著能力:一个经过40万步预训练的模型版本,在未经任何微调的情况下,于17个零样本任务中,有4项得分突破了80分(满分100)。尤其值得关注的是,在预训练数据中从未出现过的“绳子收紧”这类柔性物体操作任务上,该模型也拿到了82分的高分。

  • 微调上限显著提升: 在需要针对性微调的场景中,Wall-OSS-0.5展现了极高的学习效率。对比行业标杆 π0.5,在同等数据预算下,Wall-OSS-0.5的平均任务进度领先17.5分,并在精细化操作任务(如精密插入)中表现出近乎一个数量级的成功率提升。

  • “能力增强”而非衰退:实验结果表明,即使经过高强度的动作任务训练,该模型的多模态感知能力并未下降,相反,其视觉定位与逻辑推理能力得到了“重塑性”的提升。

四项关键技术构建护城河

Wall-OSS-0.5的出色表现得益于团队的四项底层技术创新:

  1. 梯度桥接技术:该技术通过将动作监督信号直接强制注入预训练模型的骨干网络,成功在底层特征表示层面,将“看”、“说”和“动”三种能力统一起来。

  2. 视觉对齐 Tokenizer: 确保每一个动作 Token 都承载了明确的视觉语义,赋予了模型真正的“物理含义”推演能力。

  3. 动作空间监督:训练策略专注于轨迹的整体结构,而非纠缠于琐碎的高频动作细节,这极大地提高了模型的收敛速度与效率。

  4. DMuon 分布式优化: 研发团队通过底层系统优化,将异构计算开销降低了100倍,使得这种复杂的训练配方在大规模集群上具备了实际落地可能。

具身智能的里程碑

目前,自变量机器人已将其Wall-OSS-0.5模型的相关权重、训练代码以及数据集接口进行了全栈开源。

行业分析人士指出,Wall-OSS-0.5的出现不仅是单纯的模型更新,它重新定义了具身智能的开发范式,即从单纯追求“单项任务的成功率”转向“通用物理直觉的迁移”。对于广大研究者和开发者而言,这标志着具身智能基座模型正式进入“可复现、可验证、可挑战”的新阶段,将极大地加速通用机器人在复杂真实环境中的落地步伐。