💡 站外导读:具身智能领域长期面临一个核心困境:模型的真实泛化能力难以验证,大多数成果依赖针对特定任务的“考前微调”,导致难以区分“通用大脑”与“专用脚本”。这限制了通用机器人走向复杂真实环境的步伐。2026年5月,自变量机器人公司开源的Wall-OSS-0.5模型,正是为了打破这一范式而生。它旨在通过大规模预训练,在未经微调的“零样本”条件下,直接驱动真实机器人完成多样化任务,为行业提供一个可复现、可验证的全新基座。
2026年5月,国内具身智能领域迎来重要技术突破。自变量机器人(X Square Robot)正式宣布开源其最新研发的 VLA(视觉-语言-动作)模型 Wall-OSS-0.5,该模型打破了行业长期以来依赖“考前微调”的传统范式,实现了未经任务特定微调即可在真实机器人上进行“零样本”部署的突破。

行业破局:从“定制脚本”到“通用大脑”
在具身智能领域,一直存在一个不言而喻的难题:绝大多数模型在公开其测试表现前,都离不开针对特定任务的大规模微调。这使得人们很难判断,一个模型究竟是拥有了类似“通用大脑”的广泛适应能力,还是仅仅学会了一套针对特定工作的“操作流程”。
自变量机器人通过 Wall-OSS-0.5给出了全新的回答。该模型在超过20种机器人形态、百万条轨迹数据以及9000万条多模态语料库上完成预训练。在不对其进行任何针对性任务微调的情况下,团队直接将其部署在真实机器人上,测试涵盖了语义理解、刚性/柔性物体操作及精细化操作等17个挑战性任务。
核心亮点:预训练模型的性能飞跃
测试数据显示,Wall-OSS-0.5的表现远超预期:
-
零样本部署的显著能力:一个经过40万步预训练的模型版本,在未经任何微调的情况下,于17个零样本任务中,有4项得分突破了80分(满分100)。尤其值得关注的是,在预训练数据中从未出现过的“绳子收紧”这类柔性物体操作任务上,该模型也拿到了82分的高分。
-
微调上限显著提升: 在需要针对性微调的场景中,Wall-OSS-0.5展现了极高的学习效率。对比行业标杆 π0.5,在同等数据预算下,Wall-OSS-0.5的平均任务进度领先17.5分,并在精细化操作任务(如精密插入)中表现出近乎一个数量级的成功率提升。
-
“能力增强”而非衰退:实验结果表明,即使经过高强度的动作任务训练,该模型的多模态感知能力并未下降,相反,其视觉定位与逻辑推理能力得到了“重塑性”的提升。
四项关键技术构建护城河
Wall-OSS-0.5的出色表现得益于团队的四项底层技术创新:
-
梯度桥接技术:该技术通过将动作监督信号直接强制注入预训练模型的骨干网络,成功在底层特征表示层面,将“看”、“说”和“动”三种能力统一起来。
-
视觉对齐 Tokenizer: 确保每一个动作 Token 都承载了明确的视觉语义,赋予了模型真正的“物理含义”推演能力。
-
动作空间监督:训练策略专注于轨迹的整体结构,而非纠缠于琐碎的高频动作细节,这极大地提高了模型的收敛速度与效率。
-
DMuon 分布式优化: 研发团队通过底层系统优化,将异构计算开销降低了100倍,使得这种复杂的训练配方在大规模集群上具备了实际落地可能。
具身智能的里程碑
目前,自变量机器人已将其Wall-OSS-0.5模型的相关权重、训练代码以及数据集接口进行了全栈开源。
行业分析人士指出,Wall-OSS-0.5的出现不仅是单纯的模型更新,它重新定义了具身智能的开发范式,即从单纯追求“单项任务的成功率”转向“通用物理直觉的迁移”。对于广大研究者和开发者而言,这标志着具身智能基座模型正式进入“可复现、可验证、可挑战”的新阶段,将极大地加速通用机器人在复杂真实环境中的落地步伐。
📝 站长洞察 (Editor’s Insight)
Wall-OSS-0.5的开源,远不止于发布一个新模型。它直击了具身智能产业化的“阿喀琉斯之踵”——评估的可靠性与泛化的本质。当行业从“Demo驱动”转向“落地驱动”,一个关键问题浮现:模型的性能提升究竟源于场景适配,还是底层认知的涌现?该模型通过在预训练阶段即统一看、说、动(VLA)的表征,并证明其在零样本下的初步物理直觉,为我们提供了一个观测通用智能的早期窗口。其四大技术,尤其是“梯度桥接”和“视觉对齐Tokenizer”,代表了将语言大模型的成功范式深度迁移至物理世界的关键探索。这标志着具身智能正从“任务特化”迈入“能力基座”时代,研发竞争将从单一任务成功率,升级为对“通用物理直觉”的构建与评测。对于中国AI产业而言,这不仅是一项技术突破,更是在定义下一代人机交互与自动化范式的基础话语权竞争。
