Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: Wall-OSS-0.5 – 自变量机器人开源的国产具身智能模型
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AIGC 资讯 > Wall-OSS-0.5 – 自变量机器人开源的国产具身智能模型
AIGC 资讯

Wall-OSS-0.5 – 自变量机器人开源的国产具身智能模型

站外新闻
最近更新: 2026年6月7日 下午6:07
SHARE

Wall-OSS-0.5是什么

Wall-OSS-0.5是自变量机器人开源的国产具身智能模型,属于视觉-语言-动作(VLA)大模型,具备无需任务微调即可在真实机器人上部署的”零样本”能力。模型通过创新的Gradient-Bridge协同训练方法,将动作能力融入基础模型backbone,使机器人能直接执行搬运、分拣等17个真实任务,其中4个任务完成率超过80%。

阅读目录
  • Wall-OSS-0.5是什么
  • Wall-OSS-0.5的主要功能
  • Wall-OSS-0.5的技术原理
  • 如何使用Wall-OSS-0.5
  • Wall-OSS-0.5的核心优势
  • Wall-OSS-0.5的项目地址
  • Wall-OSS-0.5的同类竞品对比
  • Wall-OSS-0.5的应用场景

Wall-OSS-0.5

Wall-OSS-0.5的主要功能

  • 零样本真实机器人操作:预训练检查点可直接部署到物理硬件,无需针对特定任务微调即可执行抓取、排序、整理等操作,实现”预训练即可部署”。
  • 多形态统一适配:单个预训练检查点即可适配桌面双臂、移动操作等 20 多种机器人形态,打破传统模型需为每种硬件单独训练的局限。
  • 三目标协同训练:通过离散动作预测、多模态预测与连续流匹配三者互补优化,形成”梯度桥接”,让动作学习与视觉语言理解互不干扰、协同提升。
  • 混合专家架构(MoT):视觉-语言令牌由 VL Expert 路由处理,连续动作计算由 Action Expert 负责,联合注意力机制实现端到端梯度流动,兼顾语言理解与动作生成。
  • 视觉语言能力保持:动作训练不会侵蚀基础 VLM 能力,实体 grounding 能力提升 21.8 个百分点,通用视觉-语言理解与推理能力完整保留。
  • 高效微调适配:在 LeRobot 数据集上微调后,15 项真实机器人任务平均进度达 60.5%,领先同类模型 π0.5 达 17.5 个百分点。
  • 强泛化与长程执行:在 3 项未见过的任务(如变形物体操作)上依然保持高进度,支持多阶段连续操作(如绳索收紧、抹布折叠、果篮整理等长程任务)。

Wall-OSS-0.5的技术原理

  • 4B 参数 VLA 架构:基于 30 亿参数的 Qwen2.5-VL 视觉语言模型作为骨干,叠加动作生成组件,总参数量达 40 亿,实现视觉感知、语言理解与机器人动作生成的端到端统一。
  • 混合专家路由(MoT):采用 Mixture-of-Experts 架构,视觉-语言令牌通过 VL Expert 路由处理,连续动作计算通过独立的 Action Expert 处理,二者通过联合注意力机制实现端到端梯度流动,避免动作训练干扰语言理解。
  • 梯度桥接协同训练:创新性地将离散动作预测、多模态预测与连续流匹配(Flow Matching)三者作为互补优化目标进行协同训练,形成”梯度桥接”,使动作策略学习与视觉语言预训练知识相互增强而非冲突。
  • 连续流匹配动作生成:使用 Flow Matching 技术对连续动作空间进行建模,相比传统的离散化或回归方法,能够更精确地生成平滑、高维的机器人控制信号。
  • 预训练即部署设计:通过大规模异构数据预训练,使模型在预训练阶段就习得通用的物理操作先验,检查点可直接在真实机器人硬件上执行零样本推理,无需任务特定的微调后处理。
  • 大规模异构训练数据:覆盖 20 多种机器人形态,每轮训练包含超 100 万条真实机器人轨迹;同时融合 9000 万条多模态语料(含 1200 万实体桥接样本),实现约 60% 自采数据与 40% 开源数据的任务平衡采样。
  • 联合注意力与端到端优化:VL Expert 与 Action Expert 共享注意力计算图,确保语言指令、视觉场景与动作输出在特征层面深度耦合,梯度可跨模态双向传播。
  • 能力解耦保持机制:通过三目标协同与专家分离设计,动作训练不会侵蚀基础 VLM 能力,实体 grounding 能力提升 21.8 个百分点,同时完整保留通用视觉-语言理解与推理能力。

如何使用Wall-OSS-0.5

  • 环境准备:创建 Python 3.10 的 conda 环境,安装 PyTorch 等基础依赖,并确保安装 Flash Attention 2.7.4 及以上版本以加速推理。
  • 安装 LeRobot 库:克隆 Hugging Face 的 LeRobot 仓库,checkout 到指定兼容版本后执行 pip install -e . 完成安装。
  • 安装 Wall-X 工具链:克隆 wall-x 开源仓库,运行 git submodule update --init --recursive 拉取子模块后,执行安装命令完成工具链部署。
  • 下载预训练权重:从 Hugging Face(x-square-robot/wall-oss-0.5)下载官方发布的预训练模型检查点。
  • 配置机器人参数:根据目标机器人类型(如桌面双臂、移动操作等)设置自由度(DOF)配置、模型路径、数据路径及训练超参数。
  • 执行微调(可选):如需针对特定任务优化,在 LeRobot 格式的数据集上运行微调脚本(如 bash ./workspace/lerobot_example/run.sh)以提升任务表现。
  • 部署到真实硬件:加载预训练或微调后的检查点,在真实机器人硬件上执行零样本推理或微调后推理,直接输出可执行的机器人控制策略。

Wall-OSS-0.5的核心优势

  • 部署即用:区别于传统 VLA 模型必须微调后才能使用,预训练检查点直接产生可执行的机器人策略。
  • 高效适应:在 15 项真实机器人任务上微调后平均进度 60.5%,比 π0.5 的 43.0% 高出 17.5 个百分点。
  • 强泛化能力:在 3 项未见过的任务(如变形物体操作)上依然保持高进度,绳索收紧任务达 82%。
  • 视觉语言能力保持:动作训练不会侵蚀基础 VLM 能力,实体 grounding 能力提升 21.8 个百分点,通用 VL 能力完整保留。
  • 数据规模领先:覆盖 20+ 种机器人形态,每轮 100 万+ 轨迹,9000 万多模态样本。

Wall-OSS-0.5的项目地址

  • 项目地址:https://x2robot.com/oss#resources
  • Github仓库:https://github.com/X-Square-Robot/wall-x
  • 论文地址:https://x2robot.com/api/files/file/wall_oss_05.pdf

Wall-OSS-0.5的同类竞品对比

对比维度 Wall-OSS-0.5 π0.5 OpenVLA
开发机构 自变量机器人(X Square Robot) Physical Intelligence(PI) Stanford 等学术机构
参数规模 40 亿(3B Qwen2.5-VL 骨干) 未公开(基于 π0 架构扩展) 70 亿(LLaMA 2-7B 骨干)
核心架构 MoT 混合专家 + 梯度桥接协同训练 Transformer 分层推理 + 动作专家 Prismatic VLM(SigLIP + DINOv2 + LLaMA 2)
动作生成方式 离散 token 与连续流匹配协同优化 高层离散 token 自回归 + 低层流匹配去噪 将动作视为语言模型词汇表中的离散 token 预测
训练数据规模 20+ 种机器人形态,每轮 100 万+ 轨迹,9000 万多模态样本 网络数据 + 跨机器人经验 + 口头指令多源协同 Open X-Embodiment 数据集 97 万条轨迹
零样本部署能力 预训练检查点直接部署,17 项任务中 4 项进度超 80% 预训练后需后训练/微调,不直接支持零样本硬件部署 预训练模型需任务特定微调,不支持直接零样本部署
微调后性能 15 项真实任务平均进度 60.5%,领先 π0.5 达 17.5 个百分点 真实家庭环境任务成功率 60%-88%,复杂指令遵循率高 WidowX / Google Robot 多任务成功率领先 RT-2-X 16.5%
开源程度 完全开源(权重、训练代码、配方、消融实验) 研究发布,部分技术细节公开 完全开源(模型权重、代码、LoRA/量化微调方案)
核心创新点 梯度桥接实现预训练即部署,动作与 VL 能力协同增强不互损 开放世界泛化与层次化推理(高层语义规划 + 低层动作执行) 首个全面开源的通用 VLA,验证 VLM 直接微调生成动作的可行性
VLM 能力保持 实体 grounding 提升 21.8%,通用 VL 理解与推理能力完整保留 依赖网络数据维持语义理解,动作训练后需专门保持 基于预训练 VLM 微调,语言能力基线较高

Wall-OSS-0.5的应用场景

  • 家庭服务:积木排序、水果分类、抽屉整理、戒指堆叠等日常家务操作。
  • 柔性物体处理:绳索收紧、抹布折叠、插花等变形物体操作任务。
  • 工业装配:精密零件抓取、颜色分类、工具归位等重复性制造流程。
  • 双臂协作:需要双手配合完成的复杂装配、整理及长程组合动作。
  • 长程任务执行:多阶段连续操作,如果篮整理等多步骤需要持久注意力的任务。
阿里开源Logics-Parsing:基于Qwen2.5的端到端文档解析模型,PDF转HTML一步到位
腾讯HunyuanVideo 1.5开源:8.3B参数模型,14G显存流畅生成高清视频
MT-TransformerEngine – 摩尔线程开源的高效训练与推理优化框架
VimRAG重磅开源:阿里通义首创多模态记忆图,企业级图文视频RAG精度飙升50%
微软 Win11 重磅 AI 升级曝光:任务栏集成 Copilot 助手,图片表格一键转 Excel
分享
Email 复制链接 打印
Share
上一篇 MiniMax M3 – MiniMax 推出的新一代 AI 模型
下一篇 SenseNova-U1-8B-MoT-Infographic – 商汤科技开源的信息图增强模型
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

华为盘古大模型5.5震撼发布:7180亿参数Ultra MoE领衔,五大模型重塑产业智能
AI 工具 AIGC 资讯
腾讯清华重磅开源MindOmni:强化学习驱动的多模态推理生成模型,重塑视觉AI边界
AI 工具 AIGC 资讯
联影智能发布‘元智’医疗大模型:多模态融合,一次CT扫描诊断37种疾病
AI 工具 AIGC 资讯
Dive3D重磅发布:北大x小红书联手破解文本生成3D多样性难题,SIM损失取代KL散度实现模式突破
AI 工具 AIGC 资讯

相关推荐

AIGC 资讯

Pixel3DMM – 慕尼黑联合伦敦大学等推出的3D人脸重建框架

站外新闻
AIGC 资讯

MagicMirror – 开源的一键 AI 换脸、换发型和穿搭应用

站外新闻
AI 工具AIGC 资讯

Step 3.7 Flash 重磅开源发布:198B MoE架构实现400TPS推理,Agent效率与可靠性新时代已至

站外新闻
Agent MoE架构 Step 3.7 Flash 开源模型
AI 工具AIGC 资讯

昆仑万维Matrix-Game 3.0发布:720p@40FPS实时交互世界模型,开启AI游戏新纪元

站外新闻
AI游戏生成 Matrix-Game 3.0 实时交互世界模型 扩散模型 昆仑万维
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI大模型 AI安全 AI工具 AI智能体 AI绘画 AI编程 AI编程助手 AI编程工具 AI编程模型 AI视频生成 AI音乐生成 Anthropic chatgpt Claude Claude Code DeepSeek Gemini GPT-5.3 Instant GPT-5.3-Codex-Spark GPT-5.4 MCP协议 meta Midjourney MiniMax MoE架构 MoE模型 openai prompt Qwen3 RAG SWE-Bench xAI 上海人工智能实验室 世界模型 人工智能 人物 代码生成 企业级AI 全模态大模型 具身智能 命令行工具 图像生成 图像生成模型 多智能体 多模态 多模态AI 多模态大模型 多模态模型 大模型 大模型应用 大语言模型 字节跳动 小红书 展台 开源 开源AI 开源AI工具 开源大模型 开源工具 开源平台 开源框架 开源模型 开源项目 强化学习 微软 扩散模型 教程 数字人 文本转语音 早报 昆仑万维 智谱AI 月之暗面 清华大学 知识管理 科大讯飞 端侧AI 美团 腾讯 腾讯混元 自然语言处理 英伟达 蚂蚁集团 视觉语言模型 视频生成 视频生成模型 语音合成 谷歌 谷歌AI 谷歌DeepMind 通义千问 阶跃星辰 阿里巴巴 阿里通义 面壁智能 香港大学
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.