Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: Wall-OSS-0.5 – 自变量机器人开源的国产具身智能模型
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AIGC 资讯 > Wall-OSS-0.5 – 自变量机器人开源的国产具身智能模型
AIGC 资讯

Wall-OSS-0.5 – 自变量机器人开源的国产具身智能模型

站外新闻
最近更新: 2026年6月7日 下午6:07
SHARE

Wall-OSS-0.5是什么

Wall-OSS-0.5是自变量机器人开源的国产具身智能模型,属于视觉-语言-动作(VLA)大模型,具备无需任务微调即可在真实机器人上部署的”零样本”能力。模型通过创新的Gradient-Bridge协同训练方法,将动作能力融入基础模型backbone,使机器人能直接执行搬运、分拣等17个真实任务,其中4个任务完成率超过80%。

阅读目录
  • Wall-OSS-0.5是什么
  • Wall-OSS-0.5的主要功能
  • Wall-OSS-0.5的技术原理
  • 如何使用Wall-OSS-0.5
  • Wall-OSS-0.5的核心优势
  • Wall-OSS-0.5的项目地址
  • Wall-OSS-0.5的同类竞品对比
  • Wall-OSS-0.5的应用场景

Wall-OSS-0.5

Wall-OSS-0.5的主要功能

  • 零样本真实机器人操作:预训练检查点可直接部署到物理硬件,无需针对特定任务微调即可执行抓取、排序、整理等操作,实现”预训练即可部署”。
  • 多形态统一适配:单个预训练检查点即可适配桌面双臂、移动操作等 20 多种机器人形态,打破传统模型需为每种硬件单独训练的局限。
  • 三目标协同训练:通过离散动作预测、多模态预测与连续流匹配三者互补优化,形成”梯度桥接”,让动作学习与视觉语言理解互不干扰、协同提升。
  • 混合专家架构(MoT):视觉-语言令牌由 VL Expert 路由处理,连续动作计算由 Action Expert 负责,联合注意力机制实现端到端梯度流动,兼顾语言理解与动作生成。
  • 视觉语言能力保持:动作训练不会侵蚀基础 VLM 能力,实体 grounding 能力提升 21.8 个百分点,通用视觉-语言理解与推理能力完整保留。
  • 高效微调适配:在 LeRobot 数据集上微调后,15 项真实机器人任务平均进度达 60.5%,领先同类模型 π0.5 达 17.5 个百分点。
  • 强泛化与长程执行:在 3 项未见过的任务(如变形物体操作)上依然保持高进度,支持多阶段连续操作(如绳索收紧、抹布折叠、果篮整理等长程任务)。

Wall-OSS-0.5的技术原理

  • 4B 参数 VLA 架构:基于 30 亿参数的 Qwen2.5-VL 视觉语言模型作为骨干,叠加动作生成组件,总参数量达 40 亿,实现视觉感知、语言理解与机器人动作生成的端到端统一。
  • 混合专家路由(MoT):采用 Mixture-of-Experts 架构,视觉-语言令牌通过 VL Expert 路由处理,连续动作计算通过独立的 Action Expert 处理,二者通过联合注意力机制实现端到端梯度流动,避免动作训练干扰语言理解。
  • 梯度桥接协同训练:创新性地将离散动作预测、多模态预测与连续流匹配(Flow Matching)三者作为互补优化目标进行协同训练,形成”梯度桥接”,使动作策略学习与视觉语言预训练知识相互增强而非冲突。
  • 连续流匹配动作生成:使用 Flow Matching 技术对连续动作空间进行建模,相比传统的离散化或回归方法,能够更精确地生成平滑、高维的机器人控制信号。
  • 预训练即部署设计:通过大规模异构数据预训练,使模型在预训练阶段就习得通用的物理操作先验,检查点可直接在真实机器人硬件上执行零样本推理,无需任务特定的微调后处理。
  • 大规模异构训练数据:覆盖 20 多种机器人形态,每轮训练包含超 100 万条真实机器人轨迹;同时融合 9000 万条多模态语料(含 1200 万实体桥接样本),实现约 60% 自采数据与 40% 开源数据的任务平衡采样。
  • 联合注意力与端到端优化:VL Expert 与 Action Expert 共享注意力计算图,确保语言指令、视觉场景与动作输出在特征层面深度耦合,梯度可跨模态双向传播。
  • 能力解耦保持机制:通过三目标协同与专家分离设计,动作训练不会侵蚀基础 VLM 能力,实体 grounding 能力提升 21.8 个百分点,同时完整保留通用视觉-语言理解与推理能力。

如何使用Wall-OSS-0.5

  • 环境准备:创建 Python 3.10 的 conda 环境,安装 PyTorch 等基础依赖,并确保安装 Flash Attention 2.7.4 及以上版本以加速推理。
  • 安装 LeRobot 库:克隆 Hugging Face 的 LeRobot 仓库,checkout 到指定兼容版本后执行 pip install -e . 完成安装。
  • 安装 Wall-X 工具链:克隆 wall-x 开源仓库,运行 git submodule update --init --recursive 拉取子模块后,执行安装命令完成工具链部署。
  • 下载预训练权重:从 Hugging Face(x-square-robot/wall-oss-0.5)下载官方发布的预训练模型检查点。
  • 配置机器人参数:根据目标机器人类型(如桌面双臂、移动操作等)设置自由度(DOF)配置、模型路径、数据路径及训练超参数。
  • 执行微调(可选):如需针对特定任务优化,在 LeRobot 格式的数据集上运行微调脚本(如 bash ./workspace/lerobot_example/run.sh)以提升任务表现。
  • 部署到真实硬件:加载预训练或微调后的检查点,在真实机器人硬件上执行零样本推理或微调后推理,直接输出可执行的机器人控制策略。

Wall-OSS-0.5的核心优势

  • 部署即用:区别于传统 VLA 模型必须微调后才能使用,预训练检查点直接产生可执行的机器人策略。
  • 高效适应:在 15 项真实机器人任务上微调后平均进度 60.5%,比 π0.5 的 43.0% 高出 17.5 个百分点。
  • 强泛化能力:在 3 项未见过的任务(如变形物体操作)上依然保持高进度,绳索收紧任务达 82%。
  • 视觉语言能力保持:动作训练不会侵蚀基础 VLM 能力,实体 grounding 能力提升 21.8 个百分点,通用 VL 能力完整保留。
  • 数据规模领先:覆盖 20+ 种机器人形态,每轮 100 万+ 轨迹,9000 万多模态样本。

Wall-OSS-0.5的项目地址

  • 项目地址:https://x2robot.com/oss#resources
  • Github仓库:https://github.com/X-Square-Robot/wall-x
  • 论文地址:https://x2robot.com/api/files/file/wall_oss_05.pdf

Wall-OSS-0.5的同类竞品对比

对比维度 Wall-OSS-0.5 π0.5 OpenVLA
开发机构 自变量机器人(X Square Robot) Physical Intelligence(PI) Stanford 等学术机构
参数规模 40 亿(3B Qwen2.5-VL 骨干) 未公开(基于 π0 架构扩展) 70 亿(LLaMA 2-7B 骨干)
核心架构 MoT 混合专家 + 梯度桥接协同训练 Transformer 分层推理 + 动作专家 Prismatic VLM(SigLIP + DINOv2 + LLaMA 2)
动作生成方式 离散 token 与连续流匹配协同优化 高层离散 token 自回归 + 低层流匹配去噪 将动作视为语言模型词汇表中的离散 token 预测
训练数据规模 20+ 种机器人形态,每轮 100 万+ 轨迹,9000 万多模态样本 网络数据 + 跨机器人经验 + 口头指令多源协同 Open X-Embodiment 数据集 97 万条轨迹
零样本部署能力 预训练检查点直接部署,17 项任务中 4 项进度超 80% 预训练后需后训练/微调,不直接支持零样本硬件部署 预训练模型需任务特定微调,不支持直接零样本部署
微调后性能 15 项真实任务平均进度 60.5%,领先 π0.5 达 17.5 个百分点 真实家庭环境任务成功率 60%-88%,复杂指令遵循率高 WidowX / Google Robot 多任务成功率领先 RT-2-X 16.5%
开源程度 完全开源(权重、训练代码、配方、消融实验) 研究发布,部分技术细节公开 完全开源(模型权重、代码、LoRA/量化微调方案)
核心创新点 梯度桥接实现预训练即部署,动作与 VL 能力协同增强不互损 开放世界泛化与层次化推理(高层语义规划 + 低层动作执行) 首个全面开源的通用 VLA,验证 VLM 直接微调生成动作的可行性
VLM 能力保持 实体 grounding 提升 21.8%,通用 VL 理解与推理能力完整保留 依赖网络数据维持语义理解,动作训练后需专门保持 基于预训练 VLM 微调,语言能力基线较高

Wall-OSS-0.5的应用场景

  • 家庭服务:积木排序、水果分类、抽屉整理、戒指堆叠等日常家务操作。
  • 柔性物体处理:绳索收紧、抹布折叠、插花等变形物体操作任务。
  • 工业装配:精密零件抓取、颜色分类、工具归位等重复性制造流程。
  • 双臂协作:需要双手配合完成的复杂装配、整理及长程组合动作。
  • 长程任务执行:多阶段连续操作,如果篮整理等多步骤需要持久注意力的任务。
谷歌发布GEO铁拳政策:AI Overview垃圾内容将遭降权、移除甚至全网封禁
乐鑫 ESP-Claw 开源:用自然语言对话定义物联网设备行为的 AI Agent 框架
GPT-4.5 通过图灵测试胜率73%超真人!AI如何学会‘完美撒谎’颠覆信任
YC总裁亲测开源GBrain:打造AI Agent永生记忆,万级文件知识图谱实战解析
国家发改委力挺!’蚂蚁阿福’用户破亿,AI+医疗普惠方案引爆行业
分享
Email 复制链接 打印
Share
上一篇 MiniMax M3 – MiniMax 推出的新一代 AI 模型
下一篇 MAI-Image-2.5 – 微软推出的旗舰级文生图模型
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

ForgeTrain – 面壁智能联合清华等开源的大模型预训练框架
AIGC 资讯
MAI-Image-2.5 – 微软推出的旗舰级文生图模型
AIGC 资讯
MiniMax M3 – MiniMax 推出的新一代 AI 模型
AIGC 资讯
Dubbing v2 – ElevenLabs 推出的 AI 配音模型
AIGC 资讯

相关推荐

AI 工具AIGC 资讯最新趋势

谷歌强推AI搜索遭反噬,DuckDuckGo下载量飙升30%:隐私搜索如何逆势崛起?

站外新闻
AI Overviews DuckDuckGo 用户选择权 谷歌AI搜索 隐私保护
AI 工具AIGC 资讯

Realtime TTS-2:Inworld AI 实时语音合成模型革新,多轮感知与跨语言控制引领下一代对话AI

站外新闻
Inworld AI Realtime TTS-2 多语言语音合成 实时语音合成 对话式AI
AI 工具AIGC 资讯最新趋势

Webwright 开源:微软发布代码驱动网页智能体,彻底告别传统点击模式

站外新闻
Playwright Web Agent 代码驱动 开源框架 微软 网页智能体
量子芯片科技感占位特色图
AI 工具AIGC 资讯

AI编程成本竟超人类程序员?Uber、微软预算告急,科技巨头紧急反思烧钱模式

站外新闻
AI编程 Token计费 Uber 微软
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AGI AI AI Agent AIGC AI商业化 AI大模型 AI安全 AI工具 AI搜索 AI智能体 AI生成内容 AI监管 AI绘画 AI编程 AI编程工具 AI编程智能体 AI芯片 AI视频 AI视频生成 AI设计 Anthropic chatgpt Claude Claude Code Claude Mythos Claude Opus 4.8 DeepSeek DuckDuckGo Gemini GPT-5.5 MCP协议 meta Midjourney MiniMax MoE MoE架构 NVIDIA openai OpenRouter Pika prompt SpaceX stable diffusion SWE-Bench xAI 世界模型 丛林 人工智能 人物 企业级AI 具身智能 命令行工具 图像生成模型 多模态 多模态大模型 大模型 大模型API 大模型应用 大语言模型 字节跳动 家居 小米 展台 建筑 开源 开源大模型 开源工具 开源框架 开源模型 强化学习 微软 支付宝 教程 早报 智能体 智能体编程 智谱AI 月之暗面 本地AI 海报设计 生成式AI 科大讯飞 科幻 端侧AI 端侧大模型 网络安全 腾讯混元 英伟达 苹果 视频生成模型 语音合成 谷歌 谷歌AI 赛博朋克 长上下文 阶跃星辰 阿里通义 阿里通义千问 风景
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.