Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: Qwen-VLA – 阿里通义推出的通用视觉-语言-动作模型
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AIGC 资讯 > Qwen-VLA – 阿里通义推出的通用视觉-语言-动作模型
AIGC 资讯

Qwen-VLA – 阿里通义推出的通用视觉-语言-动作模型

站外新闻
最近更新: 2026年6月7日 下午6:05
SHARE

Qwen-VLA是什么

Qwen-VLA 是通义实验室推出的通用视觉-语言-动作模型,以 Qwen3.5-4B 为视觉语言主干,搭配 1.15B 参数的 DiT 动作解码器。模型通过统一动作轨迹预测框架,将操作、导航、轨迹预测三大任务统一到同一模型;借助本体感知提示条件化,仅需修改文本描述即可适配 11 种机器人平台。模型在多项基准中超越专用模型,零样本动态操作成功率达 26.6%,推动具身智能从技能专家走向通用行动者。

阅读目录
  • Qwen-VLA是什么
  • Qwen-VLA的主要功能
  • Qwen-VLA的技术原理
  • 如何使用Qwen-VLA
  • Qwen-VLA的核心优势
  • Qwen-VLA的项目地址
  • Qwen-VLA的同类竞品对比
  • Qwen-VLA的应用场景

Qwen-VLA

Qwen-VLA的主要功能

  • 跨任务统一控制:单一模型同时处理操作、导航、轨迹预测三大任务,打破传统专用模型割裂局面。
  • 跨本体即插即用:支持 WidowX、Franka Panda、Mobile ALOHA、Galaxea R1 等 11种机器人平台,覆盖单臂/双臂/移动底座等配置,仅需修改文本提示可切换。
  • 零样本开放世界泛化:在未见过的颜色、实例、位置、背景、指令五个分布外维度上保持高成功率,无需针对新环境重新训练。
  • 动态物体操作:无需动态训练数据,零样本操作运动中的物体,DOMINO 基准成功率 26.6% 超越专用微调模型。
  • 长时程导航:任务自适应 token 分配机制,为长指令保留更丰富的 episode 历史,VLN-CE 基准 R2R 57.5%、RxR 59.6% 超越专用导航模型。

Qwen-VLA的技术原理

  • 统一动作轨迹预测框架:传统具身智能将操作、导航、轨迹预测拆分为独立模型,导致跨任务迁移受限。Qwen-VLA 发现三者计算结构同构——均为”观察场景 + 理解指令 → 预测未来动作序列”,因此统一建模。模型将 Qwen3.5-4B 视觉语言主干与 1.15B DiT 动作解码器结合,不同任务数据在同一训练中共同监督,视觉定位和空间推理能力跨任务迁移。
  • 本体感知提示条件化:面对机器人硬件差异,传统方案为每种本体定制独立分支。Qwen-VLA 将硬件差异编码为结构化文本提示作为唯一平台接口,提示包含机器人型号、臂数、关节配置、控制频率等信息,交由 VLM 处理。骨干网络隐藏状态与噪声动作块拼接后送入 DiT 解码器,推理时仅替换提示可切换平台。
  • 文本到动作 DiT 预训练(T2A):训练面临 VLM 已预训练而 DiT 从零初始化的问题。解决方案:冻结 VLM,单独训练 DiT,且不提供图像仅输入文本。让 DiT 先学会动作分布、文本-动作对齐、本体条件化。此阶段计算代价仅为多模态训练的 1/10。消融实验验证:20%合成+80%真实数据最佳(71.1%),无图像反而优于有图像,2,000步达峰值。

如何使用Qwen-VLA

  • 环境准备:从 GitHub 克隆官方仓库并安装依赖,下载预训练权重。
  • 模型推理:根据机器人硬件配置生成本体提示,将图像、指令和提示输入模型,获取动作序列并发送给机器人执行,循环迭代实现闭环控制。
  • 模型训练(进阶):按 T2A → CPT → SFT → RL 四阶段流程训练,逐步提升动作生成、视觉感知、任务适配和闭环优化能力。
  • 跨平台部署:切换机器人时仅需修改提示中的硬件描述字段,适配新本体时采集数据在 SFT 阶段微调即可。

Qwen-VLA的核心优势

  • 通用性超越专用性:单一通用模型在 5 个仿真基准中的 3 个超越最佳专用模型。
  • 轻量跨本体适配:仅需修改文本提示,无需为每种机器人重新训练模型。
  • 高效预训练策略:T2A 阶段计算成本仅为多模态训练的 1/10,避免干扰 VLM 预训练成果。
  • 强 OOD 泛化能力:真实世界平均 OOD 成功率 76.9%,超越 π₀.₅+35.4pp及无预训练变体+40.7pp。
  • 动态场景零样本突破:DOMINO 基准零样本 26.6%,超越专用微调模型 PUMA 17.2%。

Qwen-VLA的项目地址

  • 项目官网:https://qwen.ai/blog?id=qwenvla
  • GitHub仓库:https://github.com/QwenLM/Qwen-VLA
  • arXiv技术论文:https://arxiv.org/pdf/2605.30280

Qwen-VLA的同类竞品对比

维度 Qwen-VLA π₀.₅ (Physical Intelligence)
架构底座 Qwen3.5-4B VLM + 1.15B DiT 解码器 基于流匹配的 VLA 架构
任务统一性 操作+导航+轨迹预测三任务统一 专注操作任务
跨本体方式 文本提示条件化,无需改架构 需针对不同本体微调或适配
支持平台数 11 种(WidowX、ALOHA、Franka 等) 主要支持少量主流平台
预训练策略 T2A 无视觉预训练(计算成本 1/10) 端到端多模态联合训练
动态操作 零样本 26.6%(DOMINO) 零样本 7.5%
OOD 泛化 真实世界平均 76.9% 41.5%
导航能力 VLN-CE R2R 57.5%,超越专用导航模型 不支持
开源程度 论文+代码+权重全开源 部分开源
训练效率 T2A 阶段计算成本为多模态 1/10 标准多模态训练成本

Qwen-VLA的应用场景

  • 多任务工业机器人:同一模型在装配线上完成抓取、搬运、导航至不同工位等异构任务,无需为每个任务单独部署模型。
  • 服务机器人跨场景部署:家用机器人在厨房执行操作、客厅自主导航、走廊规划轨迹,无缝切换任务类型。
  • 科研教育平台:研究人员无需为每种机器人重新训练模型,仅需修改文本提示即可在新硬件平台上快速验证算法。
  • 动态环境操作:物流仓储中抓取传送带上的运动包裹,无需针对动态场景重新采集训练数据。
  • 长时程复杂指令跟随:博物馆导览机器人执行”先去A展厅拍照,绕过人群去B展厅”等多步骤长指令任务。
GPT‑5.4 – OpenAI推出面向专业工作的旗舰AI模型
2026年6月15日
GPT‑5.3‑Codex‑Spark – OpenAI推出的轻量级编程模型
ToddlerBot – 斯坦福大学开源的机器学习与人形机器人平台
美团开源EvoCUA:56.7%准确率登顶,多模态AI代理如何自动化你的电脑操作?
分享
Email 复制链接 打印
Share
上一篇 Cosmos 3 – 英伟达开源的全模态物理 AI 基础大模型
下一篇 Hermes Desktop – Hermes Agent 的桌面应用,开箱即用
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

华为盘古大模型5.5震撼发布:7180亿参数Ultra MoE领衔,五大模型重塑产业智能
AI 工具 AIGC 资讯
腾讯清华重磅开源MindOmni:强化学习驱动的多模态推理生成模型,重塑视觉AI边界
AI 工具 AIGC 资讯
联影智能发布‘元智’医疗大模型:多模态融合,一次CT扫描诊断37种疾病
AI 工具 AIGC 资讯
Dive3D重磅发布:北大x小红书联手破解文本生成3D多样性难题,SIM损失取代KL散度实现模式突破
AI 工具 AIGC 资讯

相关推荐

AIGC 资讯

R1-Omni – 阿里通义开源的全模态大语言模型

站外新闻
AI 工具AIGC 资讯

小红书开源FireRed-Image-Edit:SOTA级图像编辑模型,文本引导编辑、老照片修复、虚拟试穿一步到位

站外新闻
AIGC 图像编辑 小红书 开源模型 扩散模型
AI 工具AIGC 资讯

Kimi K2系列API正式下线:详解停服影响、用户迁移指南与K2.6新版本核心优势

站外新闻
AIGC Kimi K2 大模型API 月之暗面 模型迁移
AI 工具AIGC 资讯

腾讯ARC重磅发布AudioStory:一句话生成叙事音频,AI配音、有声书、游戏音效全搞定

站外新闻
AIGC AudioStory 腾讯ARC 视频配音 音频生成模型
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI大模型 AI安全 AI工具 AI智能体 AI绘画 AI编程 AI编程助手 AI编程工具 AI编程模型 AI视频生成 AI音乐生成 Anthropic chatgpt Claude Claude Code DeepSeek Gemini GPT-5.3 Instant GPT-5.3-Codex-Spark GPT-5.4 MCP协议 meta Midjourney MiniMax MoE架构 MoE模型 openai prompt Qwen3 RAG SWE-Bench xAI 上海人工智能实验室 世界模型 人工智能 人物 代码生成 企业级AI 全模态大模型 具身智能 命令行工具 图像生成 图像生成模型 多智能体 多模态 多模态AI 多模态大模型 多模态模型 大模型 大模型应用 大语言模型 字节跳动 小红书 展台 开源 开源AI 开源AI工具 开源大模型 开源工具 开源平台 开源框架 开源模型 开源项目 强化学习 微软 扩散模型 教程 数字人 文本转语音 早报 昆仑万维 智谱AI 月之暗面 清华大学 知识管理 科大讯飞 端侧AI 美团 腾讯 腾讯混元 自然语言处理 英伟达 蚂蚁集团 视觉语言模型 视频生成 视频生成模型 语音合成 谷歌 谷歌AI 谷歌DeepMind 通义千问 阶跃星辰 阿里巴巴 阿里通义 面壁智能 香港大学
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.