Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: Qwen-VLA – 阿里通义推出的通用视觉-语言-动作模型
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AIGC 资讯 > Qwen-VLA – 阿里通义推出的通用视觉-语言-动作模型
AIGC 资讯

Qwen-VLA – 阿里通义推出的通用视觉-语言-动作模型

站外新闻
最近更新: 2026年6月7日 下午6:05
SHARE

Qwen-VLA是什么

Qwen-VLA 是通义实验室推出的通用视觉-语言-动作模型,以 Qwen3.5-4B 为视觉语言主干,搭配 1.15B 参数的 DiT 动作解码器。模型通过统一动作轨迹预测框架,将操作、导航、轨迹预测三大任务统一到同一模型;借助本体感知提示条件化,仅需修改文本描述即可适配 11 种机器人平台。模型在多项基准中超越专用模型,零样本动态操作成功率达 26.6%,推动具身智能从技能专家走向通用行动者。

阅读目录
  • Qwen-VLA是什么
  • Qwen-VLA的主要功能
  • Qwen-VLA的技术原理
  • 如何使用Qwen-VLA
  • Qwen-VLA的核心优势
  • Qwen-VLA的项目地址
  • Qwen-VLA的同类竞品对比
  • Qwen-VLA的应用场景

Qwen-VLA

Qwen-VLA的主要功能

  • 跨任务统一控制:单一模型同时处理操作、导航、轨迹预测三大任务,打破传统专用模型割裂局面。
  • 跨本体即插即用:支持 WidowX、Franka Panda、Mobile ALOHA、Galaxea R1 等 11种机器人平台,覆盖单臂/双臂/移动底座等配置,仅需修改文本提示可切换。
  • 零样本开放世界泛化:在未见过的颜色、实例、位置、背景、指令五个分布外维度上保持高成功率,无需针对新环境重新训练。
  • 动态物体操作:无需动态训练数据,零样本操作运动中的物体,DOMINO 基准成功率 26.6% 超越专用微调模型。
  • 长时程导航:任务自适应 token 分配机制,为长指令保留更丰富的 episode 历史,VLN-CE 基准 R2R 57.5%、RxR 59.6% 超越专用导航模型。

Qwen-VLA的技术原理

  • 统一动作轨迹预测框架:传统具身智能将操作、导航、轨迹预测拆分为独立模型,导致跨任务迁移受限。Qwen-VLA 发现三者计算结构同构——均为”观察场景 + 理解指令 → 预测未来动作序列”,因此统一建模。模型将 Qwen3.5-4B 视觉语言主干与 1.15B DiT 动作解码器结合,不同任务数据在同一训练中共同监督,视觉定位和空间推理能力跨任务迁移。
  • 本体感知提示条件化:面对机器人硬件差异,传统方案为每种本体定制独立分支。Qwen-VLA 将硬件差异编码为结构化文本提示作为唯一平台接口,提示包含机器人型号、臂数、关节配置、控制频率等信息,交由 VLM 处理。骨干网络隐藏状态与噪声动作块拼接后送入 DiT 解码器,推理时仅替换提示可切换平台。
  • 文本到动作 DiT 预训练(T2A):训练面临 VLM 已预训练而 DiT 从零初始化的问题。解决方案:冻结 VLM,单独训练 DiT,且不提供图像仅输入文本。让 DiT 先学会动作分布、文本-动作对齐、本体条件化。此阶段计算代价仅为多模态训练的 1/10。消融实验验证:20%合成+80%真实数据最佳(71.1%),无图像反而优于有图像,2,000步达峰值。

如何使用Qwen-VLA

  • 环境准备:从 GitHub 克隆官方仓库并安装依赖,下载预训练权重。
  • 模型推理:根据机器人硬件配置生成本体提示,将图像、指令和提示输入模型,获取动作序列并发送给机器人执行,循环迭代实现闭环控制。
  • 模型训练(进阶):按 T2A → CPT → SFT → RL 四阶段流程训练,逐步提升动作生成、视觉感知、任务适配和闭环优化能力。
  • 跨平台部署:切换机器人时仅需修改提示中的硬件描述字段,适配新本体时采集数据在 SFT 阶段微调即可。

Qwen-VLA的核心优势

  • 通用性超越专用性:单一通用模型在 5 个仿真基准中的 3 个超越最佳专用模型。
  • 轻量跨本体适配:仅需修改文本提示,无需为每种机器人重新训练模型。
  • 高效预训练策略:T2A 阶段计算成本仅为多模态训练的 1/10,避免干扰 VLM 预训练成果。
  • 强 OOD 泛化能力:真实世界平均 OOD 成功率 76.9%,超越 π₀.₅+35.4pp及无预训练变体+40.7pp。
  • 动态场景零样本突破:DOMINO 基准零样本 26.6%,超越专用微调模型 PUMA 17.2%。

Qwen-VLA的项目地址

  • 项目官网:https://qwen.ai/blog?id=qwenvla
  • GitHub仓库:https://github.com/QwenLM/Qwen-VLA
  • arXiv技术论文:https://arxiv.org/pdf/2605.30280

Qwen-VLA的同类竞品对比

维度 Qwen-VLA π₀.₅ (Physical Intelligence)
架构底座 Qwen3.5-4B VLM + 1.15B DiT 解码器 基于流匹配的 VLA 架构
任务统一性 操作+导航+轨迹预测三任务统一 专注操作任务
跨本体方式 文本提示条件化,无需改架构 需针对不同本体微调或适配
支持平台数 11 种(WidowX、ALOHA、Franka 等) 主要支持少量主流平台
预训练策略 T2A 无视觉预训练(计算成本 1/10) 端到端多模态联合训练
动态操作 零样本 26.6%(DOMINO) 零样本 7.5%
OOD 泛化 真实世界平均 76.9% 41.5%
导航能力 VLN-CE R2R 57.5%,超越专用导航模型 不支持
开源程度 论文+代码+权重全开源 部分开源
训练效率 T2A 阶段计算成本为多模态 1/10 标准多模态训练成本

Qwen-VLA的应用场景

  • 多任务工业机器人:同一模型在装配线上完成抓取、搬运、导航至不同工位等异构任务,无需为每个任务单独部署模型。
  • 服务机器人跨场景部署:家用机器人在厨房执行操作、客厅自主导航、走廊规划轨迹,无缝切换任务类型。
  • 科研教育平台:研究人员无需为每种机器人重新训练模型,仅需修改文本提示即可在新硬件平台上快速验证算法。
  • 动态环境操作:物流仓储中抓取传送带上的运动包裹,无需针对动态场景重新采集训练数据。
  • 长时程复杂指令跟随:博物馆导览机器人执行”先去A展厅拍照,绕过人群去B展厅”等多步骤长指令任务。
Webwright – 微软开源的终端原生网页智能体框架
腾讯混元×浙大重磅开源OmniWeaving:统一六大视频生成任务,MLLM思考模式让AI化身‘智能导演’
Claude Mythos:Anthropic「秘密武器」能力超人类安全专家,因太强而限制发布
字节跳动Seed3D 2.0发布:单图生成生产级3D资产,几何精度与PBR材质双SOTA
育碧《孤岛惊魂7》秘密测试生成式AI遭曝光!曝料人称效果“烂透了”,押注NPC智能交互能否翻盘?
分享
Email 复制链接 打印
Share
上一篇 Cosmos 3 – 英伟达开源的全模态物理 AI 基础大模型
下一篇 Hermes Desktop – Hermes Agent 的桌面应用,开箱即用
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

Wall-OSS-0.5 – 自变量机器人开源的国产具身智能模型
AIGC 资讯
Qwen-Image-Bench – 通义千问推出的文生图模型评测基准
AIGC 资讯
Hermes Desktop – Hermes Agent 的桌面应用,开箱即用
AIGC 资讯
Cosmos 3 – 英伟达开源的全模态物理 AI 基础大模型
AIGC 资讯

相关推荐

AI 工具AIGC 资讯

警报:微软Copilot惊现‘幽灵周报’漏洞!AI助手竟成企业数据‘内鬼’

站外新闻
AI安全漏洞 企业数据安全 大模型风险 微软Copilot 提示词注入
AI 工具AIGC 资讯

阿里通义Qwen3.5-Max-Preview评测:国内第一的AI大模型,数学与创意写作能力跃升揭秘

站外新闻
AIGC AI评测 Qwen3.5-Max-Preview 大模型 阿里通义千问
AI 工具AIGC 资讯

VimRAG重磅开源:阿里通义首创多模态记忆图,企业级图文视频RAG精度飙升50%

站外新闻
VimRAG 多模态RAG 大模型Agent 知识库检索 阿里通义
全息流体渐变通用占位特色图
AIGC 资讯

美国 269 页AI立法草案出炉:巨头面临“半年一审”,各州监管权被“冻结”三年

站外新闻
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AGI AI AI Agent AIGC AI商业化 AI大模型 AI安全 AI工具 AI搜索 AI智能体 AI生成内容 AI监管 AI绘画 AI编程 AI编程工具 AI编程智能体 AI芯片 AI视频 AI视频生成 AI设计 Anthropic chatgpt Claude Claude Code Claude Mythos Claude Opus 4.8 DeepSeek DuckDuckGo Gemini GPT-5.5 MCP协议 meta Midjourney MiniMax MoE MoE架构 NVIDIA openai OpenRouter Pika prompt SpaceX stable diffusion SWE-Bench xAI 世界模型 丛林 人工智能 人物 企业级AI 具身智能 命令行工具 图像生成模型 多模态 多模态大模型 大模型 大模型API 大模型应用 大语言模型 字节跳动 家居 小米 展台 建筑 开源 开源大模型 开源工具 开源框架 开源模型 强化学习 微软 支付宝 教程 早报 智能体 智能体编程 智谱AI 月之暗面 本地AI 海报设计 生成式AI 科大讯飞 科幻 端侧AI 端侧大模型 网络安全 腾讯混元 英伟达 苹果 视频生成模型 语音合成 谷歌 谷歌AI 赛博朋克 长上下文 阶跃星辰 阿里通义 阿里通义千问 风景
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.