Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: 阿里达摩院重磅发布WorldVLA:统一视觉-语言-动作模型,让机器人“既会看又会动”
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AI 工具 > 阿里达摩院重磅发布WorldVLA:统一视觉-语言-动作模型,让机器人“既会看又会动”
AI 工具AIGC 资讯

阿里达摩院重磅发布WorldVLA:统一视觉-语言-动作模型,让机器人“既会看又会动”

站外新闻
最近更新: 2026年6月7日 下午8:24
VLA模型 世界模型 机器人控制 自回归模型 阿里达摩院
SHARE

💡 站外导读:具身智能领域长期面临一个核心挑战:如何让机器人既准确理解视觉和语言指令,又能基于对物理世界的认知生成精准动作?传统方案中,动作模型与世界模型往往独立发展,难以形成协同效应,导致机器人在复杂环境中的泛化能力不足。阿里达摩院与浙江大学的最新研究直击这一痛点,提出了WorldVLA——一个将视觉-语言-动作模型与世界模型深度融合的统一框架,为下一代智能机器人的感知-决策-控制闭环提供了全新范式。

WorldVLA是什么

WorldVLA是阿里巴巴达摩院和浙江大学联合推出的自回归动作世界模型,模型将视觉-语言-动作(VLA)模型与世界模型整合到一个单一框架中。模型基于动作和图像理解预测未来的图像,目的是学习环境的基本物理规律以改进动作生成。动作模型根据图像观察生成后续的动作,辅助视觉理解,并反过来帮助世界模型的视觉生成。WorldVLA在性能上优于独立的动作模型和世界模型,突显世界模型与动作模型之间的相互增强作用。为解决自回归方式生成一系列动作时性能下降的问题,提出一种注意力掩码策略,在生成当前动作时选择性地屏蔽先前的动作,在动作块生成任务中显著提高性能。

阅读目录
  • WorldVLA是什么
  • WorldVLA的主要功能
  • WorldVLA的技术原理
  • WorldVLA的项目地址
  • WorldVLA的应用场景
      • 📝 站长洞察 (Editor’s Insight)

WorldVLA

WorldVLA的主要功能

  • 动作生成:根据图像和语言指令生成后续动作,支持连续动作规划。
  • 图像预测:基于当前图像和动作预测未来图像状态,提升视觉预测精度。
  • 环境理解:学习环境物理规律,增强视觉和动作理解能力。
  • 双向增强:动作模型与世界模型相互促进,提升整体性能。

WorldVLA的技术原理

  • 统一框架:WorldVLA将视觉-语言-动作(VLA)模型和世界模型整合到一个单一的框架中。用三个独立的编码器(图像编码器、文本编码器和动作编码器)将不同模态的数据编码为统一的词汇表中的标记,实现跨模态的理解和生成。
  • 自回归生成:模型用自回归的方式进行动作和图像的生成。动作模型根据历史图像和语言指令生成动作,世界模型根据历史图像和动作预测未来的图像状态。
  • 注意力掩码策略:为解决自回归模型在生成一系列动作时可能出现的性能下降问题,WorldVLA提出一种注意力掩码策略。在生成当前动作时选择性地屏蔽先前的动作,减少错误的传播,提高动作块生成的性能。
  • 双向增强:WorldVLA基于世界模型和动作模型的相互作用实现双向增强。世界模型基于预测未来状态帮助动作模型更好地理解环境的物理规律,动作模型基于生成动作帮助世界模型更准确地预测未来的图像状态。
  • 训练策略:WorldVLA在训练时混合使用动作模型数据和世界模型数据,确保模型能够同时学习到动作生成和图像预测的能力。混合训练策略让模型能在单一架构中实现多种功能。

WorldVLA的项目地址

  • GitHub仓库:https://github.com/alibaba-damo-academy/WorldVLA
  • HuggingFace模型库:https://huggingface.co/collections/jcenaa/worldvla-685b9df63bdfe8cb67cc71b2
  • arXiv技术论文:https://arxiv.org/pdf/2506.21539

WorldVLA的应用场景

  • 机器人目标导向任务:帮助机器人根据视觉和语言指令完成目标导向的任务,如将物体从一个位置移动到另一个位置。
  • 复杂环境中的精细操作:在复杂环境中,如杂乱桌面或狭窄空间,生成适应性强的动作,完成精细操作。
  • 人机协作任务:在人机协作场景中,理解人类的动作和意图,生成相应的协作动作,提高协作效率。
  • 未来场景模拟与预测:预测未来的图像状态,帮助机器人提前规划和评估动作后果,如自动驾驶中的道路场景预测。
  • 教育与研究平台:作为教学工具和研究平台,帮助学生和研究人员理解和实践机器人控制和视觉预测的原理。

📝 站长洞察 (Editor’s Insight)

WorldVLA的发布标志着具身智能从“模块拼接”迈向“端到端统一建模”的关键一步。当前大模型竞赛正从纯文本、多模态理解,快速向物理世界交互(embodied AI)延伸。谷歌、特斯拉、Figure等巨头均在布局,而阿里达摩院此次选择将VLA与世界模型整合,其战略意图非常明确:构建一个既能“感知预测”又能“行动控制”的基座模型,直接对标下一代通用机器人的“大脑”架构。特别值得注意的是其提出的注意力掩码策略,这巧妙解决了自回归模型在生成连续动作序列时的误差累积问题,是工程落地的关键创新。从产业视角看,WorldVLA的双向增强机制,意味着机器人可以通过“想象未来”来优化“当下行动”,这与人类认知决策过程高度相似,预示着机器人将从“编程执行”走向“自主推理”。此项研究不仅是学术突破,更是中国在具身智能核心架构上的一次重要战略布局。

高德地图x北邮发布FantasyWorld:统一视频与3D建模框架,赋能AR/VR与机器人导航新纪元
DynamicCity – 上海 AI Lab 推出的4D动态场景生成框架
谷歌DeepMind发布SIMA 2:Gemini驱动的新一代AI游戏智能体,能听会看善学习
Step-Audio-TTS-3B – 高性能 TTS 模型,能生成特定情感和说唱风格的语音
AI Short GPT指令提示
TAGGED:VLA模型世界模型机器人控制自回归模型阿里达摩院
分享
Email 复制链接 打印
Share
上一篇 AnimaX框架:北航清华联合发布,文本驱动多视图3D动画生成,兼容任意骨骼结构
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

AnimaX框架:北航清华联合发布,文本驱动多视图3D动画生成,兼容任意骨骼结构
AI 工具 AIGC 资讯
阿里重磅发布Ovis-U1:30亿参数多模态统一模型,一文读懂技术原理与AI应用新范式
AI 工具 AIGC 资讯
工作性价比计算器:薪资、福利、通勤全衡量,190+国薪资对比秒出结果
AI 工具 AIGC 资讯
原石科技发布MetaStone-S1:全球首款反思型大模型,自监督筛选推理链,数学代码能力超越GPT-4
AI 工具 AIGC 资讯

相关推荐

AI 工具

Civitai

remaker
AI 工具

RevMake AI

remaker
AI 工具

Lucidpic

remaker
AI 工具

Excuse Generator

remaker
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI大模型 AI安全 AI工具 AI智能体 AI模型 AI绘画 AI编程 AI编程助手 AI编程模型 AI视频生成 AI音乐生成 Anthropic chatgpt Claude Claude Code DeepSeek Gemini GPT-5.3 Instant GPT-5.3-Codex-Spark GPT-5.4 MCP协议 meta Midjourney MiniMax MoE架构 MoE模型 openai prompt Qwen3 RAG SWE-Bench xAI 上海人工智能实验室 世界模型 人工智能 人物 代码生成 企业级AI 全模态大模型 具身智能 命令行工具 图像生成 图像生成模型 多智能体 多模态 多模态AI 多模态大模型 多模态模型 大模型 大模型应用 大语言模型 字节跳动 小红书 展台 开源 开源AI 开源AI工具 开源大模型 开源工具 开源平台 开源框架 开源模型 开源项目 强化学习 微软 扩散模型 教程 数字人 文本转语音 早报 昆仑万维 智谱AI 月之暗面 清华大学 知识管理 科大讯飞 端侧AI 美团 腾讯 腾讯混元 自然语言处理 英伟达 蚂蚁集团 视觉语言模型 视频生成 视频生成模型 语音合成 谷歌 谷歌AI 谷歌DeepMind 通义千问 阶跃星辰 阿里巴巴 阿里通义 面壁智能 香港大学
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.