Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: VLN-R1:港大联合上海AI Lab发布具身智能框架,用视觉语言模型实现3D连续导航
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AI 工具 > VLN-R1:港大联合上海AI Lab发布具身智能框架,用视觉语言模型实现3D连续导航
AI 工具AIGC 资讯

VLN-R1:港大联合上海AI Lab发布具身智能框架,用视觉语言模型实现3D连续导航

站外新闻
最近更新: 2026年6月7日 下午8:25
VLN-R1 具身智能 强化微调 港大上海AI Lab 视觉语言模型
SHARE

💡 站外导读:当前具身智能领域面临核心瓶颈:如何让机器人真正理解自然语言指令并在复杂3D环境中连续自主导航?传统方案依赖离散节点图或专用模块堆叠,泛化能力差、数据需求高。港大与上海AI Lab联合推出的VLN-R1框架,首次用大型视觉语言模型直接将第一人称视频流转为连续动作序列,配合长短期记忆采样和两阶段训练策略,在数据有限条件下显著提升导航性能,为家庭服务、工业自动化等场景落地提供新范式。

VLN-R1是什么

VLN-R1是香港大学和上海人工智能实验室联合推出的全新具身智能框架,基于大型视觉语言模型(LVLM)直接将第一人称视频流转换为连续的导航动作。框架基于Habitat 3D模拟器构建VLN-Ego数据集,用长短期记忆采样策略平衡历史和当前观测。框架训练分为两阶段,监督微调(SFT)让模型动作序列文本预测与专家演示对齐,强化微调(RFT)基于时间衰减奖励(TDR)机制优化多步未来动作。VLN-R1在VLN-CE基准测试中表现强劲,证明LVLM在具身导航中的有效性,提升任务特定推理能力,且数据效率高。

阅读目录
  • VLN-R1是什么
  • VLN-R1的主要功能
  • VLN-R1的技术原理
  • VLN-R1的项目地址
  • VLN-R1的应用场景
      • 📝 站长洞察 (Editor’s Insight)

VLN-R1

VLN-R1的主要功能

  • 连续环境导航:直接处理第一人称视频流,让智能体在连续的3D环境中自由移动,不仅仅局限于预定义的节点。
  • 动作生成:生成四种基本动作命令(FORWARD、TURN-LEFT、TURN-RIGHT、STOP),实现精确的导航控制。
  • 数据高效训练:基于监督微调(SFT)和强化微调(RFT),用有限的数据实现高效的模型训练,提升导航性能。
  • 跨领域适应:基于强化微调(RFT),模型能快速适应新的导航任务和环境,即使只有少量数据。
  • 任务特定推理:基于时间衰减奖励(TDR)机制,优化多步未来动作的预测,增强长期导航性能。

VLN-R1的技术原理

  • 数据集构建:VLN-Ego数据集基于Habitat 3D模拟器生成,包含第一人称视频流和对应的未来动作预测,为模型训练提供丰富的数据。
  • 长短期记忆采样:在处理视频输入时,用长短期记忆采样策略,动态平衡历史帧的重要性与实时输入的敏感性,确保模型在导航过程中既考虑短期相关性,又不丢失长期上下文信息。
  • 监督微调(SFT):基于最小化模型预测文本与专家演示文本之间的交叉熵损失,让模型的动作序列预测与真实动作对齐,确保模型能准确理解语言指令生成相应的动作。
  • 强化微调(RFT):基于组相对策略优化(GRPO)的强化学习方法,用时间衰减奖励(TDR)机制评估和优化多步未来动作的预测,增强模型在长期导航任务中的性能。
  • 大型视觉语言模型(LVLM):基于先进的LVLM(如Qwen2-VL)处理视觉和语言输入,实现从第一人称视频流到导航动作的直接映射,提升模型的泛化能力和适应性。

VLN-R1的项目地址

  • 项目官网:https://vlnr1.github.io/
  • GitHub仓库:https://github.com/Qi-Zhangyang/GPT4Scene-and-VLN-R1
  • arXiv技术论文:https://arxiv.org/pdf/2506.17221

VLN-R1的应用场景

  • 家庭服务机器人:让家庭服务机器人根据主人的自然语言指令在家中自由导航,完成打扫卫生、取物等任务,提升生活便利性。
  • 工业自动化:在工厂车间助力机器人按操作员指令灵活导航,完成物料搬运和设备维护,提高生产效率。
  • 智能仓储:让仓库机器人依据指令在货架间精准导航,高效完成货物存储与检索,优化仓储管理。
  • 医疗保健:支持医院或养老院机器人按医护人员或患者指令导航,完成送药、送餐等任务,减轻医护负担。
  • 智能交通:帮助自动驾驶车辆在复杂城市环境中按交通信号和指令导航,增强行驶安全性和灵活性。

📝 站长洞察 (Editor’s Insight)

具身智能正从实验室走向产业深水区,VLN-R1的发布标志着一个关键拐点:视觉语言大模型不再只是“看图说话”,而是成为机器人在物理世界行动的“大脑”。其核心创新在于用SFT对齐专家演示、用RFT强化长期决策,配合时间衰减奖励机制,让模型既学得快又记得远。更值得关注的是,项目已开源代码与数据集,这将大幅降低研究与产业门槛。从趋势看,具身智能的竞争焦点正从“感知精度”转向“决策智能”,谁能让大模型在真实环境中高效行动,谁就握住了下一代AI落地的钥匙。VLN-R1为这条赛道提供了极具参考价值的技术路线。

阿里Qwen团队重磅开源WebWorld:百万级真实网页世界模型,三大版本赋能下一代智能体
Qwen2.5-1M – 阿里通义千问开源的语言模型,支持100万Tokens上下文
Gen-2 by Runway
打破僵化API!Perplexity 推出“搜索即代码”,让 AI 智能体自主编写搜索管道
小米发布「招聘Agent」:基于xiaomimimo大模型,简历精准匹配+校招问答全AI化
TAGGED:VLN-R1具身智能强化微调港大上海AI Lab视觉语言模型
分享
Email 复制链接 打印
Share
上一篇 Nanonets-OCR-s:终极文档OCR模型,支持LaTeX、签名、表格等复杂元素识别与Markdown转换
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

Nanonets-OCR-s:终极文档OCR模型,支持LaTeX、签名、表格等复杂元素识别与Markdown转换
AI 工具 AIGC 资讯
腾讯混元-A13B开源MoE大模型:130亿激活参数,1张GPU即可部署,中小企业AI落地新选择
AI 工具 AIGC 资讯
可灵AI发布Kling-Foley:多模态视频音效生成模型,精准同步音画,重塑AIGC内容创作
AI 工具 AIGC 资讯
Adobe联手密歇根大学发布4D-LRM:革命性4D重建模型,1.5秒重建动态场景
AI 工具 AIGC 资讯

相关推荐

AIGC 资讯

ChatAnyone – 阿里通义推出的实时风格化肖像视频生成框架

站外新闻
AIGC 资讯

谷歌Workspace Studio发布:用自然语言打造AI智能体,自动化办公效率提升300%

站外新闻
AI智能体 Gemini模型 Workspace Studio 自动化办公 谷歌
AI 工具

ColorMagic

remaker
AI 工具

JungGPT

remaker
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI大模型 AI安全 AI工具 AI智能体 AI模型 AI绘画 AI编程 AI编程助手 AI编程模型 AI视频生成 AI音乐生成 Anthropic chatgpt Claude Claude Code DeepSeek Gemini GPT-5.3 Instant GPT-5.3-Codex-Spark GPT-5.4 MCP协议 meta Midjourney MiniMax MoE架构 MoE模型 openai prompt Qwen3 RAG SWE-Bench xAI 上海人工智能实验室 世界模型 人工智能 人物 代码生成 企业级AI 全模态大模型 具身智能 命令行工具 图像生成 图像生成模型 多智能体 多模态 多模态AI 多模态大模型 多模态模型 大模型 大模型应用 大语言模型 字节跳动 小红书 展台 开源 开源AI 开源AI工具 开源大模型 开源工具 开源平台 开源框架 开源模型 开源项目 强化学习 微软 扩散模型 教程 数字人 文本转语音 早报 昆仑万维 智谱AI 月之暗面 清华大学 知识管理 科大讯飞 端侧AI 美团 腾讯 腾讯混元 自然语言处理 英伟达 蚂蚁集团 视觉语言模型 视频生成 视频生成模型 语音合成 谷歌 谷歌AI 谷歌DeepMind 通义千问 阶跃星辰 阿里巴巴 阿里通义 面壁智能 香港大学
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.