Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: NavFoM:全球首个环视导航大模型!零样本跨本体适配,机器人/无人机/汽车通用
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AI 工具 > NavFoM:全球首个环视导航大模型!零样本跨本体适配,机器人/无人机/汽车通用
AI 工具AIGC 资讯

NavFoM:全球首个环视导航大模型!零样本跨本体适配,机器人/无人机/汽车通用

站外新闻
最近更新: 2026年6月7日 下午8:14
导航基座大模型 机器人导航 端到端导航 跨本体适配 银河通用
SHARE

💡 站外导读:当前具身智能面临核心痛点:导航系统碎片化严重,室内外场景割裂、不同机器人本体需独立开发。NavFoM的发布直击行业瓶颈,以全球首个跨本体环视导航基座大模型的姿态,提出“视频流+文本指令→动作轨迹”统一范式。在机器人、自动驾驶、无人机等万亿级市场亟需通用导航底座的背景下,该模型通过零样本跨场景能力和低成本跨本体适配,有望重构智能体的感知-决策闭环,为具身智能规模化落地提供关键基础设施。

NavFoM是什么

NavFoM(Navigation Foundation Model)是银河通用联合北京大学、阿德莱德大学、浙江大学等团队发布的全球首个跨本体全域环视导航基座大模型。具备全场景支持能力,可同时适用于室内和室外环境,能在未见过的场景中实现零样本运行。NavFoM支持多种导航任务,如自然语言指令驱动的目标跟随和自主导航,能快速适配机器狗、轮式人形机器人、无人机、汽车等不同本体。核心技术包括TVI Tokens和BATS策略,建立了一个全新的通用范式:“视频流 + 文本指令 → 动作轨迹”,端到端地完成导航全过程。

阅读目录
  • NavFoM是什么
  • NavFoM的主要功能
  • NavFoM的技术原理
  • NavFoM的项目地址
  • NavFoM的应用场景
      • 📝 站长洞察 (Editor’s Insight)

NavFoM

NavFoM的主要功能

  • 全场景支持:NavFoM能同时支持室内和室外场景,可在未见过的环境中实现零样本运行,无需额外的建图或数据采集,具有很强的环境适应性。
  • 多任务支持:模型支持自然语言指令驱动的目标跟随和自主导航等不同细分导航任务,能根据不同的指令完成相应的导航动作。
  • 跨本体适配:NavFoM可快速低成本适配机器狗、轮式人形、腿式人形、无人机、汽车等不同尺寸的异构本体,具有广泛的适用性。
  • 技术创新:NavFoM采用TVI Tokens(Temporal-Viewpoint-Indexed Tokens)让模型理解时间与方向,以及BATS策略(Budget-Aware Token Sampling)让模型在算力受限下依然聪明,通过这些技术创新提升了模型的性能。
  • 统一范式:NavFoM建立了一个全新的通用范式:“视频流 + 文本指令 → 动作轨迹”,不再依赖模块化拼接,而是端到端地完成“看到 — 理解 — 行动”的全过程,简化了导航流程。
  • 数据集构建:NavFoM构建了庞大的跨任务数据集,包含约八百万条跨任务、跨本体的导航数据,以及四百万条开放问答数据,为模型的训练提供了丰富的数据支持。

NavFoM的技术原理

  • TVI Tokens(Temporal-Viewpoint-Indexed Tokens):通过时间与视角索引的标记,让模型能理解时间与方向,从而更好地处理动态环境中的导航任务。
  • BATS策略(Budget-Aware Token Sampling):在算力受限的情况下,通过预算感知的标记采样策略,确保模型依然能够高效运行,提升其在实际应用中的可行性。
  • 端到端的通用范式:采用“视频流 + 文本指令 → 动作轨迹”的范式,将视觉输入、语言指令和动作输出整合到一个统一的框架中,实现从感知到行动的直接映射。
  • 跨任务数据集:构建了包含约八百万条导航数据和四百万条开放问答数据的庞大跨任务数据集,为模型训练提供了丰富的多场景、多任务数据支持,提升模型的泛化能力。

NavFoM的项目地址

暂未公布相关地址

NavFoM的应用场景

  • 机器人导航:在复杂环境中,如商场、机场等公共场所,机器人可以根据自然语言指令自主导航并跟随目标,实现高效的服务和引导功能。
  • 自动驾驶:应用于汽车的自动驾驶系统,提升车辆在复杂路况下的自主决策和导航能力,增强自动驾驶的安全性和可靠性。
  • 无人机导航:为无人机提供自主导航能力,使其能在复杂地形和环境中进行自主飞行和任务执行,如物流配送、环境监测等。
  • 人形机器人:支持轮式人形、腿式人形等不同形态的人形机器人,使其能更好地适应各种环境,完成复杂的导航和交互任务。
  • 开发应用模型:开发人员可以基于NavFoM作为基座,通过后训练进一步开发满足特定导航要求的应用模型,拓展其在不同领域的应用范围。

📝 站长洞察 (Editor’s Insight)

NavFoM的推出标志着导航AI从任务专用模型迈入基座大模型时代。其核心突破在于三点:一是TVI Tokens首次将时空语义编码进导航表征,解决了动态场景理解难题;二是BATS策略实现算力约束下的智能采样,为边缘端部署铺平道路;三是八百万级跨本体数据集构建了稀缺的数据护城河。从产业视角看,该模型正契合具身智能“大脑-小脑-肢体”协同演进趋势——当大模型成为通用感知决策中枢,硬件本体将快速商品化。银河通用以基座模型卡位生态核心,有望在机器人、自动驾驶、低空经济三大赛道形成技术辐射。未来关键看点在于开源生态建设与行业标准话语权争夺。

Bernini – 字节跳动开源的统一视频生成与编辑框架
GPT-5.3-Codex-Spark:OpenAI首发实时编程模型,1000+ tokens/s极速编码体验
AIChatting聊天机器人
Tarsier2 – 字节跳动推出的视觉理解大模型
Toolbuilder
TAGGED:导航基座大模型机器人导航端到端导航跨本体适配银河通用
分享
Email 复制链接 打印
Share
上一篇 Handy:开源离线语音转文字神器,本地处理保护隐私,支持Whisper模型与多平台
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

Handy:开源离线语音转文字神器,本地处理保护隐私,支持Whisper模型与多平台
AI 工具 AIGC 资讯
UniWorld V2发布:北大兔展智能联合推出强化学习驱动图像编辑模型,精准中文渲染与空间控制领先行业
AI 工具 AIGC 资讯
科大讯飞星火X1.5深度推理大模型发布:国产算力平台,性能达GPT-5的95%,数学能力国际领先
AI 工具 AIGC 资讯
美团LongCat发布UNO-Bench:首个验证全模态大模型‘组合定律’的评测基准,引领AI评估新范式
AI 工具 AIGC 资讯

相关推荐

AIGC 资讯

LLMDet – 阿里通义联合中山大学等机构推出的开放词汇目标检测模型

站外新闻
2023: 人工智能之年
AIGC 资讯

2023: AI 的一年 [译]

宝玉的分享
AIGC AI发展 AI资讯
AI 工具AIGC 资讯

乐鑫 ESP-Claw 开源:用自然语言对话定义物联网设备行为的 AI Agent 框架

站外新闻
AI Agent ESP32 物联网 自然语言处理 边缘计算
量子芯片科技感占位特色图
AI 工具AIGC 资讯

谷歌 Gemini 算力计费引爆全球用户怒火!紧急宣布额度永久翻 3 倍补偿

站外新闻
AI 工具 开发者工具 算力计费 谷歌 DeepMind 谷歌 Gemini
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI图像生成 AI大模型 AI安全 AI工具 AI智能体 AI绘画 AI编程 AI编程工具 AI视频生成 AI设计 Anthropic chatgpt Claude Claude Code DeepSeek Gemini GPT-5.3 Instant GPT-5.4 GPT-5.5 MCP协议 meta Midjourney MiniMax Mistral AI MoE架构 NVIDIA openai OpenClaw prompt SWE-Bench xAI 世界模型 丛林 人工智能 人物 企业级AI 全模态大模型 具身智能 命令行工具 商汤科技 图像生成 图像生成模型 多智能体 多模态 多模态AI 多模态大模型 大模型 大模型应用 大语言模型 字节跳动 家居 小红书 展台 开源 开源AI 开源AI工具 开源大模型 开源工具 开源平台 开源框架 开源模型 开源项目 强化学习 微软 扩散模型 教程 文本转语音 早报 智谱AI 月之暗面 本地AI 清华大学 生成式AI 科大讯飞 端侧AI 端侧大模型 端侧部署 网络安全 腾讯 腾讯混元 英伟达 蚂蚁集团 视觉语言模型 视频生成 视频生成模型 语音合成 谷歌 谷歌AI 谷歌DeepMind 赛博朋克 通义千问 长上下文 阶跃星辰 阿里通义 面壁智能 香港大学
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.