NavFoM：全球首个环视导航大模型！零样本跨本体适配，机器人/无人机/汽车通用

💡 站外导读：当前具身智能面临核心痛点：导航系统碎片化严重，室内外场景割裂、不同机器人本体需独立开发。NavFoM的发布直击行业瓶颈，以全球首个跨本体环视导航基座大模型的姿态，提出“视频流+文本指令→动作轨迹”统一范式。在机器人、自动驾驶、无人机等万亿级市场亟需通用导航底座的背景下，该模型通过零样本跨场景能力和低成本跨本体适配，有望重构智能体的感知-决策闭环，为具身智能规模化落地提供关键基础设施。

NavFoM是什么

NavFoM（Navigation Foundation Model）是银河通用联合北京大学、阿德莱德大学、浙江大学等团队发布的全球首个跨本体全域环视导航基座大模型。具备全场景支持能力，可同时适用于室内和室外环境，能在未见过的场景中实现零样本运行。NavFoM支持多种导航任务，如自然语言指令驱动的目标跟随和自主导航，能快速适配机器狗、轮式人形机器人、无人机、汽车等不同本体。核心技术包括TVI Tokens和BATS策略，建立了一个全新的通用范式：“视频流 + 文本指令 → 动作轨迹”，端到端地完成导航全过程。

阅读目录

NavFoM是什么
NavFoM的主要功能
NavFoM的技术原理
NavFoM的项目地址
NavFoM的应用场景

📝 站长洞察 (Editor’s Insight)

NavFoM

NavFoM的主要功能

全场景支持：NavFoM能同时支持室内和室外场景，可在未见过的环境中实现零样本运行，无需额外的建图或数据采集，具有很强的环境适应性。
多任务支持：模型支持自然语言指令驱动的目标跟随和自主导航等不同细分导航任务，能根据不同的指令完成相应的导航动作。
跨本体适配：NavFoM可快速低成本适配机器狗、轮式人形、腿式人形、无人机、汽车等不同尺寸的异构本体，具有广泛的适用性。
技术创新：NavFoM采用TVI Tokens（Temporal-Viewpoint-Indexed Tokens）让模型理解时间与方向，以及BATS策略（Budget-Aware Token Sampling）让模型在算力受限下依然聪明，通过这些技术创新提升了模型的性能。
统一范式：NavFoM建立了一个全新的通用范式：“视频流 + 文本指令 → 动作轨迹”，不再依赖模块化拼接，而是端到端地完成“看到 — 理解 — 行动”的全过程，简化了导航流程。
数据集构建：NavFoM构建了庞大的跨任务数据集，包含约八百万条跨任务、跨本体的导航数据，以及四百万条开放问答数据，为模型的训练提供了丰富的数据支持。

NavFoM的技术原理

TVI Tokens（Temporal-Viewpoint-Indexed Tokens）：通过时间与视角索引的标记，让模型能理解时间与方向，从而更好地处理动态环境中的导航任务。
BATS策略（Budget-Aware Token Sampling）：在算力受限的情况下，通过预算感知的标记采样策略，确保模型依然能够高效运行，提升其在实际应用中的可行性。
端到端的通用范式：采用“视频流 + 文本指令 → 动作轨迹”的范式，将视觉输入、语言指令和动作输出整合到一个统一的框架中，实现从感知到行动的直接映射。
跨任务数据集：构建了包含约八百万条导航数据和四百万条开放问答数据的庞大跨任务数据集，为模型训练提供了丰富的多场景、多任务数据支持，提升模型的泛化能力。

NavFoM的项目地址

暂未公布相关地址

NavFoM的应用场景

机器人导航：在复杂环境中，如商场、机场等公共场所，机器人可以根据自然语言指令自主导航并跟随目标，实现高效的服务和引导功能。
自动驾驶：应用于汽车的自动驾驶系统，提升车辆在复杂路况下的自主决策和导航能力，增强自动驾驶的安全性和可靠性。
无人机导航：为无人机提供自主导航能力，使其能在复杂地形和环境中进行自主飞行和任务执行，如物流配送、环境监测等。
人形机器人：支持轮式人形、腿式人形等不同形态的人形机器人，使其能更好地适应各种环境，完成复杂的导航和交互任务。
开发应用模型：开发人员可以基于NavFoM作为基座，通过后训练进一步开发满足特定导航要求的应用模型，拓展其在不同领域的应用范围。

📝 站长洞察 (Editor’s Insight)

NavFoM的推出标志着导航AI从任务专用模型迈入基座大模型时代。其核心突破在于三点：一是TVI Tokens首次将时空语义编码进导航表征，解决了动态场景理解难题；二是BATS策略实现算力约束下的智能采样，为边缘端部署铺平道路；三是八百万级跨本体数据集构建了稀缺的数据护城河。从产业视角看，该模型正契合具身智能“大脑-小脑-肢体”协同演进趋势——当大模型成为通用感知决策中枢，硬件本体将快速商品化。银河通用以基座模型卡位生态核心，有望在机器人、自动驾驶、低空经济三大赛道形成技术辐射。未来关键看点在于开源生态建设与行业标准话语权争夺。

NavFoM：全球首个环视导航大模型！零样本跨本体适配，机器人/无人机/汽车通用

NavFoM是什么

NavFoM的主要功能

NavFoM的技术原理

NavFoM的项目地址

NavFoM的应用场景

📝 站长洞察 (Editor’s Insight)

发表评价取消回复

最近更新

“AI营养师”来了!阿福上线拍饮食功能，跟AI减肥从”少吃”到”会吃”

Monochromatic High-Fashion Editorial with Python

印度法院给 OpenAI 撑了腰：用新闻训练 AI 不侵权，临时禁令会掐死本土大模型

零代码生成完整应用!Grok 上线 Build 模式，面向300美元 SuperGrok Heavy 用户开放

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

Support

NavFoM是什么

NavFoM的主要功能

NavFoM的技术原理

NavFoM的项目地址

NavFoM的应用场景

📝 站长洞察 (Editor’s Insight)

发表评价 取消回复

最近更新

相关推荐

发表评价取消回复