💡 站外导读:随着AI应用从数字空间向物理世界渗透,让机器具备理解三维空间的能力,成为具身智能、自动驾驶和机器人领域突破的关键瓶颈。传统模型在空间测量、视角转换和关系推理上表现薄弱。商汤科技开源的空间智能大模型SenseNova-SI,正瞄准这一核心痛点。它在权威评测中超越GPT-5等顶尖闭源模型,其背后揭示的“空间智能尺度效应”表明,高质量、系统化的空间数据训练,是提升空间认知能力更有效的路径。这标志着AI正从理解“文本和图像”迈向理解“空间与物理规律”的新阶段。
SenseNova-SI是什么
SenseNova-SI 是商汤开源的空间智能大模型,专注于提升空间智能。模型通过大规模、高质量的空间数据训练,显著增强模型在空间测量、关系理解、视角转换等核心维度的能力。在多个权威基准测试中,SenseNova-SI 超越同量级开源模型,领先于 GPT-5 等顶尖闭源模型。模型提供详细的安装和使用指南,助力开发者快速上手,推动具身智能和世界模型的发展,为 AI 理解三维世界奠定基础。
在最新的EASI-8综合评测中,商汤科技开源的空间智能模型SenseNova-SI-1.3力压Gemini-3-Pro,荣登榜首。该模型在视角转换、空间推理等高难度任务上的表现尤为亮眼。其成功关键在于构建了层次化的训练数据,并验证了’空间智能尺度效应’——这表明,提升空间理解能力,高质量的数据比一味扩大模型参数更为有效。这一成果为具身智能等领域提供了强大的开源基座。

SenseNova-SI的主要功能
-
空间测量与估算:模型能对物体的尺寸、距离等进行准确的量化估算。
-
空间关系理解:模型能理解物体之间的相对位置、方向和空间布局。
-
视角转换:支持处理从不同视角观察同一场景时的信息变化,推断视角变化带来的影响。
-
空间重构与形变:理解物体的三维结构,在形变或重构后保持空间认知。
-
空间推理:基于空间信息进行逻辑推理,例如判断物体的移动方向或空间布局的变化。
-
多模态融合:结合图像、文本等多种模态数据,提升对复杂空间场景的理解能力。
SenseNova-SI的技术原理
- 尺度效应(Scale Effect):通过大规模、高质量的空间数据训练,验证“尺度效应”,即数据量的增加能显著提升模型的空间认知能力,是 SenseNova-SI 性能飞跃的核心原因。
- 系统性训练方法:商汤提出空间能力分类体系,基于此扩充数据规模,采用系统化的训练方法,使模型在多个空间智能维度上实现一致性提升。
- 多模态融合架构:基于 InternVL 等基础架构,SenseNova-SI 能有效融合图像和文本信息,提升对复杂场景的理解能力。
SenseNova-SI的项目地址
- GitHub仓库:https://github.com/OpenSenseNova/SenseNova-SI
- HuggingFace模型库:https://huggingface.co/collections/sensenova/sensenova-si
SenseNova-SI的应用场景
-
自动驾驶:通过精准的空间测量和视角转换能力,帮助车辆更好地理解道路环境,预测其他物体的运动方向,提升自动驾驶的安全性和可靠性。
-
机器人导航与交互:用空间关系理解和空间推理能力,使机器人能在复杂环境中自主导航,理解物体位置进行精准操作。
-
虚拟现实与增强现实:为虚拟场景提供更真实的空间感知,帮助用户在虚拟环境中获得更自然的交互体验。
-
智能安防:通过空间智能分析监控视频,快速识别异常行为或物体的位置变化,提升安防监控的效率和准确性。
-
建筑设计与规划:辅助设计师进行三维空间布局规划,通过空间重构能力快速生成和优化设计方案。
📝 站长洞察 (Editor’s Insight)
SenseNova-SI的开源,绝非一次普通的模型发布,而是商汤在“具身智能”基础设施层面的一次关键落子。当前大模型竞争已从通用语言能力,激烈转向多模态、尤其是空间与具身理解能力。商汤通过构建层次化空间数据体系,验证了“尺度效应”在空间领域的有效性,这为行业指明了一条不同于盲目扩大参数的务实技术路线。其超越GPT-5等闭源模型的表现,证明了在垂直、高难度的物理世界理解任务上,专业化开源模型已具备强大竞争力。这将直接降低自动驾驶、机器人、元宇宙等领域的研发门槛,推动AI从“数字原生”真正走向“物理世界交互”。商汤此举,既是技术实力的展示,更是生态卡位的战略性举措,旨在成为下一代空间智能时代的“水电煤”提供商。
