💡 站外导读:在多模态AI竞争白热化的今天,传统模型常面临图文理解割裂、训练数据依赖大、中小模型部署难等行业痛点。商汤科技与南洋理工大学联合开源的NEO模型,正为这些挑战提供了全新解题思路。作为首个原生多模态架构,NEO通过底层创新,旨在实现图像与文本的真正融合,而非简单拼接。其在数据效率、性能表现和推理成本上的突破,或将重塑视觉语言模型的技术路径,加速AI在机器人、智能驾驶、医疗等实体经济场景中的规模化落地。
NEO是什么
NEO是商汤科技与南洋理工大学合作研发的全新多模态模型架构,作为首个原生多模态架构(Native VLM),NEO通过底层架构的深度创新,打破了传统多模态模型的局限。核心创新包括原生图块嵌入(Native Patch Embedding),能更精细地捕捉图像细节;原生三维旋转位置编码(Native-RoPE),完美适配图像和文本的自然结构;以及原生多头注意力(Native Multi-Head Attention),提升模型对复杂图文关系的理解能力。NEO在数据效率、性能和推理性价比方面表现出色,仅需较少数据即可达到顶尖视觉感知能力,在多项权威评测中取得优异成绩。商汤已开源2B和9B两种规格的NEO模型,推动原生多模态技术的产业化应用,构建下一代多模态技术标准。

NEO的主要功能
-
原生多模态融合:NEO通过底层架构设计,实现了图像和文本的深度融合,突破了传统多模态模型的模块化限制,能更自然地处理图文混合内容。
-
高效数据利用:仅需较少的数据量(如3.9亿图像文本示例),NEO就达到顶尖的视觉感知能力,显著提高了数据利用效率,降低了训练成本。
-
卓越性能表现:在多项权威评测中,NEO展现了优异的性能,无论是图像理解、文本生成还是图文推理任务,能提供高质量的输出。
-
高推理性价比:特别是在中小参数规模(如0.6B-8B)下,NEO在边缘部署和推理效率方面表现出色,适合广泛的实际应用场景。
-
开源协作与扩展:商汤已开源2B和9B两种规格的NEO模型,鼓励开发者和研究者基于此架构进行进一步开发和应用,推动多模态技术的产业化落地。
NEO的技术原理
-
原生图块嵌入(Native Patch Embedding):通过自底向上的连续映射,将图像像素直接嵌入到模型中,避免了传统图像tokenizer的离散化处理,更精细地捕捉图像细节,提升图像建模能力。
-
原生三维旋转位置编码(Native-RoPE):创新性地解耦了图像和文本的三维时空频率分配,为图像分配高频编码,为文本分配低频编码,更好地适配两种模态的自然结构,支持复杂场景下的空间结构关联。
-
原生多头注意力(Native Multi-Head Attention):在统一框架下,同时实现文本的自回归注意力和视觉的双向注意力,提升模型对图文关系的理解能力,支持复杂的图文混合理解与推理任务。
-
底层架构创新:从底层架构出发,实现多模态的深度融合,而非简单的模块化拼接,从根本上突破了传统多模态模型的性能瓶颈,提升了模型的整体效能。
-
高效训练与推理:通过优化的架构设计,NEO在训练和推理过程中展现出更高的效率,特别是在中小参数规模下,能够实现更低的计算成本和更高的推理速度,适合广泛的实际应用。
NEO的项目地址
- Github仓库:https://github.com/EvolvingLMMs-Lab/NEO
- arXiv技术论文:https://arxiv.org/pdf/2510.14979
NEO的应用场景
-
图像与文本生成:NEO能根据文本描述生成高质量的图像,或者根据图像内容生成准确的文本描述,适用于创意设计、内容创作等领域。
-
智能搜索与推荐:通过理解图像和文本的深层语义,NEO可以为用户提供更精准的搜索结果和个性化推荐,提升用户体验。
-
多模态问答:NEO能处理图文混合的问答任务,结合图像和文本信息提供更准确的答案,适用于教育、客服等场景。
-
智能驾驶与机器人视觉:NEO的高效图像理解能力可用于智能驾驶中的场景感知、物体识别,以及机器人视觉中的环境理解与导航。
-
工业检测与监控:NEO能快速准确地识别图像中的异常和缺陷,适用于工业生产中的质量检测和监控系统。
-
医疗影像分析:NEO可以辅助医生进行医学影像的分析和诊断,结合病历文本信息提供更全面的诊断建议。
📝 站长洞察 (Editor’s Insight)
NEO的发布标志着多模态技术进入‘原生架构’时代。过去业界普遍采用的模块化拼接方案,如同给文字模型‘外挂’一个视觉模块,本质上存在信息交互的瓶颈。NEO从底层位置编码、注意力机制进行彻底重构,是对多模态认知范式的一次深刻反思。尤其值得关注的是其在中小参数规模(0.6B-8B)下的卓越表现,这精准击中了产业应用的核心需求——在端侧和边缘计算场景,我们既要‘聪明’,更要‘经济’。这比盲目追求万亿参数更具商业想象力。商汤此次开源,不仅展示了其在视觉大模型领域的深厚积累,更是意在推动行业形成新一代的技术标准。未来,谁能率先在原生多模态架构上构建起繁荣的开发者生态,谁就可能在下一代AI基础设施的竞争中占据制高点。NEO是投石问路,也是战略卡位。
