ENEL – 上海 AI Lab 推出的无编码器3D大型多模态模型

ENEL是什么

ENEL（Exploring the Potential of Encoder-free Architectures in 3D LMMs）是创新的无编码器3D大型多模态模型（3D LMM），解决传统编码器架构在3D理解任务中的局限性。ENEL通过去除3D编码器，直接将点云数据转换为离散的点标记，与文本标记拼接后输入到大型语言模型（LLM）中。模型通过两种关键策略实现高效语义编码和几何结构理解：一是LLM嵌入的语义编码策略，通过混合语义损失提取高级语义；二是分层几何聚合策略，使LLM能关注点云的局部细节。

阅读目录

ENEL是什么
ENEL的主要功能
ENEL的技术原理
ENEL的项目地址
ENEL的应用场景

ENEL的7B模型在多个3D任务上表现出色，包括3D对象分类、3D对象字幕生成和3D视觉问答（VQA）。在Objaverse基准测试中，ENEL-7B的字幕生成任务GPT分数达到50.92%，分类任务达到55.0%，在3D MM-Vet数据集的VQA任务中达到42.7%，均与现有的13B模型（如ShapeLLM）相当。ENEL的无编码器架构在语义编码方面表现出色，能更好地捕捉点云与文本之间的语义相关性。

ENEL

ENEL的主要功能

无编码器架构：ENEL去除了传统的3D编码器，直接将点云数据通过标记嵌入模块转换为离散点标记，与文本标记拼接后输入到LLM中。避免了编码器架构中常见的点云分辨率限制和语义嵌入不匹配问题。
高级语义提取：ENEL通过LLM嵌入的语义编码策略，在预训练阶段引入混合语义损失（Hybrid Semantic Loss），能提取点云的高级语义特征，同时保留关键的几何结构。
局部几何感知：在指令调优阶段，ENEL采用分层几何聚合策略，使LLM能主动感知点云的局部细节。通过聚合和传播操作，将局部几何信息融入LLM的早期层，实现对复杂3D结构的精细理解。
多任务3D理解：ENEL在多个3D任务上表现出色，包括3D对象分类、3D对象字幕生成和3D视觉问答（VQA）。7B模型在Objaverse基准测试中达到了55.0%的分类准确率和50.92%的字幕生成GPT分数，性能与13B的ShapeLLM相当。
高效语义对齐：ENEL通过无编码器架构实现了点云与文本模态之间的高效语义对齐，能更好地捕捉两者之间的语义相关性，为3D多模态任务提供了更强大的语义基础。

ENEL的技术原理

LLM嵌入的语义编码（LLM-embedded Semantic Encoding）：在预训练阶段，ENEL通过探索不同的点云自监督损失（如掩码建模损失、重建损失、对比损失和知识蒸馏损失），提出了一种混合语义损失（Hybrid Semantic Loss）。这种损失函数能将点云的高级语义信息嵌入到LLM中，替代传统3D编码器的功能。
分层几何聚合（Hierarchical Geometry Aggregation）：在指令调优阶段，ENEL引入了分层几何聚合策略。策略通过在LLM的早期层中对点云进行聚合和传播操作，将归纳偏置融入LLM，能关注点云的局部细节。具体而言，使用最远点采样（FPS）和k近邻（k-NN）算法对点云进行下采样和聚合，逐步整合点云的细粒度语义信息。

ENEL的项目地址

Github仓库：https://github.com/Ivan-Tang-3D/ENEL
arXiv技术论文：https://arxiv.org/pdf/2502.09620

ENEL的应用场景

3D对象分类：ENEL能对3D对象进行高效的分类，适用于工业自动化、机器人视觉和自动驾驶等领域，能快速识别和分类复杂的3D物体。
3D对象字幕生成：可用于生成对3D模型的描述性文本，帮助用户快速理解3D场景中的关键信息，适用于虚拟现实（VR）、增强现实（AR）以及3D建模工具中。
3D视觉问答（VQA）：能回答与3D场景相关的问题，例如在医学影像分析、建筑设计和教育领域中，帮助用户快速获取3D数据中的关键信息。
复杂3D几何结构理解：适用于需要精确理解复杂几何形状的场景，如航空航天、汽车制造和珠宝设计等领域，能帮助工程师和设计师更好地理解和优化3D模型。

ENEL – 上海 AI Lab 推出的无编码器3D大型多模态模型

ENEL是什么

ENEL的主要功能

ENEL的技术原理

ENEL的项目地址

ENEL的应用场景

发表评价取消回复

最近更新

地平线把AI基座大模型装进大众：白盒授权酷睿程，L3/L4 量产按下加速键

AI应用性别鸿沟扩大:研究称女性生成式AI使用率低22%

GPT‑5.3 Instant – OpenAI 推出的轻量级对话模型

编程神器再进化！Claude Code深度集成iOS模拟器，AI自动帮你写代码做测试

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

Support

ENEL是什么

ENEL的主要功能

ENEL的技术原理

ENEL的项目地址

ENEL的应用场景

发表评价 取消回复

最近更新

相关推荐

发表评价取消回复