Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: ENEL – 上海 AI Lab 推出的无编码器3D大型多模态模型
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AIGC 资讯 > ENEL – 上海 AI Lab 推出的无编码器3D大型多模态模型
AIGC 资讯

ENEL – 上海 AI Lab 推出的无编码器3D大型多模态模型

站外新闻
最近更新: 2026年6月9日 上午3:33
SHARE

ENEL是什么

ENEL(Exploring the Potential of Encoder-free Architectures in 3D LMMs)是创新的无编码器3D大型多模态模型(3D LMM),解决传统编码器架构在3D理解任务中的局限性。ENEL通过去除3D编码器,直接将点云数据转换为离散的点标记,与文本标记拼接后输入到大型语言模型(LLM)中。模型通过两种关键策略实现高效语义编码和几何结构理解:一是LLM嵌入的语义编码策略,通过混合语义损失提取高级语义;二是分层几何聚合策略,使LLM能关注点云的局部细节。

阅读目录
  • ENEL是什么
  • ENEL的主要功能
  • ENEL的技术原理
  • ENEL的项目地址
  • ENEL的应用场景

ENEL的7B模型在多个3D任务上表现出色,包括3D对象分类、3D对象字幕生成和3D视觉问答(VQA)。在Objaverse基准测试中,ENEL-7B的字幕生成任务GPT分数达到50.92%,分类任务达到55.0%,在3D MM-Vet数据集的VQA任务中达到42.7%,均与现有的13B模型(如ShapeLLM)相当。ENEL的无编码器架构在语义编码方面表现出色,能更好地捕捉点云与文本之间的语义相关性。

ENEL

ENEL的主要功能

  • 无编码器架构:ENEL去除了传统的3D编码器,直接将点云数据通过标记嵌入模块转换为离散点标记,与文本标记拼接后输入到LLM中。避免了编码器架构中常见的点云分辨率限制和语义嵌入不匹配问题。
  • 高级语义提取:ENEL通过LLM嵌入的语义编码策略,在预训练阶段引入混合语义损失(Hybrid Semantic Loss),能提取点云的高级语义特征,同时保留关键的几何结构。
  • 局部几何感知:在指令调优阶段,ENEL采用分层几何聚合策略,使LLM能主动感知点云的局部细节。通过聚合和传播操作,将局部几何信息融入LLM的早期层,实现对复杂3D结构的精细理解。
  • 多任务3D理解:ENEL在多个3D任务上表现出色,包括3D对象分类、3D对象字幕生成和3D视觉问答(VQA)。7B模型在Objaverse基准测试中达到了55.0%的分类准确率和50.92%的字幕生成GPT分数,性能与13B的ShapeLLM相当。
  • 高效语义对齐:ENEL通过无编码器架构实现了点云与文本模态之间的高效语义对齐,能更好地捕捉两者之间的语义相关性,为3D多模态任务提供了更强大的语义基础。

ENEL的技术原理

  • LLM嵌入的语义编码(LLM-embedded Semantic Encoding):在预训练阶段,ENEL通过探索不同的点云自监督损失(如掩码建模损失、重建损失、对比损失和知识蒸馏损失),提出了一种混合语义损失(Hybrid Semantic Loss)。这种损失函数能将点云的高级语义信息嵌入到LLM中,替代传统3D编码器的功能。
  • 分层几何聚合(Hierarchical Geometry Aggregation):在指令调优阶段,ENEL引入了分层几何聚合策略。策略通过在LLM的早期层中对点云进行聚合和传播操作,将归纳偏置融入LLM,能关注点云的局部细节。具体而言,使用最远点采样(FPS)和k近邻(k-NN)算法对点云进行下采样和聚合,逐步整合点云的细粒度语义信息。

ENEL的项目地址

  • Github仓库:https://github.com/Ivan-Tang-3D/ENEL
  • arXiv技术论文:https://arxiv.org/pdf/2502.09620

ENEL的应用场景

  • 3D对象分类:ENEL能对3D对象进行高效的分类,适用于工业自动化、机器人视觉和自动驾驶等领域,能快速识别和分类复杂的3D物体。
  • 3D对象字幕生成:可用于生成对3D模型的描述性文本,帮助用户快速理解3D场景中的关键信息,适用于虚拟现实(VR)、增强现实(AR)以及3D建模工具中。
  • 3D视觉问答(VQA):能回答与3D场景相关的问题,例如在医学影像分析、建筑设计和教育领域中,帮助用户快速获取3D数据中的关键信息。
  • 复杂3D几何结构理解:适用于需要精确理解复杂几何形状的场景,如航空航天、汽车制造和珠宝设计等领域,能帮助工程师和设计师更好地理解和优化3D模型。
MiniMax Speech 2.6语音模型发布:超低延时+40+语种,Fluent LoRA技术引领AIGC新范式
Mini DALL·E 3 – 北京理工联合上海 AI Lab等高校推出的交互式文生图框架
中科院重磅开源Jodi:一个模型统一图像生成与理解,开启多模态AI新范式
MiniMax M3 – MiniMax 推出的新一代 AI 模型
Ev-DeblurVSR – 中科大等机构推出的视频画面增强模型
分享
Email 复制链接 打印
Share
上一篇 MoBA – Moonshot AI 提出的新型注意力机制
下一篇 SPRIGHT – 专注于空间关系的大型视觉语言数据集
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

流光脑波AI大脑占位特色图
2026年3月美国AI榜单巨变:Claude单月狂飙130%紧追ChatGPT,格局突变信号已现
AIGC 资讯 最新趋势
得物实战揭秘:AI Coding工具如何突破数仓开发’失忆’痛点,Harness工程引领新范式
AI 工具 AIGC 资讯
全息流体渐变通用占位特色图
历史性和解!Meta妥协规避审判,美国首例学校诉社交媒体成瘾案落幕,揭示行业司法风向
AIGC 资讯
量子芯片科技感占位特色图
Spotify与环球音乐联手:AI翻唱混音工具上线,正版版权终结Suno野蛮生长
AI 工具 AIGC 资讯 最新趋势

相关推荐

AI 工具AIGC 资讯最新趋势

谷歌强推AI搜索遭反噬,DuckDuckGo下载量飙升30%:隐私搜索如何逆势崛起?

站外新闻
AI Overviews DuckDuckGo 用户选择权 谷歌AI搜索 隐私保护
AI 工具AIGC 资讯

Meta SAM 3开源:AI视觉分割模型革命,支持文本/视频零样本分割|性能翻倍

站外新闻
meta SAM 3 视觉分割模型 计算机视觉 零样本学习
AI 工具AIGC 资讯

SoulX-Singer:Soul App联合双高校开源,零样本歌声合成新标杆,全面解析其技术与应用

站外新闻
AIGC Soul App 开源模型 歌声合成 零样本学习
AIGC 资讯

GPT‑5.3 Instant – OpenAI 推出的轻量级对话模型

站外新闻
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI大模型 AI安全 AI工具 AI智能体 AI模型 AI绘画 AI编程 AI编程助手 AI编程工具 AI视频生成 AI音乐生成 Anthropic Cerebras WSE-3 chatgpt Claude Claude Code DeepSeek Gemini GPT-5.3 Instant GPT-5.3-Codex-Spark GPT-5.4 MCP协议 meta Midjourney MiniMax Mistral AI MoE架构 openai prompt Qwen3 RAG SWE-Bench xAI 上海人工智能实验室 世界模型 人工智能 人物 代码生成 企业级AI 全模态大模型 具身智能 图像生成 图像生成模型 多智能体 多模态 多模态AI 多模态大模型 多模态模型 大模型 大模型应用 大语言模型 字节跳动 小红书 展台 开源 开源AI 开源AI工具 开源大模型 开源工具 开源框架 开源模型 开源项目 强化学习 微软 扩散模型 推理模型 教程 数字人 文本转语音 早报 昆仑万维 智谱AI 月之暗面 本地部署 清华大学 生成式AI 知识管理 美团 腾讯混元 自然语言处理 英伟达 蚂蚁集团 视觉语言模型 视频生成 视频生成模型 语音合成 谷歌 谷歌AI 谷歌DeepMind 轻量级模型 通义千问 阶跃星辰 阿里巴巴 阿里通义 面壁智能 香港大学
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.