Amodal3R – 南洋理工联合牛津等推出的条件式 3D 生成模型

最近更新: 2026年6月8日下午2:11

Amodal3R是什么

Amodal3R 是条件式 3D 生成模型，能从部分可见的 2D 物体图像中推测并重建完整的 3D 形态和外观。模型基于“基础”3D 生成模型 TRELLIS 构建，通过引入掩码加权多头交叉注意力机制和遮挡感知注意力层，利用遮挡先验知识指导重建过程。Amodal3R 仅使用合成数据进行训练，能在真实场景中表现出色，显著优于现有的“2D 预测补全 + 3D 重建”两步法，为遮挡场景下的 3D 重建树立了新的基准。

阅读目录

Amodal3R是什么
Amodal3R的主要功能
Amodal3R的技术原理
Amodal3R的项目地址
Amodal3R的应用场景

Amodal3R

Amodal3R的主要功能

遮挡感知 3D 重建：针对遮挡严重的 2D 图像，Amodal3R 能结合 2D 片段信息与语义推测，生成完整的 3D 模型。
超越现有方法：相比于“2D 预测补全 + 3D 重建”两步法，Amodal3R 在遮挡情况下表现更优，建立了新的 3D 重建基准。

Amodal3R的技术原理

基础 3D 生成模型扩展：Amodal3R 从一个“基础”3D 生成模型出发，通过扩展能处理遮挡的 2D 图像，恢复出合理的 3D 几何形状和外观。
掩码加权多头交叉注意力机制：模型引入了掩码加权多头交叉注意力机制，能更好地处理遮挡问题。具体来说，通过掩码来引导注意力机制，使模型在生成过程中更加关注可见部分，利用遮挡先验知识来推测被遮挡区域的形状和纹理。
遮挡感知注意力层：在掩码加权多头交叉注意力机制之后，Amodal3R 引入了遮挡感知注意力层。
基于 DINOv2 的特征提取：Amodal3R 利用 DINOv2 进行高质量的视觉特征提取。DINOv2 提供的特征能为 3D 重建提供更多上下文信息，帮助模型更准确地进行 3D 重建。
合成数据训练与泛化能力：Amodal3R 仅使用合成数据进行训练，能学习到在真实场景中即使存在遮挡也能恢复完整 3D 对象的能力。表明模型具有较强的泛化能力，能将从合成数据中学到的知识应用到真实场景中。

Amodal3R的项目地址

项目官网：https://sm0kywu.github.io/Amodal3R/
HuggingFace模型库：https://huggingface.co/Sm0kyWu/Amodal3R
arXiv技术论文：https://arxiv.org/pdf/2503.13439

Amodal3R的应用场景

增强现实（AR）和虚拟现实（VR）：在 AR 和 VR 应用中，Amodal3R 可以帮助从部分可见的 2D 图像中重建完整的 3D 模型，提供更加沉浸式的体验。
机器人视觉：机器人在复杂环境中操作时，会遇到物体被部分遮挡的情况。Amodal3R 可以帮助机器人更准确地感知和理解环境中的物体，更好地进行路径规划和任务执行。
自动驾驶：在自动驾驶领域，车辆需要实时感知周围环境中的物体。Amodal3R 可以从部分遮挡的图像中重建完整的 3D 模型，帮助自动驾驶系统更准确地识别和处理复杂的交通场景。
3D 资产创建：在游戏开发、电影制作和其他需要 3D 资产的领域，Amodal3R 可以从简单的 2D 图像中生成高质量的 3D 模型，简化了 3D 建模的流程。
学术研究：Amodal3R 为计算机视觉和 3D 重建领域的研究提供了新的工具和方法。研究人员可以用模型探索更复杂的场景和更高效的重建算法。

分享

谷歌澄清 Chrome 搜索重定向至 AI 模式并非新计划

高德发布全球首个3D原生城市世界模型ABot-Earth0.5，已开放内测

发表评价

发表评价取消回复