Pixel3DMM – 慕尼黑联合伦敦大学等推出的3D人脸重建框架

最近更新: 2026年6月7日下午8:02

Pixel3DMM是什么

Pixel3DMM是慕尼黑工业大学、伦敦大学学院和Synthesia联合推出的单图像3D人脸重建框架。框架基于DINO基础模型，引入专门的预测头，从单张RGB图像中准确重建出3D人脸的几何结构。Pixel3DMM在多个基准测试中表现出色，在处理复杂面部表情和姿态方面，显著优于现有方法。Pixel3DMM引入新的基准测试，涵盖多样的面部表情、视角和种族，为该领域的研究提供新的评估标准。

阅读目录

Pixel3DMM是什么
Pixel3DMM的主要功能
Pixel3DMM的技术原理
Pixel3DMM的项目地址
Pixel3DMM的应用场景

Pixel3DMM

Pixel3DMM的主要功能

高精度的3D人脸重建：从单张RGB图像中准确重建出3D人脸的几何结构，包括面部的形状、表情和姿态。
处理复杂表情和姿态：擅长处理复杂的面部表情和非正面视角的人脸图像，能有效地重建出高质量的3D人脸模型。
身份和表情的解耦：从表现性（posed）图像中恢复出中性（neutral）面部几何，即能区分和重建出人脸的身份信息和表情信息。

Pixel3DMM的技术原理

预训练的视觉变换器（Vision Transformer）：用 DINOv2 作为骨干网络，提取输入图像的特征。DINOv2 是强大的自监督学习模型，能提取出丰富的语义特征，为后续的几何线索预测提供坚实的基础。
预测头（Prediction Head）：在 DINOv2 骨干网络的基础上，添加额外的变换器块和上卷积层，将特征图分辨率提升到所需的尺寸，最终输出预测的几何线索。几何线索包括表面法线和uv坐标，为3D人脸模型的优化提供重要的约束信息。
FLAME 模型拟合：基于预测的表面法线和uv坐标作为优化目标，优化FLAME模型的参数重建3D人脸。FLAME是参数化的3D人脸模型，能表示人脸的身份、表情和姿态。基于最小化预测的几何线索与FLAME模型渲染结果之间的差异，优化FLAME模型的参数，实现高精度的3D人脸重建。
优化策略：在推理阶段，基于最小化预测的几何线索与FLAME模型渲染结果之间的差异，优化FLAME模型的参数。
数据准备与训练：用多个高质量的3D人脸数据集（如NPHM、FaceScape和Ava256），基于非刚性配准统一到FLAME模型的拓扑结构中，训练预测网络。数据集涵盖多种身份、表情、视角和光照条件，确保模型的泛化能力。