Hi3DGen – 港中文、字节、清华联合推出的3D几何生成框架

最近更新: 2026年6月8日下午7:11

Hi3DGen是什么

Hi3DGen 是香港中文大学（深圳）、字节跳动和清华大学的研究人员共同推出的高保真3D几何生成框架。能从2D图像生成高保真3D模型，通过基于法线图作为中间表示，Hi3DGen 可以生成丰富的几何细节，显著优于现有方法。框架包含三个关键组件：图像到法线估计器、法线到几何学习方法和3D数据合成管道。

阅读目录

Hi3DGen是什么
Hi3DGen的主要功能
Hi3DGen的技术原理
Hi3DGen的项目地址
Hi3DGen的应用场景

Hi3DGen

Hi3DGen的主要功能

从2D图像生成高保真3D模型：能将2D图像转换为具有丰富细节的3D几何模型。
图像到法线估计：通过噪声注入和双流训练，将低频和高频图像模式解耦，实现可泛化、稳定且锐利的法线估计。
法线到几何学习：基于法线正则化的潜在扩散学习，增强3D几何生成的保真度。
3D数据合成：构建高质量的3D数据集，支持训练。

Hi3DGen的技术原理

图像到法线估计器：组件通过噪声注入和双流训练，将图像的低频和高频模式解耦。低频模式负责整体形状和结构，高频模式负责细节和纹理。能生成可泛化、稳定且锐利的法线图，为后续的3D几何生成提供高质量的中间表示。
法线到几何学习方法：基于法线图作为正则化手段，对潜在扩散模型进行训练。增强了3D几何生成的保真度，使生成的3D模型能保留更多的细节。
3D数据合成管道：通过3D数据合成管道，构建高质量的3D数据集，用于训练模型。支持模型学习从2D图像到3D几何的映射关系。
两阶段生成过程：Hi3DGen 采用两阶段生成过程：
- 第一阶段：基础多视角生成：使用预训练的视频扩散模型，通过额外的相机姿态条件进行微调，将单视角图像转换为低分辨率的3D感知序列图像（轨道视频）。
- 第二阶段：3D感知多视角细化：将第一阶段生成的低分辨率多视角图像输入到3D感知视频到视频细化器中，进一步提升图像的分辨率和纹理细节。
3D高斯散射（3DGS）：从生成的高分辨率多视角图像中学习隐式3D模型，通过3DGS渲染额外的插值视图。
基于SDF的重建：通过基于SDF（Signed Distance Function）的重建方法，从增强的密集视图中提取高质量的3D网格。

Hi3DGen的项目地址

项目官网：https://stable-x.github.io/Hi3DGen/
Github仓库：https://github.com/Stable-X/Hi3DGen

Hi3DGen的应用场景

游戏开发：快速生成高质量的3D游戏资产，如角色、道具和场景。
影视制作：用于创建逼真的3D特效和动画，节省传统建模的时间和成本。
3D可视化：从不同角度查看和分析3D模型，适用于建筑设计、工业设计等领域。
虚拟摄影：生成不同视角的高质量图像，用于在线展示和营销。
文物保护：从文物的单张照片重建3D模型，用于数字化保存和研究。
医学成像：从医学图像（如X光、CT）生成3D模型，辅助诊断和治疗。

分享

EPLB – DeepSeek 开源的专家并行负载均衡器

Being-M0 – 北大联合人民大学推出的人形机器人通用动作生成模型

发表评价

发表评价取消回复