JoyGen – 京东和港大推出音频驱动的3D说话人脸视频生成框架

最近更新: 2026年6月9日上午1:53

JoyGen是什么

JoyGen是京东科技和香港大学推出的，音频驱动的3D说话人脸视频生成框架，专注于实现精确的唇部与音频同步及高质量的视觉效果。JoyGen结合音频特征和面部深度图，驱动唇部运动的生成，用单步UNet架构进行高效的视频编辑。JoyGen在训练过程中用包含130小时中文视频的高质量数据集，在开源的HDTF数据集上验证其优越性能。实验结果表明，JoyGen在唇部与音频同步和视觉质量方面均达到行业领先水平，为说话人脸视频编辑领域提供了新的技术解决方案。

阅读目录

JoyGen是什么
JoyGen的主要功能
JoyGen的技术原理
JoyGen的项目地址
JoyGen的应用场景

JoyGen

JoyGen的主要功能

唇部与音频同步：基于音频驱动的唇部运动生成技术，确保视频中人物的唇部动作与音频内容精准对应。
高质量视觉效果：生成的视频具有逼真的视觉效果，包括自然的面部表情和清晰的唇部细节。
视频编辑与优化：在现有视频的基础上进行唇部运动的编辑和优化，无需重新生成整个视频。
多语言支持：支持中文和英文等不同语言的视频生成，适应多种应用场景。

JoyGen的技术原理

第一阶段：
- 音频驱动的唇部运动生成 3D重建模型：3D重建模型从输入的面部图像中提取身份系数，身份系数用在描述人物的面部特征。
- 音频到运动模型：基于音频到运动模型将音频信号转换为表情系数，表情系数用于控制唇部的运动。
- 深度图生成：结合身份系数和表情系数生成面部的3D网格，基于可微渲染技术生成面部深度图，用在后续的视频合成。
第二阶段：
- 视觉外观合成单步UNet架构：用单步UNet网络将音频特征和深度图信息整合到视频帧的生成过程中。UNet基于编码器将输入图像映射到低维潜在空间，结合音频特征和深度图信息进行唇部运动的生成。
- 跨注意力机制：音频特征基于跨注意力机制与图像特征交互，确保生成的唇部运动与音频信号高度一致。
- 解码与优化：生成的潜在表示基于解码器还原为图像空间，生成最终的视频帧。基于L1损失函数在潜在空间和像素空间进行优化，确保生成视频的高质量和同步性。
数据集支持：JoyGen使用包含130小时中文视频的高质量数据集进行训练，确保模型能适应多种场景和语言环境。