X-Dyna – 字节联合斯坦福等高校推出的动画生成框架

最近更新: 2026年6月9日上午12:18

X-Dyna是什么

X-Dyna 是基于扩散模型的动画生成框架，基于驱动视频中的面部表情和身体动作，将单张人类图像动画化，生成具有真实感和环境感知能力的动态效果。核心是 Dynamics-Adapter 模块，能将参考图像的外观信息有效地整合到扩散模型的空间注意力中，同时保留运动模块生成流畅和复杂动态细节的能力。

阅读目录

X-Dyna

单张图像动画化：X-Dyna 能将单张人类图像通过面部表情和身体动作的驱动，生成具有真实感和环境感知能力的动态视频。
面部表情和身体动作控制：工具通过 Dynamics-Adapter 模块，将参考图像的外观信息整合到扩散模型中，同时保留运动模块的动态细节生成能力。还支持面部表情的身份解耦控制，能实现准确的表情转移。
混合数据训练：X-Dyna 在人类动作视频和自然场景视频的混合数据集上进行训练，能同时学习人类动作和环境动态。
高质量动态细节生成：通过轻量级的 Dynamics-Adapter 模块，X-Dyna 可以生成流畅且复杂的动态细节，适用于多种场景和人物动作。
零样本生成能力：X-Dyna 不依赖于目标人物的额外数据，可以直接从单张图像生成动画，无需额外的训练或数据输入。

Dynamics-Adapter 模块：X-Dyna 的核心是 Dynamics-Adapter，轻量级模块，用于将参考图像的外观信息整合到扩散模型的空间注意力中。具体机制如下：
- 参考图像整合：Dynamics-Adapter 将去噪后的参考图像与带噪声的序列并行输入到模型中，通过可训练的查询投影器和零初始化的输出投影器，将参考图像的外观信息作为残差注入到扩散模型中。
- 保持动态生成能力：该模块确保扩散模型的空间和时间生成能力不受影响，从而保留运动模块生成流畅和复杂动态细节的能力。
面部表情控制：除了身体姿态控制，X-Dyna 引入了一个局部控制模块（Local Control Module），用于捕获身份解耦的面部表情。通过合成跨身份的面部表情补丁，隐式学习面部表情控制，实现更准确的表情转移。
混合数据训练;X-Dyna 在人类动作视频和自然场景视频的混合数据集上进行训练。使模型能同时学习人类动作和环境动态，生成的视频不仅包含生动的人类动作，还能模拟自然环境效果（如瀑布、雨、烟花等）。

发表评价