OmniHuman – 字节跳动推出的单张照片生成全身动态视频生成框架

OmniHuman是什么

OmniHuman是字节跳动推出的端到端多模态条件化人类视频生成框架，能基于单张人类图像和运动信号（如音频、视频或两者的组合）生成逼真的人类视频。OmniHuman基于多模态运动条件混合训练策略，克服以往方法因高质量数据稀缺而导致的性能瓶颈，支持任意宽高比的图像输入（包括肖像、半身和全身图像），能适应多种场景。OmniHuman 在歌唱、对话、手势处理等方面表现出色，支持多种视觉和音频风格，同时兼容音频、视频及组合驱动，生成高质量的视频内容。

阅读目录

OmniHuman是什么
OmniHuman的主要功能
OmniHuman的技术原理
OmniHuman的项目地址
OmniHuman的应用场景

OmniHuman

OmniHuman的主要功能

多模态驱动的视频生成：
- 支持音频驱动（如说话、唱歌）和姿势驱动（如手势、动作），且能结合两者进行混合驱动，生成自然流畅的人类动作视频。
- 支持多种输入形式，包括面部特写、半身像、全身像，兼容不同比例和风格的图像。
高逼真度与多样化动作：
- 生成的视频在视觉上高度逼真，具备自然的面部表情、肢体动作和流畅的动态效果。
- 能处理复杂的动作和对象交互，例如唱歌时演奏乐器、手势与物体的自然互动等。
灵活的视频生成：
- 支持任意宽高比和时长的视频生成，根据输入信号生成不同长度的视频片段。
- 兼容多种图像风格，包括写实、卡通和风格化人物。
多场景适应性：在多种场景下生成高质量视频，包括不同的背景、光照条件和相机角度。

OmniHuman的技术原理

混合条件训练策略：
- 多条件融合：将文本、音频和姿势等多种运动相关条件混合到训练过程中，减少数据筛选导致的浪费，运用不同条件之间的互补性。
- 分阶段训练：基于三阶段训练策略，逐步引入不同条件（文本、音频、姿势），根据条件的强弱调整训练比例，优化模型的泛化能力。
- 训练原则：更强条件的任务用较弱条件的任务及其对应数据，扩展数据规模。条件越强，训练比例应越低，避免模型过度依赖强条件。
扩散变换器架构：
- 基于DiT的模型：OmniHuman 基于先进的视频生成模型架构DiT，用因果3DVAE（Causal 3DVAE）将视频投影到潜在空间，并基于流匹配（Flow Matching）作为训练目标。
- 条件注入：
  - 音频条件：用wav2vec模型提取音频特征，将其与视频帧特征结合，生成音频令牌（tokens），基于交叉注意力机制注入到模型中。
  - 姿势条件：用姿势引导器（Pose Guider）处理姿势条件，将姿势热图特征与视频帧特征结合，生成姿势令牌（tokens），将其与噪声潜在表示一起输入模型。
  - 文本条件：保留DiT架构中的文本分支，用在描述生成视频的内容。
- 参考条件处理：采用创新的参考条件策略，基于修改3D旋转位置嵌入（RoPE），将参考图像特征与视频特征融合，无需额外的网络模块。
- 推理策略：
  - 分类器自由引导（CFG）：在推理过程中，对音频和文本条件应用CFG策略，基于逐步降低CFG强度，平衡表达性和计算效率，减少生成视频中的瑕疵（如皱纹）。
  - 长视频生成：用上一个视频片段的最后几帧作为运动帧，确保长视频生成中的时间连贯性和身份一致性。

OmniHuman的项目地址

项目官网：https://omnihuman-lab.github.io/
arXiv技术论文：https://arxiv.org/pdf/2502.01061

OmniHuman的应用场景

影视与娱乐：生成虚拟角色动画、虚拟主播、音乐视频等，提升内容制作效率和视觉效果。
游戏开发：为游戏角色和NPC生成自然动作，增强游戏沉浸感和互动性。
教育与培训：创建虚拟教师、模拟训练视频，辅助语言学习和职业技能培训。
广告与营销：生成个性化广告、品牌推广视频，提升用户参与度和内容吸引力。
社交媒体与内容创作：帮助创作者快速生成高质量短视频，支持互动视频创作，增加内容趣味性

OmniHuman – 字节跳动推出的单张照片生成全身动态视频生成框架

OmniHuman是什么

OmniHuman的主要功能

OmniHuman的技术原理

OmniHuman的项目地址

OmniHuman的应用场景

发表评价取消回复

最近更新

[AI生图咒语] 严肃职业肖像摄影提示词 (LinkedIn/商务高管头像)

Cosmos 3 Edge – 英伟达开源的 4B 参数世界模型

BigMac – 小红书开源的多模态大模型流水并行训练框架

Kimi K3 攻防考卷翻车：漏洞利用只到美国前沿模型四成，蒸馏疑云被安全机构摆上台

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

Support

OmniHuman是什么

OmniHuman的主要功能

OmniHuman的技术原理

OmniHuman的项目地址

OmniHuman的应用场景

发表评价 取消回复

最近更新

相关推荐

发表评价取消回复