Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: OmniHuman – 字节跳动推出的单张照片生成全身动态视频生成框架
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AIGC 资讯 > OmniHuman – 字节跳动推出的单张照片生成全身动态视频生成框架
AIGC 资讯

OmniHuman – 字节跳动推出的单张照片生成全身动态视频生成框架

站外新闻
最近更新: 2026年6月9日 上午8:23
SHARE

OmniHuman是什么

OmniHuman是字节跳动推出的端到端多模态条件化人类视频生成框架,能基于单张人类图像和运动信号(如音频、视频或两者的组合)生成逼真的人类视频。OmniHuman基于多模态运动条件混合训练策略,克服以往方法因高质量数据稀缺而导致的性能瓶颈,支持任意宽高比的图像输入(包括肖像、半身和全身图像),能适应多种场景。OmniHuman 在歌唱、对话、手势处理等方面表现出色,支持多种视觉和音频风格,同时兼容音频、视频及组合驱动,生成高质量的视频内容。

阅读目录
  • OmniHuman是什么
  • OmniHuman的主要功能
  • OmniHuman的技术原理
  • OmniHuman的项目地址
  • OmniHuman的应用场景

OmniHuman

OmniHuman的主要功能

  • 多模态驱动的视频生成:
    • 支持音频驱动(如说话、唱歌)和姿势驱动(如手势、动作),且能结合两者进行混合驱动,生成自然流畅的人类动作视频。
    • 支持多种输入形式,包括面部特写、半身像、全身像,兼容不同比例和风格的图像。
  • 高逼真度与多样化动作:
    • 生成的视频在视觉上高度逼真,具备自然的面部表情、肢体动作和流畅的动态效果。
    • 能处理复杂的动作和对象交互,例如唱歌时演奏乐器、手势与物体的自然互动等。
  • 灵活的视频生成:
    • 支持任意宽高比和时长的视频生成,根据输入信号生成不同长度的视频片段。
    • 兼容多种图像风格,包括写实、卡通和风格化人物。
  • 多场景适应性:在多种场景下生成高质量视频,包括不同的背景、光照条件和相机角度。

OmniHuman的技术原理

  • 混合条件训练策略:
    • 多条件融合:将文本、音频和姿势等多种运动相关条件混合到训练过程中,减少数据筛选导致的浪费,运用不同条件之间的互补性。
    • 分阶段训练:基于三阶段训练策略,逐步引入不同条件(文本、音频、姿势),根据条件的强弱调整训练比例,优化模型的泛化能力。
    • 训练原则:更强条件的任务用较弱条件的任务及其对应数据,扩展数据规模。条件越强,训练比例应越低,避免模型过度依赖强条件。
  • 扩散变换器架构:
    • 基于DiT的模型:OmniHuman 基于先进的视频生成模型架构DiT,用因果3DVAE(Causal 3DVAE)将视频投影到潜在空间,并基于流匹配(Flow Matching)作为训练目标。
    • 条件注入:
      • 音频条件:用wav2vec模型提取音频特征,将其与视频帧特征结合,生成音频令牌(tokens),基于交叉注意力机制注入到模型中。
      • 姿势条件:用姿势引导器(Pose Guider)处理姿势条件,将姿势热图特征与视频帧特征结合,生成姿势令牌(tokens),将其与噪声潜在表示一起输入模型。
      • 文本条件:保留DiT架构中的文本分支,用在描述生成视频的内容。
    • 参考条件处理:采用创新的参考条件策略,基于修改3D旋转位置嵌入(RoPE),将参考图像特征与视频特征融合,无需额外的网络模块。
    • 推理策略:
      • 分类器自由引导(CFG):在推理过程中,对音频和文本条件应用CFG策略,基于逐步降低CFG强度,平衡表达性和计算效率,减少生成视频中的瑕疵(如皱纹)。
      • 长视频生成:用上一个视频片段的最后几帧作为运动帧,确保长视频生成中的时间连贯性和身份一致性。

OmniHuman的项目地址

  • 项目官网:https://omnihuman-lab.github.io/
  • arXiv技术论文:https://arxiv.org/pdf/2502.01061

OmniHuman的应用场景

  • 影视与娱乐:生成虚拟角色动画、虚拟主播、音乐视频等,提升内容制作效率和视觉效果。
  • 游戏开发:为游戏角色和NPC生成自然动作,增强游戏沉浸感和互动性。
  • 教育与培训:创建虚拟教师、模拟训练视频,辅助语言学习和职业技能培训。
  • 广告与营销:生成个性化广告、品牌推广视频,提升用户参与度和内容吸引力。
  • 社交媒体与内容创作:帮助创作者快速生成高质量短视频,支持互动视频创作,增加内容趣味性
PanoDreamer – 单张图像生成连贯360° 3D场景的新方法
OpenFang:开源AI Agent操作系统,7个自主能力包实现7×24无人工作流自动化
港大携手快手微软清华:FilMaster AI电影系统实现剧本到成片全自动,革新影视制作流程
字节跳动重磅发布 Doubao-Seed-Code:256K长上下文+视觉理解,AI编程模型成本直降国内最低
GPT‑5.3 Instant – OpenAI 推出的轻量级对话模型
分享
Email 复制链接 打印
Share
上一篇 CogView-4 – 智谱AI推出的文本到图像生成模型
下一篇 HMA – MIT联合Meta等推出的机器人动作视频动态建模方法
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

流光脑波AI大脑占位特色图
2026年3月美国AI榜单巨变:Claude单月狂飙130%紧追ChatGPT,格局突变信号已现
AIGC 资讯 最新趋势
得物实战揭秘:AI Coding工具如何突破数仓开发’失忆’痛点,Harness工程引领新范式
AI 工具 AIGC 资讯
全息流体渐变通用占位特色图
历史性和解!Meta妥协规避审判,美国首例学校诉社交媒体成瘾案落幕,揭示行业司法风向
AIGC 资讯
量子芯片科技感占位特色图
Spotify与环球音乐联手:AI翻唱混音工具上线,正版版权终结Suno野蛮生长
AI 工具 AIGC 资讯 最新趋势

相关推荐

AIGC 资讯

Seed-Thinking-v1.5 – 字节跳动推出的最新思考模型

站外新闻
AI 工具AIGC 资讯

阿里Qwen3开源推理模型震撼发布:2350亿参数刷新AIME数学与LiveCode编程双料纪录

站外新闻
AI推理 Qwen3 开源大模型 混合专家模型 阿里巴巴
AI 工具AIGC 资讯

阿里开源Qwen3.6-35B-A3B:3B激活参数超越27B,MoE架构编程与多模态新标杆

站外新闻
MoE模型 Qwen3.6-35B-A3B 多模态大模型 智能体编程 混合专家模型
AIGC 资讯

Polar – 英伟达开源的智能体强化学习训练框架

站外新闻
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI大模型 AI安全 AI工具 AI智能体 AI模型 AI绘画 AI编程 AI编程助手 AI编程工具 AI视频生成 AI音乐生成 Anthropic Cerebras WSE-3 chatgpt Claude Claude Code DeepSeek Gemini GPT-5.3 Instant GPT-5.3-Codex-Spark GPT-5.4 MCP协议 meta Midjourney MiniMax Mistral AI MoE架构 openai prompt Qwen3 RAG SWE-Bench xAI 上海人工智能实验室 世界模型 人工智能 人物 代码生成 企业级AI 全模态大模型 具身智能 图像生成 图像生成模型 多智能体 多模态 多模态AI 多模态大模型 多模态模型 大模型 大模型应用 大语言模型 字节跳动 小红书 展台 开源 开源AI 开源AI工具 开源大模型 开源工具 开源框架 开源模型 开源项目 强化学习 微软 扩散模型 推理模型 教程 数字人 文本转语音 早报 昆仑万维 智谱AI 月之暗面 本地部署 清华大学 生成式AI 知识管理 美团 腾讯混元 自然语言处理 英伟达 蚂蚁集团 视觉语言模型 视频生成 视频生成模型 语音合成 谷歌 谷歌AI 谷歌DeepMind 轻量级模型 通义千问 阶跃星辰 阿里巴巴 阿里通义 面壁智能 香港大学
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.