Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: OmniHuman – 字节跳动推出的单张照片生成全身动态视频生成框架
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AIGC 资讯 > OmniHuman – 字节跳动推出的单张照片生成全身动态视频生成框架
AIGC 资讯

OmniHuman – 字节跳动推出的单张照片生成全身动态视频生成框架

站外新闻
最近更新: 2026年6月9日 上午8:23
SHARE

OmniHuman是什么

OmniHuman是字节跳动推出的端到端多模态条件化人类视频生成框架,能基于单张人类图像和运动信号(如音频、视频或两者的组合)生成逼真的人类视频。OmniHuman基于多模态运动条件混合训练策略,克服以往方法因高质量数据稀缺而导致的性能瓶颈,支持任意宽高比的图像输入(包括肖像、半身和全身图像),能适应多种场景。OmniHuman 在歌唱、对话、手势处理等方面表现出色,支持多种视觉和音频风格,同时兼容音频、视频及组合驱动,生成高质量的视频内容。

阅读目录
  • OmniHuman是什么
  • OmniHuman的主要功能
  • OmniHuman的技术原理
  • OmniHuman的项目地址
  • OmniHuman的应用场景

OmniHuman

OmniHuman的主要功能

  • 多模态驱动的视频生成:
    • 支持音频驱动(如说话、唱歌)和姿势驱动(如手势、动作),且能结合两者进行混合驱动,生成自然流畅的人类动作视频。
    • 支持多种输入形式,包括面部特写、半身像、全身像,兼容不同比例和风格的图像。
  • 高逼真度与多样化动作:
    • 生成的视频在视觉上高度逼真,具备自然的面部表情、肢体动作和流畅的动态效果。
    • 能处理复杂的动作和对象交互,例如唱歌时演奏乐器、手势与物体的自然互动等。
  • 灵活的视频生成:
    • 支持任意宽高比和时长的视频生成,根据输入信号生成不同长度的视频片段。
    • 兼容多种图像风格,包括写实、卡通和风格化人物。
  • 多场景适应性:在多种场景下生成高质量视频,包括不同的背景、光照条件和相机角度。

OmniHuman的技术原理

  • 混合条件训练策略:
    • 多条件融合:将文本、音频和姿势等多种运动相关条件混合到训练过程中,减少数据筛选导致的浪费,运用不同条件之间的互补性。
    • 分阶段训练:基于三阶段训练策略,逐步引入不同条件(文本、音频、姿势),根据条件的强弱调整训练比例,优化模型的泛化能力。
    • 训练原则:更强条件的任务用较弱条件的任务及其对应数据,扩展数据规模。条件越强,训练比例应越低,避免模型过度依赖强条件。
  • 扩散变换器架构:
    • 基于DiT的模型:OmniHuman 基于先进的视频生成模型架构DiT,用因果3DVAE(Causal 3DVAE)将视频投影到潜在空间,并基于流匹配(Flow Matching)作为训练目标。
    • 条件注入:
      • 音频条件:用wav2vec模型提取音频特征,将其与视频帧特征结合,生成音频令牌(tokens),基于交叉注意力机制注入到模型中。
      • 姿势条件:用姿势引导器(Pose Guider)处理姿势条件,将姿势热图特征与视频帧特征结合,生成姿势令牌(tokens),将其与噪声潜在表示一起输入模型。
      • 文本条件:保留DiT架构中的文本分支,用在描述生成视频的内容。
    • 参考条件处理:采用创新的参考条件策略,基于修改3D旋转位置嵌入(RoPE),将参考图像特征与视频特征融合,无需额外的网络模块。
    • 推理策略:
      • 分类器自由引导(CFG):在推理过程中,对音频和文本条件应用CFG策略,基于逐步降低CFG强度,平衡表达性和计算效率,减少生成视频中的瑕疵(如皱纹)。
      • 长视频生成:用上一个视频片段的最后几帧作为运动帧,确保长视频生成中的时间连贯性和身份一致性。

OmniHuman的项目地址

  • 项目官网:https://omnihuman-lab.github.io/
  • arXiv技术论文:https://arxiv.org/pdf/2502.01061

OmniHuman的应用场景

  • 影视与娱乐:生成虚拟角色动画、虚拟主播、音乐视频等,提升内容制作效率和视觉效果。
  • 游戏开发:为游戏角色和NPC生成自然动作,增强游戏沉浸感和互动性。
  • 教育与培训:创建虚拟教师、模拟训练视频,辅助语言学习和职业技能培训。
  • 广告与营销:生成个性化广告、品牌推广视频,提升用户参与度和内容吸引力。
  • 社交媒体与内容创作:帮助创作者快速生成高质量短视频,支持互动视频创作,增加内容趣味性
Midjourney 不同画面艺术流派风格 Prompts 对人像生成效果的影响
日日新SenseNova V6 – 商汤推出的多模态融合模型系列
APB – 清华联合腾讯等机构推出的分布式长上下文推理框架
NPOA – 开源舆情检测工具,实时监控网络舆情与分析
MoChat:港大开源AI智能体社交平台,自动发现合作者、过滤噪音,重新定义AI时代社交
分享
Email 复制链接 打印
Share
上一篇 CogView-4 – 智谱AI推出的文本到图像生成模型
下一篇 HMA – MIT联合Meta等推出的机器人动作视频动态建模方法
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

英伟达开源PersonaPlex全双工语音AI模型:同时听和说,角色可定制,重新定义人机交互
AI 工具 AIGC 资讯
智谱开源GLM-4.7-Flash:300亿参数免费调用,编程中文写作翻译全面超越同类模型
AI 工具 AIGC 资讯
COTA:超参数科技发布全球首款「白盒」游戏AI智能体,LLM驱动实现百毫秒响应与真人级战术决策
AI 工具 AIGC 资讯
深度解析马斯克开源x-Algorithm:X平台推荐算法如何用AI大模型颠覆信息流?
AI 工具

相关推荐

AI 工具AIGC 资讯

阿里Qwen团队重磅开源WebWorld:百万级真实网页世界模型,三大版本赋能下一代智能体

站外新闻
A11y Tree Qwen WebWorld 世界模型 智能体
AIGC 资讯

HoloPart – 港大联合 VAST 开源生成完整可编辑部件的 3D 模型

站外新闻
AIGC 资讯

Mureka O1 – 昆仑万维推出的音乐推理大模型

站外新闻
量子芯片科技感占位特色图
AI 工具AIGC 资讯最新趋势

Robinhood 发布 Agentic Trading 与 AI 信用卡:用户可将第三方 AI 智能体接入平台实现自主交易,开启金融自动化新纪元

站外新闻
Agentic Credit Card Agentic Trading AI 智能体 Model Context Protocol Robinhood
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI大模型 AI安全 AI工具 AI搜索 AI智能体 AI绘画 AI编程 AI视频 AI视频生成 AI设计 AI音乐生成 Anthropic chatgpt Claude Claude Code Claude Mythos Claude Opus 4.8 DeepSeek DuckDuckGo Gemini GPT-5.5 MCP协议 meta Midjourney MiniMax Mistral AI MoE架构 NVIDIA openai OpenClaw OpenRouter prompt stable diffusion SWE-Bench xAI 世界模型 丛林 人工智能 人物 企业级AI 具身智能 命令行工具 图像生成模型 多智能体 多模态 多模态AI 多模态大模型 大模型 大模型API 大模型应用 大模型推理 大语言模型 字节跳动 家居 小米 小红书 展台 开源 开源AI工具 开源大模型 开源工具 开源框架 开源模型 开源项目 强化学习 微软 教程 早报 昆仑万维 智能体编程 智谱AI 月之暗面 本地AI 海报设计 清华大学 生成式AI 科大讯飞 科幻 端侧AI 端侧大模型 端侧部署 网络安全 腾讯混元 英伟达 视频生成模型 语音合成 谷歌 谷歌AI 赛博朋克 边缘计算 通义千问 长上下文 阶跃星辰 阿里通义 面壁智能 香港大学
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.