Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: 字节港中文等重磅开源OmniShow:12.3B参数统一框架,首个支持RAP2V的端到端人-物交互视频生成模型
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AI 工具 > 字节港中文等重磅开源OmniShow:12.3B参数统一框架,首个支持RAP2V的端到端人-物交互视频生成模型
AI 工具AIGC 资讯

字节港中文等重磅开源OmniShow:12.3B参数统一框架,首个支持RAP2V的端到端人-物交互视频生成模型

站外新闻
最近更新: 2026年5月25日 下午10:29
AIGC OmniShow RAP2V 字节跳动 视频生成模型
SHARE

💡 站外导读:在AIGC视频生成领域,如何精准、连贯地生成包含复杂人物与物体交互的长视频,一直是行业痛点。传统方法往往需要多个专用模型拼接,或在音视频同步、多模态控制上存在瓶颈。字节跳动联合香港中文大学、香港大学等顶尖机构,重磅开源了OmniShow——一个参数高效(12.3B)却功能强大的统一框架,首次将参考图像、音频、姿势和文本四种模态输入整合到单一的端到端模型中,旨在一站式解决高质量人-物交互视频的生成难题。

OmniShow是什么

OmniShow是字节跳动联合港中文、莫纳什、港大开源的多模态人-物交互视频生成模型。作为首个支持RAP2V(参考图+音频+姿势)的端到端框架,模型统一处理文本、图像、音频、姿势四种输入,单一12.3B参数模型即可生成10秒高质量视频。模型采用门控局部上下文注意力等技术实现音视频精确同步,在HOIVG-Bench基准上达多项SOTA。

阅读目录
  • OmniShow是什么
  • OmniShow的主要功能
  • OmniShow的技术原理
  • 如何使用OmniShow
  • OmniShow的关键信息和使用要求
  • OmniShow的核心优势
  • OmniShow的项目地址
  • OmniShow的同类竞品对比
  • OmniShow的应用场景
      • 📝 站长洞察 (Editor’s Insight)

OmniShow

OmniShow的主要功能

  • 全模态条件输入:作为首个完整支持 RAP2V(Reference+Audio+Pose-to-Video)的端到端框架,OmniShow 能同时接收参考图像、音频、姿势信号和文本描述四种模态输入,实现对人-物交互视频的全面控制。
  • 多任务统一生成:模型通过灵活组合不同输入条件,可在单一架构内完成多种视频生成任务,包括基于参考图的视频生成(R2V)、音频驱动的数字人视频(RA2V)、姿势驱动的动画(RP2V)以及全模态精确控制(RAP2V)。
  • 高质量长视频合成:OmniShow 原生支持生成长达 10 秒的连续视频,在保持角色外观一致性的同时,实现口型、表情和肢体动作与音频的精确同步,输出达到行业级视觉质量。
  • 物体替换与视频混剪:用户可在保留人物动作和姿势的前提下替换视频中的物体,或从不同来源重组姿势、物体和人物参考,实现灵活的创意视频编辑与合成。

OmniShow的技术原理

  • 统一通道条件注入:通过在通道维度拼接参考图像和姿势信号,将多模态条件高效注入预训练视频生成模型,避免了传统调制方法对基础模型预训练先验的破坏,确保在引入人-物外观和动作控制的同时维持原始生成质量。
  • 门控局部上下文注意力:采用掩码注意力配合可学习门控向量的设计,使模型能动态关注音频特征与局部面部/身体区域的关联,实现口型、表情和肢体动作与音频信号的精确时间同步,解决多模态融合时的特征冲突问题。
  • 解耦-联合训练策略:针对 R2V 和 A2V 任务数据异构且规模不平衡的挑战,分别训练专用子模型学习各模态的独立映射关系,通过权重插值进行融合,在联合数据上微调,有效整合异构数据集并提升全模态输入下的生成一致性。

如何使用OmniShow

  • 获取开源代码:从官方渠道克隆代码库到本地,按照 README 配置包含依赖项的运行环境。
  • 准备多模态输入:根据生成任务需求,整理参考图像(人物或物体外观)、驱动音频、姿势序列文件及文本描述。
  • 执行视频生成:调用模型 API 或运行推理脚本,输入组合后的多模态条件,生成长达 10 秒的高质量人-物交互视频并保存输出结果。

OmniShow的关键信息和使用要求

  • 项目定位:OmniShow 是字节跳动联合香港中文大学、莫纳什大学、香港大学共同开源的行业级多模态人-物交互视频生成模型,专为复杂的人与物体互动场景设计。
  • 技术规模:模型采用 12.3B 参数架构,是同类模型(如 HuMo-17B、Phantom-14B)中最为参数高效的方案,在保持高性能的同时显著降低计算资源需求。
  • 核心能力:作为首个完整支持 RAP2V(Reference+Audio+Pose-to-Video)的端到端统一框架,能同时接收参考图像、音频信号、姿势序列和文本描述四种模态输入进行联合推理。
  • 生成质量:原生支持生成最长 10 秒的连续视频,通过门控局部上下文注意力技术实现口型、表情、肢体动作与音频的精确同步,达到行业级视觉标准。
  • 性能表现:在自建的 HOIVG-Bench 基准测试中,OmniShow 在 R2V、RA2V、RP2V 和 RAP2V 四项任务上均达到 SOTA 水平,是唯一支持全模态输入的领先方案。

OmniShow的核心优势

  • 全模态统一架构:作为业界首个完整支持 RAP2V(参考图+音频+姿势→视频)的端到端框架,OmniShow 实现了文本、图像、音频、姿势四种条件的原生统一处理,无需多个专用模型拼接即可应对复杂的多模态输入组合。
  • 极致参数效率:12.3B 参数在 HOIVG-Bench 基准上达到多项 SOTA,显著优于 HuMo-17B(17B)、Phantom-14B(14B)等更大参数模型,在保持行业级生成质量的同时大幅降低推理成本。
  • 单一模型多任务覆盖:通过灵活的输入组合策略,一个 OmniShow 模型即可胜任 R2V(参考图生成)、RA2V(音频驱动数字人)、RP2V(姿势驱动动画)和完整 RAP2V(全模态控制)四类任务,无需针对不同场景切换模型。
  • 音视频精确同步:采用创新的门控局部上下文注意力机制,通过可学习门控向量和掩码注意力实现口型、面部表情、肢体动作与音频信号的高度同步,在 Sync-C 指标上达到 8.612 的领先水平。
  • 长视频原生生成:不同于依赖滑动窗口的外推方法,OmniShow 原生支持一次生成长达 10 秒的连续视频,在保持角色外观、物体样式和时间连贯性方面具有显著优势。

OmniShow的项目地址

  • 项目官网:https://correr-zhou.github.io/OmniShow/
  • GitHub仓库:https://github.com/Correr-Zhou/OmniShow

OmniShow的同类竞品对比

对比维度 OmniShow HuMo-17B Phantom-14B
参数规模 12.3B(最轻量) 17B(+38%) 14B(+14%)
支持任务 R2V / RA2V / RP2V / RAP2V(全模态) R2V / RA2V(无姿势) 仅 R2V(无音频/姿势)
架构特点 端到端统一框架,单模型多任务 专用人-物交互模型,需配合其他工具 基础参考图生成模型
R2V 质量(NexusScore) 0.389(SOTA) 0.346(低 11%) 0.366(低 6%)
RA2V 同步(Sync-C) 8.612(SOTA) 8.028(低 7%) 不支持
RP2V 精度(PCK) 0.460(SOTA) 不支持 不支持
视频时长 原生 10 秒 通常 5-8 秒 通常 5 秒
应用场景 数字人、动画、物体替换、混剪全覆盖 有限的人-物交互 静态外观迁移

OmniShow的应用场景

  • 电商产品展示:通过参考图像替换功能,可在保持模特动作和姿势不变的情况下,快速替换展示服装、配饰或商品,实现高效的商品视频化呈现。
  • 数字人短视频制作:基于 RA2V(参考图+音频)能力,输入人物照片和语音可生成口型同步的说话或唱歌视频,适用虚拟主播、社交媒体内容创作。
  • 创意视频混剪:用多模态重组能力,从不同来源提取姿势、物体和人物参考进行创意合成,实现跨视频的个性化内容编辑与二次创作。
  • 互动娱乐与游戏:借助姿势驱动(RP2V)功能,将用户动作捕捉实时转化为游戏角色或虚拟形象的动画,支持全身姿态控制的实时交互体验。
  • 广告与营销内容生成:结合全模态输入(RAP2V),精确控制品牌代言人外观、台词音频和肢体动作,批量生成风格统一的宣传视频素材。

📝 站长洞察 (Editor’s Insight)

OmniShow的发布,标志着视频生成技术从“单点突破”迈向“系统级统一”的关键一步。其核心价值不仅在于首个支持RAP2V全模态输入的端到端框架,更在于其出色的参数效率(12.3B超越17B和14B模型)和原生长视频生成能力。这背后反映了行业两大趋势:一是模型架构从“专用”向“通用”演进,追求单一模型覆盖多任务,降低部署与使用复杂度;二是对“精准控制”和“多模态同步”提出了更高要求,尤其是音视频的毫秒级同步,这决定了数字人、虚拟主播等应用的真实感上限。字节此次联合学术界开源,既展示了其扎实的工程化与算法融合能力,也意在引领视频生成的标准制定。对于开发者而言,一个轻量、开源且性能SOTA的统一基座模型,将极大降低创新门槛,加速短视频、电商、营销等场景的AIGC应用落地。

谷歌 Gemini 算力计费引爆全球用户怒火!紧急宣布额度永久翻 3 倍补偿
如果Prada香水的摄影师变成Midjourney会怎么样?
Magic Studio
Models.dev 开源了!一站式 AI 模型数据库,开发者选型成本估算终极指南
探索提示工程的多彩世界 [译]
TAGGED:AIGCOmniShowRAP2V字节跳动视频生成模型
分享
Email 复制链接 打印
Share
上一篇 仅1.75公斤!海尔W3 AI外骨骼机器人颠覆行业,轻量化与智能助力双重突破
下一篇 量子芯片科技感占位特色图 OpenAI Codex重磅更新:Mac锁屏也能自动执行任务,开发者生产力迎来颠覆式提升
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

Spark 2.0 重磅开源!李飞飞团队 Web 端 3D 高斯溅射引擎,突破亿级 splats 实时渲染瓶颈
AI 工具 AIGC 资讯
百度ERNIE-Image 8B文生图模型重磅开源:中英长文本精准渲染+24GB显存本地跑
AI 工具 AIGC 资讯
面壁智能联手清华开源BitCPM-CANN:手机端跑大模型内存锐减6倍,性能保留率高达97%
AIGC 资讯
量子芯片科技感占位特色图
OpenAI Codex重磅更新:Mac锁屏也能自动执行任务,开发者生产力迎来颠覆式提升
AI 工具 AIGC 资讯

相关推荐

AI 工具

TinyWow

remaker
AI 工具

Colorify.AI照片上色

remaker
AI 工具

Artificial Printer

remaker
AI 工具

Excel Formula Bot

remaker
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI安全 AI工具 AI智能体 AI生成内容 AI绘画 AI编程 AI编程工具 AI视频 AI设计 Anthropic chatgpt Claude Claude Code Claude Mythos DALL-E3 DeepSeek Gemini GPT-5.5 Midjourney MoE MoE架构 MoE模型 NVIDIA openai Pika prompt runway stable diffusion SWE-Bench xAI 世界模型 丛林 人工智能 人物 企业级AI 具身智能 办公自动化 华为昇腾 咒语 商汤科技 图像生成模型 多模态 多模态大模型 大模型 大模型API 大模型应用 大语言模型 女性 字节跳动 室内设计 家居 展台 建筑 建筑设计 开发者工具 开源 开源大模型 开源工具 开源平台 开源框架 开源模型 强化学习 微摄影 微软 提示词 教程 新加坡 新闻 早报 智能体 智能体编程 月之暗面 水果 海报设计 清华大学 游戏 生成式AI 破碎 科幻 窗 端侧AI 网络安全 背景 腾讯混元 芭比 英伟达 视频编辑 语音合成 赛博朋克 运动 阶跃星辰 阿里通义 阿里通义千问 风景 香水 马斯克
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.