字节港中文等重磅开源OmniShow：12.3B参数统一框架，首个支持RAP2V的端到端人-物交互视频生成模型

💡 站外导读：在AIGC视频生成领域，如何精准、连贯地生成包含复杂人物与物体交互的长视频，一直是行业痛点。传统方法往往需要多个专用模型拼接，或在音视频同步、多模态控制上存在瓶颈。字节跳动联合香港中文大学、香港大学等顶尖机构，重磅开源了OmniShow——一个参数高效（12.3B）却功能强大的统一框架，首次将参考图像、音频、姿势和文本四种模态输入整合到单一的端到端模型中，旨在一站式解决高质量人-物交互视频的生成难题。

OmniShow是什么

OmniShow是字节跳动联合港中文、莫纳什、港大开源的多模态人-物交互视频生成模型。作为首个支持RAP2V（参考图+音频+姿势）的端到端框架，模型统一处理文本、图像、音频、姿势四种输入，单一12.3B参数模型即可生成10秒高质量视频。模型采用门控局部上下文注意力等技术实现音视频精确同步，在HOIVG-Bench基准上达多项SOTA。

阅读目录

OmniShow是什么
OmniShow的主要功能
OmniShow的技术原理
如何使用OmniShow
OmniShow的关键信息和使用要求
OmniShow的核心优势
OmniShow的项目地址
OmniShow的同类竞品对比
OmniShow的应用场景

📝 站长洞察 (Editor’s Insight)

OmniShow

OmniShow的主要功能

全模态条件输入：作为首个完整支持 RAP2V（Reference+Audio+Pose-to-Video）的端到端框架，OmniShow 能同时接收参考图像、音频、姿势信号和文本描述四种模态输入，实现对人-物交互视频的全面控制。
多任务统一生成：模型通过灵活组合不同输入条件，可在单一架构内完成多种视频生成任务，包括基于参考图的视频生成（R2V）、音频驱动的数字人视频（RA2V）、姿势驱动的动画（RP2V）以及全模态精确控制（RAP2V）。
高质量长视频合成：OmniShow 原生支持生成长达 10 秒的连续视频，在保持角色外观一致性的同时，实现口型、表情和肢体动作与音频的精确同步，输出达到行业级视觉质量。
物体替换与视频混剪：用户可在保留人物动作和姿势的前提下替换视频中的物体，或从不同来源重组姿势、物体和人物参考，实现灵活的创意视频编辑与合成。

OmniShow的技术原理

统一通道条件注入：通过在通道维度拼接参考图像和姿势信号，将多模态条件高效注入预训练视频生成模型，避免了传统调制方法对基础模型预训练先验的破坏，确保在引入人-物外观和动作控制的同时维持原始生成质量。
门控局部上下文注意力：采用掩码注意力配合可学习门控向量的设计，使模型能动态关注音频特征与局部面部/身体区域的关联，实现口型、表情和肢体动作与音频信号的精确时间同步，解决多模态融合时的特征冲突问题。
解耦-联合训练策略：针对 R2V 和 A2V 任务数据异构且规模不平衡的挑战，分别训练专用子模型学习各模态的独立映射关系，通过权重插值进行融合，在联合数据上微调，有效整合异构数据集并提升全模态输入下的生成一致性。

如何使用OmniShow

获取开源代码：从官方渠道克隆代码库到本地，按照 README 配置包含依赖项的运行环境。
准备多模态输入：根据生成任务需求，整理参考图像（人物或物体外观）、驱动音频、姿势序列文件及文本描述。
执行视频生成：调用模型 API 或运行推理脚本，输入组合后的多模态条件，生成长达 10 秒的高质量人-物交互视频并保存输出结果。

OmniShow的关键信息和使用要求

项目定位：OmniShow 是字节跳动联合香港中文大学、莫纳什大学、香港大学共同开源的行业级多模态人-物交互视频生成模型，专为复杂的人与物体互动场景设计。
技术规模：模型采用 12.3B 参数架构，是同类模型（如 HuMo-17B、Phantom-14B）中最为参数高效的方案，在保持高性能的同时显著降低计算资源需求。
核心能力：作为首个完整支持 RAP2V（Reference+Audio+Pose-to-Video）的端到端统一框架，能同时接收参考图像、音频信号、姿势序列和文本描述四种模态输入进行联合推理。
生成质量：原生支持生成最长 10 秒的连续视频，通过门控局部上下文注意力技术实现口型、表情、肢体动作与音频的精确同步，达到行业级视觉标准。
性能表现：在自建的 HOIVG-Bench 基准测试中，OmniShow 在 R2V、RA2V、RP2V 和 RAP2V 四项任务上均达到 SOTA 水平，是唯一支持全模态输入的领先方案。

OmniShow的核心优势

全模态统一架构：作为业界首个完整支持 RAP2V（参考图+音频+姿势→视频）的端到端框架，OmniShow 实现了文本、图像、音频、姿势四种条件的原生统一处理，无需多个专用模型拼接即可应对复杂的多模态输入组合。
极致参数效率：12.3B 参数在 HOIVG-Bench 基准上达到多项 SOTA，显著优于 HuMo-17B（17B）、Phantom-14B（14B）等更大参数模型，在保持行业级生成质量的同时大幅降低推理成本。
单一模型多任务覆盖：通过灵活的输入组合策略，一个 OmniShow 模型即可胜任 R2V（参考图生成）、RA2V（音频驱动数字人）、RP2V（姿势驱动动画）和完整 RAP2V（全模态控制）四类任务，无需针对不同场景切换模型。
音视频精确同步：采用创新的门控局部上下文注意力机制，通过可学习门控向量和掩码注意力实现口型、面部表情、肢体动作与音频信号的高度同步，在 Sync-C 指标上达到 8.612 的领先水平。
长视频原生生成：不同于依赖滑动窗口的外推方法，OmniShow 原生支持一次生成长达 10 秒的连续视频，在保持角色外观、物体样式和时间连贯性方面具有显著优势。

OmniShow的项目地址

项目官网：https://correr-zhou.github.io/OmniShow/
GitHub仓库：https://github.com/Correr-Zhou/OmniShow

OmniShow的同类竞品对比

对比维度	OmniShow	HuMo-17B	Phantom-14B
参数规模	12.3B（最轻量）	17B（+38%）	14B（+14%）
支持任务	R2V / RA2V / RP2V / RAP2V（全模态）	R2V / RA2V（无姿势）	仅 R2V（无音频/姿势）
架构特点	端到端统一框架，单模型多任务	专用人-物交互模型，需配合其他工具	基础参考图生成模型
R2V 质量（NexusScore）	0.389（SOTA）	0.346（低 11%）	0.366（低 6%）
RA2V 同步（Sync-C）	8.612（SOTA）	8.028（低 7%）	不支持
RP2V 精度（PCK）	0.460（SOTA）	不支持	不支持
视频时长	原生 10 秒	通常 5-8 秒	通常 5 秒
应用场景	数字人、动画、物体替换、混剪全覆盖	有限的人-物交互	静态外观迁移

OmniShow的应用场景

电商产品展示：通过参考图像替换功能，可在保持模特动作和姿势不变的情况下，快速替换展示服装、配饰或商品，实现高效的商品视频化呈现。
数字人短视频制作：基于 RA2V（参考图+音频）能力，输入人物照片和语音可生成口型同步的说话或唱歌视频，适用虚拟主播、社交媒体内容创作。
创意视频混剪：用多模态重组能力，从不同来源提取姿势、物体和人物参考进行创意合成，实现跨视频的个性化内容编辑与二次创作。
互动娱乐与游戏：借助姿势驱动（RP2V）功能，将用户动作捕捉实时转化为游戏角色或虚拟形象的动画，支持全身姿态控制的实时交互体验。
广告与营销内容生成：结合全模态输入（RAP2V），精确控制品牌代言人外观、台词音频和肢体动作，批量生成风格统一的宣传视频素材。

📝 站长洞察 (Editor’s Insight)

OmniShow的发布，标志着视频生成技术从“单点突破”迈向“系统级统一”的关键一步。其核心价值不仅在于首个支持RAP2V全模态输入的端到端框架，更在于其出色的参数效率（12.3B超越17B和14B模型）和原生长视频生成能力。这背后反映了行业两大趋势：一是模型架构从“专用”向“通用”演进，追求单一模型覆盖多任务，降低部署与使用复杂度；二是对“精准控制”和“多模态同步”提出了更高要求，尤其是音视频的毫秒级同步，这决定了数字人、虚拟主播等应用的真实感上限。字节此次联合学术界开源，既展示了其扎实的工程化与算法融合能力，也意在引领视频生成的标准制定。对于开发者而言，一个轻量、开源且性能SOTA的统一基座模型，将极大降低创新门槛，加速短视频、电商、营销等场景的AIGC应用落地。

字节港中文等重磅开源OmniShow：12.3B参数统一框架，首个支持RAP2V的端到端人-物交互视频生成模型

OmniShow是什么

OmniShow的主要功能

OmniShow的技术原理

如何使用OmniShow

OmniShow的关键信息和使用要求

OmniShow的核心优势

OmniShow的项目地址

OmniShow的同类竞品对比

OmniShow的应用场景

📝 站长洞察 (Editor’s Insight)

发表评价取消回复

最近更新

2026年3月美国AI榜单巨变：Claude单月狂飙130%紧追ChatGPT，格局突变信号已现

得物实战揭秘：AI Coding工具如何突破数仓开发’失忆’痛点，Harness工程引领新范式

历史性和解！Meta妥协规避审判，美国首例学校诉社交媒体成瘾案落幕，揭示行业司法风向

Spotify与环球音乐联手：AI翻唱混音工具上线，正版版权终结Suno野蛮生长

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

Support

OmniShow是什么

OmniShow的主要功能

OmniShow的技术原理

如何使用OmniShow

OmniShow的关键信息和使用要求

OmniShow的核心优势

OmniShow的项目地址

OmniShow的同类竞品对比

OmniShow的应用场景

📝 站长洞察 (Editor’s Insight)

发表评价 取消回复

最近更新

相关推荐

发表评价取消回复