Bernini – 字节跳动开源的统一视频生成与编辑框架

Bernini是什么

Bernini 是字节跳动开源的统一视频生成与编辑框架，采用MLLM 语义规划 + DiT 视觉渲染的两阶段解耦架构。多模态大模型理解指令并规划语义草图，由 Diffusion Transformer 完成高质量视频生成。模型支持文本/图像生成视频、环境/视角/动作编辑、多参考引导植入等任务，推理代码与权重已全面开源。

阅读目录

Bernini是什么
Bernini的主要功能
Bernini的技术原理
如何使用Bernini
Bernini的核心优势
Bernini的项目地址
Bernini的同类竞品对比
Bernini的应用场景

Bernini

Bernini的主要功能

文本/图像生成视频：支持从文本提示或参考图像直接生成视频，可处理单图、多元素组合图和多角度参考图。
视频编辑：支持环境编辑、视角编辑、焦点编辑和动作编辑。
参考引导编辑：通过主体参考图、材质参考图或风格参考图，将指定物体、纹理或风格精准融入视频。
图像/视频植入：将海报或视频填入画面中的屏幕、招牌等区域，跟随镜头移动并保持透视和时序稳定。
多元素组合：将多张互不相关的参考图组合成同一个视频角色，或基于同一场景关键帧生成连续平移镜头。

Bernini的技术原理

两阶段解耦架构：第一阶段由多模态大语言模型（MLLM）担任 Semantic Planner，在 ViT 嵌入空间中预测目标语义表示，负责理解文本指令、源视频和参考素材并规划目标内容。第二阶段由 Diffusion Transformer（DiT）担任 Renderer，在 VAE 潜在空间中执行流匹配去噪，将语义规划转化为高质量视频帧。编辑任务中还会注入源视频 VAE 特征保留非编辑区域细节。
Segment-Aware 3D RoPE（SA-3D RoPE）：当多个参考图、源视频、目标输出被串联为统一序列时，不同片段的 token 可能共享相同时空坐标。通过为每个视觉片段分配 segment 索引并整合到旋转位置编码中，使模型能区分不同来源的 token，同时保留原始时空建模特性。
Chain-of-Thought 推理与三阶段训练：Planner 在潜在空间中进行思维链推理，增强复杂编辑场景下的语义保真度。训练分为三阶段：Planner 预训练、Renderer 预训练、Planner 与 Renderer 轻度联合训练，保留预训练优势又保持高效。

如何使用Bernini

克隆仓库：从 GitHub 克隆 Bernini 项目到本地。
安装依赖：运行 pip 安装 requirements.txt 中的依赖包。
下载模型：通过 HuggingFace 下载 Bernini-R-Diffusers 权重。
配置环境：确保使用 Python 3.11.2 和 CUDA 12.4+，推荐 Hopper 架构 GPU。
运行生成：使用 torchrun 执行多 GPU 推理脚本，指定配置文件和测试用例。
配置提示增强：设置 OpenAI 兼容的 API 端点以提升生成质量。

Bernini的核心优势

先理解再生成：MLLM 负责语义规划，DiT 负责视觉渲染，解决传统视频模型「听不懂人话」的痛点。
统一框架：单一架构覆盖生成、编辑、参考引导等多种任务，无需切换模型。
多参考输入：支持文本、图像、视频同时输入，通过 SA-3D RoPE 避免时空混淆。
细节保留：编辑时注入源视频 VAE 特征，保留非编辑区域细节，避免「一改全改」。
完全开源：推理代码与权重已开放，降低研究与开发门槛。
强泛化能力：在训练未明确覆盖的指令（如因果推理、动作变化）上仍表现出色。

Bernini的项目地址

项目官网：https://bernini-ai.github.io
GitHub仓库：https://github.com/bytedance/Bernini
HuggingFace模型库：https://huggingface.co/ByteDance/Bernini
arXiv技术论文：https://arxiv.org/pdf/2605.22344

Bernini的同类竞品对比

对比维度	Bernini	Runway Gen-4
开发方	字节跳动（开源）	Runway（闭源）
核心架构	MLLM Planner + DiT Renderer	专有视频生成模型
任务覆盖	生成+编辑统一框架	生成+编辑
可控编辑	★★★★★ 强（语义规划+多参考）	★★★★☆ 较强
参考图支持	★★★★★ 多元素/多角度/材质/风格	★★★★☆ 支持
开源程度	★★★★★ 权重+代码开源	★☆☆☆☆ 闭源
硬件要求	推荐 H100/H800（8卡视频）	云端 API
视频编辑	★★★★★ 保留非编辑区域细节	★★★★☆
视觉质量	★★★★☆ 优秀（480p/16fps）	★★★★★ 顶尖

Bernini的应用场景

广告创意：模型能快速生成产品展示视频，支持产品图植入与风格调整。
电商展示：基于商品多角度参考图生成一致性高的动态展示视频。
影视预演：通过关键帧生成连续镜头，辅助虚拟漫游与场景构建。
二次创作：支持风格迁移、天气变换、动作编辑，降低视频再创作门槛。
虚拟拍摄：将海报或视频精准填入画面中的屏幕或招牌，实现虚实融合。

Bernini – 字节跳动开源的统一视频生成与编辑框架

Bernini是什么

Bernini的主要功能

Bernini的技术原理

如何使用Bernini

Bernini的核心优势

Bernini的项目地址

Bernini的同类竞品对比

Bernini的应用场景

发表评价取消回复

最近更新

OMNE Multiagent – 天桥脑科学研究院推出的大模型多智能体框架

DuoAttention – 提高LLMs处理长上下文推理效率的AI框架

HuggingChat macOS – Hugging Face开源的macOS聊天应用程序

OmniParser – 微软推出的屏幕解析工具，将UI截图转换为结构化数据

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

Support

Bernini是什么

Bernini的主要功能

Bernini的技术原理

如何使用Bernini

Bernini的核心优势

Bernini的项目地址

Bernini的同类竞品对比

Bernini的应用场景

发表评价 取消回复

最近更新

相关推荐

发表评价取消回复