Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: Bernini – 字节跳动开源的统一视频生成与编辑框架
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AIGC 资讯 > Bernini – 字节跳动开源的统一视频生成与编辑框架
AIGC 资讯

Bernini – 字节跳动开源的统一视频生成与编辑框架

站外新闻
最近更新: 2026年6月7日 下午6:03
SHARE

Bernini是什么

Bernini 是字节跳动开源的统一视频生成与编辑框架,采用MLLM 语义规划 + DiT 视觉渲染的两阶段解耦架构。多模态大模型理解指令并规划语义草图,由 Diffusion Transformer 完成高质量视频生成。模型支持文本/图像生成视频、环境/视角/动作编辑、多参考引导植入等任务,推理代码与权重已全面开源。

阅读目录
  • Bernini是什么
  • Bernini的主要功能
  • Bernini的技术原理
  • 如何使用Bernini
  • Bernini的核心优势
  • Bernini的项目地址
  • Bernini的同类竞品对比
  • Bernini的应用场景

Bernini

Bernini的主要功能

  • 文本/图像生成视频:支持从文本提示或参考图像直接生成视频,可处理单图、多元素组合图和多角度参考图。
  • 视频编辑:支持环境编辑、视角编辑、焦点编辑和动作编辑。
  • 参考引导编辑:通过主体参考图、材质参考图或风格参考图,将指定物体、纹理或风格精准融入视频。
  • 图像/视频植入:将海报或视频填入画面中的屏幕、招牌等区域,跟随镜头移动并保持透视和时序稳定。
  • 多元素组合:将多张互不相关的参考图组合成同一个视频角色,或基于同一场景关键帧生成连续平移镜头。

Bernini的技术原理

  • 两阶段解耦架构:第一阶段由多模态大语言模型(MLLM)担任 Semantic Planner,在 ViT 嵌入空间中预测目标语义表示,负责理解文本指令、源视频和参考素材并规划目标内容。第二阶段由 Diffusion Transformer(DiT)担任 Renderer,在 VAE 潜在空间中执行流匹配去噪,将语义规划转化为高质量视频帧。编辑任务中还会注入源视频 VAE 特征保留非编辑区域细节。
  • Segment-Aware 3D RoPE(SA-3D RoPE):当多个参考图、源视频、目标输出被串联为统一序列时,不同片段的 token 可能共享相同时空坐标。通过为每个视觉片段分配 segment 索引并整合到旋转位置编码中,使模型能区分不同来源的 token,同时保留原始时空建模特性。
  • Chain-of-Thought 推理与三阶段训练:Planner 在潜在空间中进行思维链推理,增强复杂编辑场景下的语义保真度。训练分为三阶段:Planner 预训练、Renderer 预训练、Planner 与 Renderer 轻度联合训练,保留预训练优势又保持高效。

如何使用Bernini

  • 克隆仓库:从 GitHub 克隆 Bernini 项目到本地。
  • 安装依赖:运行 pip 安装 requirements.txt 中的依赖包。
  • 下载模型:通过 HuggingFace 下载 Bernini-R-Diffusers 权重。
  • 配置环境:确保使用 Python 3.11.2 和 CUDA 12.4+,推荐 Hopper 架构 GPU。
  • 运行生成:使用 torchrun 执行多 GPU 推理脚本,指定配置文件和测试用例。
  • 配置提示增强:设置 OpenAI 兼容的 API 端点以提升生成质量。

Bernini的核心优势

  • 先理解再生成:MLLM 负责语义规划,DiT 负责视觉渲染,解决传统视频模型「听不懂人话」的痛点。
  • 统一框架:单一架构覆盖生成、编辑、参考引导等多种任务,无需切换模型。
  • 多参考输入:支持文本、图像、视频同时输入,通过 SA-3D RoPE 避免时空混淆。
  • 细节保留:编辑时注入源视频 VAE 特征,保留非编辑区域细节,避免「一改全改」。
  • 完全开源:推理代码与权重已开放,降低研究与开发门槛。
  • 强泛化能力:在训练未明确覆盖的指令(如因果推理、动作变化)上仍表现出色。

Bernini的项目地址

  • 项目官网:https://bernini-ai.github.io
  • GitHub仓库:https://github.com/bytedance/Bernini
  • HuggingFace模型库:https://huggingface.co/ByteDance/Bernini
  • arXiv技术论文:https://arxiv.org/pdf/2605.22344

Bernini的同类竞品对比

对比维度 Bernini Runway Gen-4
开发方 字节跳动(开源) Runway(闭源)
核心架构 MLLM Planner + DiT Renderer 专有视频生成模型
任务覆盖 生成+编辑统一框架 生成+编辑
可控编辑 ★★★★★ 强(语义规划+多参考) ★★★★☆ 较强
参考图支持 ★★★★★ 多元素/多角度/材质/风格 ★★★★☆ 支持
开源程度 ★★★★★ 权重+代码开源 ★☆☆☆☆ 闭源
硬件要求 推荐 H100/H800(8卡视频) 云端 API
视频编辑 ★★★★★ 保留非编辑区域细节 ★★★★☆
视觉质量 ★★★★☆ 优秀(480p/16fps) ★★★★★ 顶尖

Bernini的应用场景

  • 广告创意:模型能快速生成产品展示视频,支持产品图植入与风格调整。
  • 电商展示:基于商品多角度参考图生成一致性高的动态展示视频。
  • 影视预演:通过关键帧生成连续镜头,辅助虚拟漫游与场景构建。
  • 二次创作:支持风格迁移、天气变换、动作编辑,降低视频再创作门槛。
  • 虚拟拍摄:将海报或视频精准填入画面中的屏幕或招牌,实现虚实融合。
阿里云百炼 CLI – 阿里云开源的 AI Agent 命令行工具
Qwen3.7-Max 编程能力登顶全球第二!Code Arena 1541分碾压GPT-5.5,35小时自主任务改写生产力规则
高德与阿里重磅开源AGenUI:三端原生A2UI框架,让AI Agent输出直接变为可交互界面
OpenAI表态支持特朗普AI行政令:愿在模型发布前接受政府安全评估
xAI重磅发布Grok V9-Medium:1.5万亿参数专攻编程,Blackwell架构深度优化,剑指AI代码助手新霸主
分享
Email 复制链接 打印
Share
上一篇 Mellum2 – JetBrains 开源的混合专家模型
下一篇 Qwen3.7-Plus – 阿里通义推出的智能体多模态大模型
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

Dynamic Workflows – Claude Code 推出的动态工作流
AIGC 资讯
Qwen3.7-Plus – 阿里通义推出的智能体多模态大模型
AIGC 资讯
Mellum2 – JetBrains 开源的混合专家模型
AIGC 资讯
MAI-Code-1-Flash – 微软推出的轻量级代码生成模型
AIGC 资讯

相关推荐

AIGC 资讯

超线性回报 [译]

宝玉的分享
AI 工具AIGC 资讯

PokeClaw:全球首个全本地离线手机AI Agent,基于Gemma 4开源免费,隐私安全自动化新标杆

站外新闻
AI Agent Android自动化 Gemma 4 开源AI应用 本地离线AI
AIGC 资讯

Midjourney 不同画面艺术流派风格 Prompts 对人像生成效果的影响

OZ
AI人像 AI生成 AI绘画 Midjourney prompt 人像
AIGC 资讯

MAI-Voice-2 – 微软推出的新一代文本转语音模型

站外新闻
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AGI AI AI Agent AIGC AI商业化 AI大模型 AI安全 AI工具 AI搜索 AI智能体 AI生成内容 AI监管 AI绘画 AI编程 AI编程工具 AI编程智能体 AI芯片 AI视频 AI视频生成 AI设计 Anthropic chatgpt Claude Claude Code Claude Mythos Claude Opus 4.8 DeepSeek DuckDuckGo Gemini GPT-5.5 MCP协议 meta Midjourney MiniMax MoE MoE架构 NVIDIA openai OpenRouter Pika prompt SpaceX stable diffusion SWE-Bench xAI 世界模型 丛林 人工智能 人物 企业级AI 具身智能 命令行工具 图像生成模型 多模态 多模态大模型 大模型 大模型API 大模型应用 大语言模型 字节跳动 家居 小米 展台 建筑 开源 开源大模型 开源工具 开源框架 开源模型 强化学习 微软 支付宝 教程 早报 智能体 智能体编程 智谱AI 月之暗面 本地AI 海报设计 生成式AI 科大讯飞 科幻 端侧AI 端侧大模型 网络安全 腾讯混元 英伟达 苹果 视频生成模型 语音合成 谷歌 谷歌AI 赛博朋克 长上下文 阶跃星辰 阿里通义 阿里通义千问 风景
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.