Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: Bernini – 字节跳动开源的统一视频生成与编辑框架
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AIGC 资讯 > Bernini – 字节跳动开源的统一视频生成与编辑框架
AIGC 资讯

Bernini – 字节跳动开源的统一视频生成与编辑框架

站外新闻
最近更新: 2026年6月7日 下午6:03
SHARE

Bernini是什么

Bernini 是字节跳动开源的统一视频生成与编辑框架,采用MLLM 语义规划 + DiT 视觉渲染的两阶段解耦架构。多模态大模型理解指令并规划语义草图,由 Diffusion Transformer 完成高质量视频生成。模型支持文本/图像生成视频、环境/视角/动作编辑、多参考引导植入等任务,推理代码与权重已全面开源。

阅读目录
  • Bernini是什么
  • Bernini的主要功能
  • Bernini的技术原理
  • 如何使用Bernini
  • Bernini的核心优势
  • Bernini的项目地址
  • Bernini的同类竞品对比
  • Bernini的应用场景

Bernini

Bernini的主要功能

  • 文本/图像生成视频:支持从文本提示或参考图像直接生成视频,可处理单图、多元素组合图和多角度参考图。
  • 视频编辑:支持环境编辑、视角编辑、焦点编辑和动作编辑。
  • 参考引导编辑:通过主体参考图、材质参考图或风格参考图,将指定物体、纹理或风格精准融入视频。
  • 图像/视频植入:将海报或视频填入画面中的屏幕、招牌等区域,跟随镜头移动并保持透视和时序稳定。
  • 多元素组合:将多张互不相关的参考图组合成同一个视频角色,或基于同一场景关键帧生成连续平移镜头。

Bernini的技术原理

  • 两阶段解耦架构:第一阶段由多模态大语言模型(MLLM)担任 Semantic Planner,在 ViT 嵌入空间中预测目标语义表示,负责理解文本指令、源视频和参考素材并规划目标内容。第二阶段由 Diffusion Transformer(DiT)担任 Renderer,在 VAE 潜在空间中执行流匹配去噪,将语义规划转化为高质量视频帧。编辑任务中还会注入源视频 VAE 特征保留非编辑区域细节。
  • Segment-Aware 3D RoPE(SA-3D RoPE):当多个参考图、源视频、目标输出被串联为统一序列时,不同片段的 token 可能共享相同时空坐标。通过为每个视觉片段分配 segment 索引并整合到旋转位置编码中,使模型能区分不同来源的 token,同时保留原始时空建模特性。
  • Chain-of-Thought 推理与三阶段训练:Planner 在潜在空间中进行思维链推理,增强复杂编辑场景下的语义保真度。训练分为三阶段:Planner 预训练、Renderer 预训练、Planner 与 Renderer 轻度联合训练,保留预训练优势又保持高效。

如何使用Bernini

  • 克隆仓库:从 GitHub 克隆 Bernini 项目到本地。
  • 安装依赖:运行 pip 安装 requirements.txt 中的依赖包。
  • 下载模型:通过 HuggingFace 下载 Bernini-R-Diffusers 权重。
  • 配置环境:确保使用 Python 3.11.2 和 CUDA 12.4+,推荐 Hopper 架构 GPU。
  • 运行生成:使用 torchrun 执行多 GPU 推理脚本,指定配置文件和测试用例。
  • 配置提示增强:设置 OpenAI 兼容的 API 端点以提升生成质量。

Bernini的核心优势

  • 先理解再生成:MLLM 负责语义规划,DiT 负责视觉渲染,解决传统视频模型「听不懂人话」的痛点。
  • 统一框架:单一架构覆盖生成、编辑、参考引导等多种任务,无需切换模型。
  • 多参考输入:支持文本、图像、视频同时输入,通过 SA-3D RoPE 避免时空混淆。
  • 细节保留:编辑时注入源视频 VAE 特征,保留非编辑区域细节,避免「一改全改」。
  • 完全开源:推理代码与权重已开放,降低研究与开发门槛。
  • 强泛化能力:在训练未明确覆盖的指令(如因果推理、动作变化)上仍表现出色。

Bernini的项目地址

  • 项目官网:https://bernini-ai.github.io
  • GitHub仓库:https://github.com/bytedance/Bernini
  • HuggingFace模型库:https://huggingface.co/ByteDance/Bernini
  • arXiv技术论文:https://arxiv.org/pdf/2605.22344

Bernini的同类竞品对比

对比维度 Bernini Runway Gen-4
开发方 字节跳动(开源) Runway(闭源)
核心架构 MLLM Planner + DiT Renderer 专有视频生成模型
任务覆盖 生成+编辑统一框架 生成+编辑
可控编辑 ★★★★★ 强(语义规划+多参考) ★★★★☆ 较强
参考图支持 ★★★★★ 多元素/多角度/材质/风格 ★★★★☆ 支持
开源程度 ★★★★★ 权重+代码开源 ★☆☆☆☆ 闭源
硬件要求 推荐 H100/H800(8卡视频) 云端 API
视频编辑 ★★★★★ 保留非编辑区域细节 ★★★★☆
视觉质量 ★★★★☆ 优秀(480p/16fps) ★★★★★ 顶尖

Bernini的应用场景

  • 广告创意:模型能快速生成产品展示视频,支持产品图植入与风格调整。
  • 电商展示:基于商品多角度参考图生成一致性高的动态展示视频。
  • 影视预演:通过关键帧生成连续镜头,辅助虚拟漫游与场景构建。
  • 二次创作:支持风格迁移、天气变换、动作编辑,降低视频再创作门槛。
  • 虚拟拍摄:将海报或视频精准填入画面中的屏幕或招牌,实现虚实融合。
昆仑万维MoE-TTS发布:基于MoE架构的语音合成框架,用自然语言描述精准定制个性化声音
GPT‑5.3 Instant – OpenAI 推出的轻量级对话模型
ChatGPT高延迟故障已修复:OpenAI确认API服务全面恢复正常
PodAgent – 港中文、微软、小红书联合推出的播客生成框架
谷歌Lyria 3 Pro发布:3分钟结构化AI作曲+多平台集成,Suno/ Udio遇劲敌
分享
Email 复制链接 打印
Share
上一篇 Mellum2 – JetBrains 开源的混合专家模型
下一篇 Qwen3.7-Plus – 阿里通义推出的智能体多模态大模型
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

华为盘古大模型5.5震撼发布:7180亿参数Ultra MoE领衔,五大模型重塑产业智能
AI 工具 AIGC 资讯
腾讯清华重磅开源MindOmni:强化学习驱动的多模态推理生成模型,重塑视觉AI边界
AI 工具 AIGC 资讯
联影智能发布‘元智’医疗大模型:多模态融合,一次CT扫描诊断37种疾病
AI 工具 AIGC 资讯
Dive3D重磅发布:北大x小红书联手破解文本生成3D多样性难题,SIM损失取代KL散度实现模式突破
AI 工具 AIGC 资讯

相关推荐

AI 工具AIGC 资讯

谢赛宁团队开源Solaris:首个多人视频世界生成模型,突破AI世界模拟新边界

站外新闻
Minecraft 世界模型 具身智能 多智能体 视频生成
AIGC 资讯

NPOA – 开源舆情检测工具,实时监控网络舆情与分析

站外新闻
AI 工具AIGC 资讯

Zen Browser:开源AI浏览器评测:垂直标签页+深度定制,重塑你的多任务工作流

站外新闻
Zen Browser 垂直标签页 开源浏览器 深度定制 隐私保护
AIGC 资讯

VideoRAG – 用于长视频理解的检索增强生成技术

站外新闻
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI大模型 AI安全 AI工具 AI智能体 AI绘画 AI编程 AI编程助手 AI编程工具 AI编程模型 AI视频生成 AI音乐生成 Anthropic chatgpt Claude Claude Code DeepSeek Gemini GPT-5.3 Instant GPT-5.3-Codex-Spark GPT-5.4 MCP协议 meta Midjourney MiniMax MoE架构 MoE模型 openai prompt Qwen3 RAG SWE-Bench xAI 上海人工智能实验室 世界模型 人工智能 人物 代码生成 企业级AI 全模态大模型 具身智能 命令行工具 图像生成 图像生成模型 多智能体 多模态 多模态AI 多模态大模型 多模态模型 大模型 大模型应用 大语言模型 字节跳动 小红书 展台 开源 开源AI 开源AI工具 开源大模型 开源工具 开源平台 开源框架 开源模型 开源项目 强化学习 微软 扩散模型 教程 数字人 文本转语音 早报 昆仑万维 智谱AI 月之暗面 清华大学 知识管理 科大讯飞 端侧AI 美团 腾讯 腾讯混元 自然语言处理 英伟达 蚂蚁集团 视觉语言模型 视频生成 视频生成模型 语音合成 谷歌 谷歌AI 谷歌DeepMind 通义千问 阶跃星辰 阿里巴巴 阿里通义 面壁智能 香港大学
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.