Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: Phantom – 字节跳动推出的主体一致视频生成框架
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AIGC 资讯 > Phantom – 字节跳动推出的主体一致视频生成框架
AIGC 资讯

Phantom – 字节跳动推出的主体一致视频生成框架

站外新闻
最近更新: 2026年6月9日 上午2:31
SHARE

Phantom是什么

Phantom是字节跳动智能创作团队推出的用在主体一致视频生成(Subject-to-Video, S2V)的框架。基于跨模态对齐技术,结合文本和图像提示,从参考图像中提取主体元素并生成与文本描述一致的视频内容。Phantom基于现有的文本到视频(T2V)和图像到视频(I2V)架构,重新设计了联合文本-图像注入模型,基于文本-图像-视频三元组数据学习跨模态对齐。Phantom框架支持单主体和多主体参考,特别在人类生成任务中强调主体一致性,覆盖现有的身份保留视频生成任务,提供增强优势。

阅读目录
  • Phantom是什么
  • Phantom的主要功能
  • Phantom的技术原理
  • Phantom的项目地址
  • Phantom的应用场景

Phantom

Phantom的主要功能

  • 从参考图像中提取主体元素:识别并提取图像中的主体(如人物、动物、物体等),作为生成视频的核心内容。
  • 根据文本提示生成视频:用户基于文本指令控制视频的内容和风格,实现高度定制化的视频生成。
  • 多主体视频生成:支持同时处理多个主体,生成复杂的交互场景,如多人互动、人与宠物互动等。
  • 身份保留(ID-Preserving):在生成视频时,保留主体的身份特征(如人脸、服装等),特别适用于虚拟试穿、数字人生成等场景。
  • 高质量视频输出:生成的视频在视觉效果、主体一致性和文本响应性方面表现出色,与现有的商业解决方案相当。

Phantom的技术原理

  • 数据结构设计:Phantom构建了文本-图像-视频三元组数据结构,用在训练模型理解不同模态之间的关系。数据分为In-paired(图像与视频主体一致)和Cross-paired(跨视频匹配)两种类型,避免模型简单复制输入图像。
  • 模型架构:基于现有的文本到视频(T2V)和图像到视频(I2V)架构,重新设计联合文本-图像注入模型。模型分为输入头(Input Head)和可训练的DiT模块。输入头负责编码视频、文本和参考图像,DiT模块负责跨模态对齐和视频生成。
  • 跨模态对齐:参考图像基于特定的视觉编码器(如VAE和CLIP)编码后,与视频特征和文本特征分别拼接,输入到DiT模块的视觉和文本分支。
  • 身份保留技术:在处理人脸等身份特征时,基于面部识别模型(如ArcFace)评估生成视频与参考图像的相似度,确保主体身份的一致性。
  • 优化与训练:基于大规模的三元组数据训练,学习如何在生成视频时平衡文本和图像的双重提示。模型在预训练阶段继承基础模型的权重,基于跨模态数据进一步微调,实现高质量的视频生成。

Phantom的项目地址

  • 项目官网:https://phantom-video.github.io/Phantom/
  • GitHub仓库:https://github.com/Phantom-video/Phantom
  • HuggingFace模型库:https://huggingface.co/bytedance-research/Phantom
  • arXiv技术论文:https://arxiv.org/pdf/2502.11079

Phantom的应用场景

  • 虚拟试穿:生成服装动态展示视频,帮助用户预览效果。
  • 数字人生成:创建具有特定外貌的虚拟角色,用于虚拟主播等场景。
  • 广告视频制作:根据图像和文本快速生成产品广告,提升制作效率。
  • 影视动画:生成角色动画原型,辅助创意验证,降低制作成本。
  • 教育培训:生成科学实验、历史场景等教学视频,增强互动性。
抖音生活服务消保战报:先行赔付2.4亿剑指AIGC违规,平台治理迈入新阶段
ELF:何恺明团队革命性扩散语言模型,32步生成、数据效率提升10倍,终结自回归时代?
Toolkami – 开源 AI Agent 框架,七种核心工具支持运行
Light-R1 – 360智脑开源的长思维链推理模型
ObjectMover – 港大联合 Adobe 推出的新型图像编辑模型
分享
Email 复制链接 打印
Share
上一篇 Granite 3.2 – IBM 开源的多模态系列 AI 模型
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

Granite 3.2 – IBM 开源的多模态系列 AI 模型
AIGC 资讯
LangBot – 多模态即时聊天机器人构建与管理的开源平台
AIGC 资讯
GPT‑5.4 – OpenAI推出面向专业工作的旗舰AI模型
AIGC 资讯
MatAnyone – 南洋理工和商汤科技推出的人像视频抠图框架
AIGC 资讯

相关推荐

AIGC 资讯

TPO – AI优化框架,动态调整推理模型的输出,更符合人类偏好

站外新闻
AIGC 资讯

DreamActor-M1 – 字节跳动推出的 AI 图像动画框架

站外新闻
AIGC 资讯

ChatGPT 升级记忆系统 全面推向用户

站外新闻
AI 工具AIGC 资讯

阿里Qwen3.6-27B开源!270亿参数碾压万亿级MoE,编程+多模态全能型大模型深度解析

站外新闻
Qwen3.6 多模态AI 智能体编程 稠密大模型 通义千问
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AGI AI AI Agent AIGC AI商业化 AI大模型 AI安全 AI工具 AI搜索 AI智能体 AI生成内容 AI监管 AI绘画 AI编程 AI编程工具 AI编程智能体 AI芯片 AI视频 AI视频生成 AI设计 Anthropic chatgpt Claude Claude Code Claude Mythos Claude Opus 4.8 DeepSeek DuckDuckGo Gemini GPT-5.5 MCP协议 meta Midjourney MiniMax MoE MoE架构 NVIDIA openai OpenRouter Pika prompt SpaceX stable diffusion SWE-Bench xAI 世界模型 丛林 人工智能 人物 企业级AI 具身智能 命令行工具 图像生成模型 多模态 多模态大模型 大模型 大模型API 大模型应用 大语言模型 字节跳动 家居 小米 展台 建筑 开源 开源大模型 开源工具 开源框架 开源模型 强化学习 微软 教程 早报 智能体 智能体编程 智谱AI 月之暗面 本地AI 海报设计 生成式AI 科大讯飞 科幻 端侧AI 端侧大模型 网络安全 联想 腾讯混元 英伟达 苹果 视频生成模型 语音合成 谷歌 谷歌AI 赛博朋克 长上下文 阶跃星辰 阿里通义 阿里通义千问 风景
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.