Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: Phantom – 字节跳动推出的主体一致视频生成框架
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AIGC 资讯 > Phantom – 字节跳动推出的主体一致视频生成框架
AIGC 资讯

Phantom – 字节跳动推出的主体一致视频生成框架

站外新闻
最近更新: 2026年6月9日 上午2:31
SHARE

Phantom是什么

Phantom是字节跳动智能创作团队推出的用在主体一致视频生成(Subject-to-Video, S2V)的框架。基于跨模态对齐技术,结合文本和图像提示,从参考图像中提取主体元素并生成与文本描述一致的视频内容。Phantom基于现有的文本到视频(T2V)和图像到视频(I2V)架构,重新设计了联合文本-图像注入模型,基于文本-图像-视频三元组数据学习跨模态对齐。Phantom框架支持单主体和多主体参考,特别在人类生成任务中强调主体一致性,覆盖现有的身份保留视频生成任务,提供增强优势。

阅读目录
  • Phantom是什么
  • Phantom的主要功能
  • Phantom的技术原理
  • Phantom的项目地址
  • Phantom的应用场景

Phantom

Phantom的主要功能

  • 从参考图像中提取主体元素:识别并提取图像中的主体(如人物、动物、物体等),作为生成视频的核心内容。
  • 根据文本提示生成视频:用户基于文本指令控制视频的内容和风格,实现高度定制化的视频生成。
  • 多主体视频生成:支持同时处理多个主体,生成复杂的交互场景,如多人互动、人与宠物互动等。
  • 身份保留(ID-Preserving):在生成视频时,保留主体的身份特征(如人脸、服装等),特别适用于虚拟试穿、数字人生成等场景。
  • 高质量视频输出:生成的视频在视觉效果、主体一致性和文本响应性方面表现出色,与现有的商业解决方案相当。

Phantom的技术原理

  • 数据结构设计:Phantom构建了文本-图像-视频三元组数据结构,用在训练模型理解不同模态之间的关系。数据分为In-paired(图像与视频主体一致)和Cross-paired(跨视频匹配)两种类型,避免模型简单复制输入图像。
  • 模型架构:基于现有的文本到视频(T2V)和图像到视频(I2V)架构,重新设计联合文本-图像注入模型。模型分为输入头(Input Head)和可训练的DiT模块。输入头负责编码视频、文本和参考图像,DiT模块负责跨模态对齐和视频生成。
  • 跨模态对齐:参考图像基于特定的视觉编码器(如VAE和CLIP)编码后,与视频特征和文本特征分别拼接,输入到DiT模块的视觉和文本分支。
  • 身份保留技术:在处理人脸等身份特征时,基于面部识别模型(如ArcFace)评估生成视频与参考图像的相似度,确保主体身份的一致性。
  • 优化与训练:基于大规模的三元组数据训练,学习如何在生成视频时平衡文本和图像的双重提示。模型在预训练阶段继承基础模型的权重,基于跨模态数据进一步微调,实现高质量的视频生成。

Phantom的项目地址

  • 项目官网:https://phantom-video.github.io/Phantom/
  • GitHub仓库:https://github.com/Phantom-video/Phantom
  • HuggingFace模型库:https://huggingface.co/bytedance-research/Phantom
  • arXiv技术论文:https://arxiv.org/pdf/2502.11079

Phantom的应用场景

  • 虚拟试穿:生成服装动态展示视频,帮助用户预览效果。
  • 数字人生成:创建具有特定外貌的虚拟角色,用于虚拟主播等场景。
  • 广告视频制作:根据图像和文本快速生成产品广告,提升制作效率。
  • 影视动画:生成角色动画原型,辅助创意验证,降低制作成本。
  • 教育培训:生成科学实验、历史场景等教学视频,增强互动性。
OlympicArena – 上海交大联合 AI Lab 等推出的多学科认知推理基准测试框架
MMedAgent – 专为医疗领域设计的多模态AI智能体,管理多种医疗任务
OpenAI GPT-5.3 Instant 发布:免费轻量级对话模型,更自然、更精准、更少说教
Sipeed发布PicoClaw:超轻量级AI Agent助手,让百元开发板变身24小时私人AI管家
SentinelOne裁员8%聚焦AI安全:年营收增长21%仍亏损,科技巨头集体押注生成式AI
分享
Email 复制链接 打印
Share
上一篇 Granite 3.2 – IBM 开源的多模态系列 AI 模型
下一篇 NobodyWho – AI游戏引擎插件,本地运行 LLM 实现互动小说创作
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

美团LLIA框架深度解析:实时音频驱动肖像视频生成,如何实现低延迟高保真交互?
AI 工具 AIGC 资讯
腾讯开源Hunyuan3D-2.1:工业级3D生成模型,支持PBR材质与多模态输入,1秒极速出图
AI 工具 AIGC 资讯
字节跳动MAGREF横空出世:单图+文本一键生成多主体视频,AI视频生成迎来新范式
AI 工具 AIGC 资讯
微软研究院发布Code Researcher:AI Agent深度挖掘代码库与提交历史,自动化修复系统级崩溃
AI 工具 AIGC 资讯

相关推荐

AIGC 资讯

Agent TARS – 字节跳动开源的多模态 AI Agent 项目

站外新闻
AIGC 资讯最新趋势

GPT-4.5 通过图灵测试胜率73%超真人!AI如何学会‘完美撒谎’颠覆信任

站外新闻
AI伦理 GPT-4.5 PNAS 图灵测试 大语言模型
AIGC 资讯

GPT‑5.3 Instant – OpenAI 推出的轻量级对话模型

站外新闻
全息流体渐变通用占位特色图
AIGC 资讯

马斯克扎克伯格深夜联手!特朗普紧急叫停AI监管令内幕:科技巨头与白宫的终极博弈

站外新闻
AI监管 扎克伯格 白宫 行政令 马斯克
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI大模型 AI安全 AI工具 AI智能体 AI模型 AI绘画 AI编程 AI编程助手 AI编程工具 AI视频生成 AI音乐生成 Anthropic Cerebras WSE-3 chatgpt Claude Claude Code DeepSeek Gemini GPT-5.3 Instant GPT-5.3-Codex-Spark GPT-5.4 MCP协议 meta Midjourney MiniMax Mistral AI MoE架构 openai prompt Qwen3 RAG SWE-Bench xAI 上海人工智能实验室 世界模型 人工智能 人物 代码生成 企业级AI 全模态大模型 具身智能 图像生成 图像生成模型 多智能体 多模态 多模态AI 多模态大模型 多模态模型 大模型 大模型应用 大语言模型 字节跳动 小红书 展台 开源 开源AI 开源AI工具 开源大模型 开源工具 开源平台 开源框架 开源模型 开源项目 强化学习 微软 扩散模型 推理模型 教程 数字人 文本转语音 早报 昆仑万维 智谱AI 月之暗面 本地部署 清华大学 生成式AI 美团 腾讯 腾讯混元 自然语言处理 英伟达 蚂蚁集团 视觉语言模型 视频生成 视频生成模型 语音合成 谷歌 谷歌AI 谷歌DeepMind 通义千问 阶跃星辰 阿里巴巴 阿里通义 面壁智能 香港大学
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.