Ingredients – 多ID照片定制视频生成框架，基于多ID照片与视频扩散相结合

最近更新: 2026年6月9日上午12:07

Ingredients是什么

Ingredients是强大的框架，基于将多个特定身份（ID）照片与视频扩散Transformer相结合，用在定制视频创作。Ingredients基于三个核心模块实现高度定制化的视频生成：面部提取器、多尺度投影器和ID路由器。面部提取器从全局和局部视角捕捉每个身份的面部特征；多尺度投影器将这些特征映射到视频扩散模型的上下文中；ID路由器则动态分配和组合多个身份特征到相应的时间空间区域。基于精心设计的多阶段训练协议，Ingredients能在无需提示约束的情况下，生成具有高度身份保真度和内容灵活性的个性化视频。

阅读目录

Ingredients是什么
Ingredients的主要功能
Ingredients的技术原理
Ingredients的项目地址
Ingredients的应用场景

Ingredients

Ingredients的主要功能

保持身份一致性：在生成的视频中保持多个参考图像中人物身份的一致性。
灵活的内容控制：支持用户用文本提示对视频内容进行精确控制。
高质量视频生成：生成具有高视觉质量和自然过渡的视频内容。
无需训练的定制：无需针对每个新身份进行模型训练或微调，实现定制化视频生成。

Ingredients的技术原理

面部提取器：负责从输入的参考图像中提取每个身份的面部特征。基于全局和局部相结合的方法，从全局视角提取整体面部信息，从局部视角提取细节特征，确保生成视频中人物面部的多样性和准确性。
多尺度投影器：将提取的面部特征嵌入映射到视频扩散变换器的图像查询上下文中。用多尺度特征融合和交叉注意力机制，使面部特征与视频扩散模型中的视觉令牌进行有效交互，在生成过程中准确地反映人物身份信息。
ID路由器：负责在视频生成的时间空间区域内动态分配和组合多个身份特征。基于位置感知的路由网络，将每个潜在的面部区域分配给唯一的身份特征，避免身份特征的混合和混淆，确保生成视频中不同人物身份的清晰区分和一致性表达。

Ingredients的项目地址

GitHub仓库：https://github.com/feizc/Ingredients
HuggingFace模型库：https://huggingface.co/feizhengcong/Ingredients
arXiv技术论文：https://arxiv.org/pdf/2501.01790

Ingredients的应用场景

娱乐创作：为虚拟偶像制作一段多场景的音乐视频，保持其面部特征和风格一致，增强粉丝互动。
广告行业：为时尚品牌定制不同风格的广告，展示目标受众在校园、街头等场景下的时尚造型，提高品牌吸引力。
教育教学：在语言学习应用中，创建国际会议场景视频，学习者观看不同国家代表的交流，学习商务英语和跨文化沟通。
社交媒体：用户制作家族历史视频，结合老照片和口述故事，展现家族成员在不同年代的生活场景，分享在社交媒体上引发共鸣。
虚拟现实：在虚拟现实旅游应用中，生成用户与虚拟导游在景点游览的视频，导游详细介绍景点历史和文化，增强旅游体验的真实感。

Long-VITA – 腾讯优图联合南大、厦大开源的多模态模型

MinT – 生成顺序事件的文本转视频模型，灵活控制时间戳

发表评价

Ingredients – 多ID照片定制视频生成框架，基于多ID照片与视频扩散相结合

Ingredients是什么

Ingredients的主要功能

Ingredients的技术原理

Ingredients的项目地址

Ingredients的应用场景

发表评价取消回复

最近更新

Agents – AIWaves公司推出的AI Agent开发工具

MiniCPM-V – 面壁智能推出的开源多模态大模型

VideoDoodles – Adobe推出的AI视频编辑框架

CharacterFactory – 大连理工推出的AI角色创作工具

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

Support

Ingredients是什么

Ingredients的主要功能

Ingredients的技术原理

Ingredients的项目地址

Ingredients的应用场景

发表评价 取消回复

最近更新

相关推荐

发表评价取消回复