Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: Ingredients – 多ID照片定制视频生成框架,基于多ID照片与视频扩散相结合
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AIGC 资讯 > Ingredients – 多ID照片定制视频生成框架,基于多ID照片与视频扩散相结合
AIGC 资讯

Ingredients – 多ID照片定制视频生成框架,基于多ID照片与视频扩散相结合

站外新闻
最近更新: 2026年6月9日 上午12:07
SHARE

Ingredients是什么

Ingredients是强大的框架,基于将多个特定身份(ID)照片与视频扩散Transformer相结合,用在定制视频创作。Ingredients基于三个核心模块实现高度定制化的视频生成:面部提取器、多尺度投影器和ID路由器。面部提取器从全局和局部视角捕捉每个身份的面部特征;多尺度投影器将这些特征映射到视频扩散模型的上下文中;ID路由器则动态分配和组合多个身份特征到相应的时间空间区域。基于精心设计的多阶段训练协议,Ingredients能在无需提示约束的情况下,生成具有高度身份保真度和内容灵活性的个性化视频。

阅读目录
  • Ingredients是什么
  • Ingredients的主要功能
  • Ingredients的技术原理
  • Ingredients的项目地址
  • Ingredients的应用场景

Ingredients

Ingredients的主要功能

  • 保持身份一致性:在生成的视频中保持多个参考图像中人物身份的一致性。
  • 灵活的内容控制:支持用户用文本提示对视频内容进行精确控制。
  • 高质量视频生成:生成具有高视觉质量和自然过渡的视频内容。
  • 无需训练的定制:无需针对每个新身份进行模型训练或微调,实现定制化视频生成。

Ingredients的技术原理

  • 面部提取器:负责从输入的参考图像中提取每个身份的面部特征。基于全局和局部相结合的方法,从全局视角提取整体面部信息,从局部视角提取细节特征,确保生成视频中人物面部的多样性和准确性。
  • 多尺度投影器:将提取的面部特征嵌入映射到视频扩散变换器的图像查询上下文中。用多尺度特征融合和交叉注意力机制,使面部特征与视频扩散模型中的视觉令牌进行有效交互,在生成过程中准确地反映人物身份信息。
  • ID路由器:负责在视频生成的时间空间区域内动态分配和组合多个身份特征。基于位置感知的路由网络,将每个潜在的面部区域分配给唯一的身份特征,避免身份特征的混合和混淆,确保生成视频中不同人物身份的清晰区分和一致性表达。

Ingredients的项目地址

  • GitHub仓库:https://github.com/feizc/Ingredients
  • HuggingFace模型库:https://huggingface.co/feizhengcong/Ingredients
  • arXiv技术论文:https://arxiv.org/pdf/2501.01790

Ingredients的应用场景

  • 娱乐创作:为虚拟偶像制作一段多场景的音乐视频,保持其面部特征和风格一致,增强粉丝互动。
  • 广告行业:为时尚品牌定制不同风格的广告,展示目标受众在校园、街头等场景下的时尚造型,提高品牌吸引力。
  • 教育教学:在语言学习应用中,创建国际会议场景视频,学习者观看不同国家代表的交流,学习商务英语和跨文化沟通。
  • 社交媒体:用户制作家族历史视频,结合老照片和口述故事,展现家族成员在不同年代的生活场景,分享在社交媒体上引发共鸣。
  • 虚拟现实:在虚拟现实旅游应用中,生成用户与虚拟导游在景点游览的视频,导游详细介绍景点历史和文化,增强旅游体验的真实感。
ChatClaw:智麻开源AI智能体,30MB极简部署,5分钟私有化AI助手,支持钉钉飞书企微多平台接入
BabelDOC – 开源 AI PDF 翻译工具,专为科学论文翻译设计
Spotify CEO公开辩护AI音乐战略:以正版授权对抗盗版与AI垃圾内容泛滥
Kokoro-TTS – 轻量级文本转语音模型,支持多语言多语音风格生成
GPTs 系列介绍 [译]
分享
Email 复制链接 打印
Share
上一篇 Long-VITA – 腾讯优图联合南大、厦大开源的多模态模型
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

Long-VITA – 腾讯优图联合南大、厦大开源的多模态模型
AIGC 资讯
Muse – 微软研究院推出的生成式AI模型
AIGC 资讯
TicVoice 7.0 – 出门问问推出的第七代语音合成引擎
AIGC 资讯
LLaVA-Rad – 微软推出的小型多模态模型,专注于临床放射学报告生成
AIGC 资讯

相关推荐

AIGC 资讯

DreamFit – 字节联合清华和中山大学推出的虚拟试衣框架

站外新闻
AI 工具AIGC 资讯

微软重磅发布MAI-Transcribe-1语音转文字模型:25种语言全面超越Whisper,成本直降50%,企业级应用场景全解析

站外新闻
FLEURS基准测试 企业级AI模型 多语言识别 微软Azure AI 语音转文字
全息流体渐变通用占位特色图
AIGC 资讯

SentinelOne裁员8%聚焦AI安全:年营收增长21%仍亏损,科技巨头集体押注生成式AI

站外新闻
AI网络安全 SentinelOne 企业转型 生成式AI 科技裁员
AIGC 资讯

GLM-Z1-Rumination – 智谱推出的沉思模型

站外新闻
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AGI AI AI Agent AIGC AI商业化 AI大模型 AI安全 AI工具 AI搜索 AI智能体 AI生成内容 AI监管 AI绘画 AI编程 AI编程工具 AI编程智能体 AI芯片 AI视频 AI视频生成 AI设计 Anthropic chatgpt Claude Claude Code Claude Mythos Claude Opus 4.8 DeepSeek DuckDuckGo Gemini GPT-5.5 MCP协议 meta Midjourney MiniMax MoE MoE架构 NVIDIA openai OpenRouter Pika prompt SpaceX stable diffusion SWE-Bench xAI 世界模型 丛林 人工智能 人物 企业级AI 具身智能 命令行工具 图像生成模型 多模态 多模态大模型 大模型 大模型API 大模型应用 大语言模型 字节跳动 家居 小米 展台 建筑 开源 开源大模型 开源工具 开源框架 开源模型 强化学习 微软 教程 早报 智能体 智能体编程 智谱AI 月之暗面 本地AI 海报设计 生成式AI 科大讯飞 科幻 端侧AI 端侧大模型 网络安全 联想 腾讯混元 英伟达 苹果 视频生成模型 语音合成 谷歌 谷歌AI 赛博朋克 长上下文 阶跃星辰 阿里通义 阿里通义千问 风景
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.