Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: MultiBooth – 清华联合 Meta 等机构推出的多概念图像生成方法
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AIGC 资讯 > MultiBooth – 清华联合 Meta 等机构推出的多概念图像生成方法
AIGC 资讯

MultiBooth – 清华联合 Meta 等机构推出的多概念图像生成方法

站外新闻
最近更新: 2026年6月8日 下午11:37
SHARE

MultiBooth是什么

MultiBooth是清华大学深圳国际研究生院、 Meta、香港科技大学等机构推出的多概念图像生成方法,能从文本中生成包含多个用户指定概念的图像。MultiBooth将生成过程分为两个阶段:单概念学习和多概念整合。在单概念学习阶段,基于多模态图像编码器和自适应概念归一化技术,为每个概念学习一个简洁且具有区分性的嵌入表示,基于LoRA技术提高概念保真度。在多概念整合阶段,用区域定制化模块(RCM),根据边界框和区域提示在指定区域内生成各个概念,基于基础提示确保不同概念之间的准确交互。MultiBooth在保持高图像保真度和文本对齐能力的同时,实现高效的多概念图像生成,且在训练和推理阶段具有较低的成本。

阅读目录
  • MultiBooth是什么
  • MultiBooth的主要功能
  • MultiBooth的技术原理
  • MultiBooth的项目地址
  • MultiBooth的应用场景

MultiBooth

MultiBooth的主要功能

  • 多概念图像生成:根据用户提供的文本提示,生成包含多个指定概念的图像。
  • 高保真度和文本对齐:生成的图像具有高保真度,清晰地展示出各个概念的细节特征,且与文本提示具有高度的对齐性,确保图像内容与用户意图一致。
  • 高效推理:在多概念生成过程中,推理成本较低,不会随着概念数量的增加而显著增加推理时间,让多概念图像生成更加高效。
  • 插件式生成:支持用插件式的方式组合不同的单概念模块,进行多概念图像生成,无需针对每个概念组合重新训练模型,提高模型的灵活性和可扩展性。

MultiBooth的技术原理

  • 单概念学习阶段:
    • 多模态图像编码器:用QFormer编码器,输入图像和概念名称(如“dog”),基于自注意力层和交叉注意力层的交互,生成与文本对齐的定制化嵌入表示,为每个概念学习一个简洁且具有区分性的嵌入。
    • 自适应概念归一化(ACN):调整定制化嵌入的L2范数,与提示中的其他词嵌入具有可比性,解决嵌入空间中的域间差异问题,提高多概念生成的能力。
    • 高效概念编码技术:用LoRA技术对U-Net中的注意力层进行低秩分解,避免因微调U-Net导致的语言漂移,提高单概念学习的概念保真度,减少额外的参数存储需求。
  • 多概念整合阶段:
    • 区域定制化模块(RCM):在交叉注意力层中,根据用户定义或自动化过程得到的边界框和区域提示,将图像特征划分为不同区域,每个区域由相应的单概念模块和提示引导生成概念,基于基础提示确保不同区域概念之间的交互,实现多个概念在同一图像中的准确融合。
    • 并行生成与交互:在RCM中,多个单概念模块能同时进行生成,基于交叉注意力机制实现概念之间的并行交互,避免概念融合和推理成本的增加。

MultiBooth的项目地址

  • 项目官网:multibooth.github.io
  • GitHub仓库:https://github.com/chenyangzhu1/MultiBooth
  • arXiv技术论文:https://arxiv.org/pdf/2404.14239

MultiBooth的应用场景

  • 娱乐与创意产业:为冒险游戏快速生成神秘古墓场景图,展示内部机关和壁画,丰富游戏探索元素。
  • 广告与营销:制作化妆品面膜广告海报,展示年轻女性使用后面部肌肤焕然一新,传达产品功效和品牌定位。
  • 教育与学习:生成中世纪城堡图像,清晰展示塔楼和城墙结构,帮助学生理解城堡特点,加深历史知识记忆。
  • 电子商务:为夏季连衣裙生成搭配图,展示碎花连衣裙搭配草编凉鞋和草帽的效果,吸引顾客购买。
  • 科研与工程:生成新型纳米材料结构示意图,展示其超轻重量和高强度特性,帮助公众理解科研成果创新性。
一键鞭打AI!OpenWhip:开源桌面神器,专治Claude Code死循环与卡顿
X-Dancer – 字节等机构推出音乐驱动的人像舞蹈视频生成框架
GEN3C – NVIDIA 联合多伦多大学等推出的生成式视频模型
蚂蚁百灵Ring-2.6-1T:万亿参数MoE推理模型,专攻数学竞赛与代码生成,性能超越DeepSeek-R1
200B+参数刷新SOTA!智象未来「原生全模态」旗舰模型HiDream-O1-Image-Pro深度解析
分享
Email 复制链接 打印
Share
上一篇 WiseDiag – 杭州智诊科技推出全球领先的医疗大模型
下一篇 Wonderland – 多伦多大学、Snap和UCLA联合推出的单视图3D场景生成技术
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

Wonderland – 多伦多大学、Snap和UCLA联合推出的单视图3D场景生成技术
AIGC 资讯
WiseDiag – 杭州智诊科技推出全球领先的医疗大模型
AIGC 资讯
GPT‑5.3 Instant – OpenAI 推出的轻量级对话模型
AIGC 资讯
HealthGPT – 浙大联合阿里等机构推出的医学视觉语言模型
AIGC 资讯

相关推荐

流光脑波AI大脑占位特色图
AIGC 资讯最新趋势

微软优步紧急刹车!AI Token 消耗暴涨24倍,为何换不来用户体验提升?

站外新闻
AI Token 人工智能成本 优步AI 微软Copilot 智能体AI
AI 工具AIGC 资讯

阿里Qwen3.5-Omni全模态大模型发布:215项SOTA霸榜,超越Gemini-3.1 Pro,开启Vibe Coding新纪元

站外新闻
Gemini-3.1 Pro Qwen3.5-Omni Vibe Coding 全模态大模型 阿里通义
AIGC 资讯

FoxBrain – 鸿海研究院推出的推理大语言模型

站外新闻
AIGC 资讯

Qwen2.5-VL-32B – 阿里开源的最新多模态模型

站外新闻
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AGI AI AI Agent AIGC AI商业化 AI大模型 AI安全 AI工具 AI搜索 AI智能体 AI生成内容 AI监管 AI绘画 AI编程 AI编程工具 AI编程智能体 AI芯片 AI视频 AI视频生成 AI设计 Anthropic chatgpt Claude Claude Code Claude Mythos Claude Opus 4.8 DeepSeek DuckDuckGo Gemini GPT-5.5 MCP协议 meta Midjourney MiniMax MoE MoE架构 NVIDIA openai OpenRouter Pika prompt SpaceX stable diffusion SWE-Bench xAI 世界模型 丛林 人工智能 人物 企业级AI 具身智能 命令行工具 图像生成模型 多模态 多模态大模型 大模型 大模型API 大模型应用 大语言模型 字节跳动 家居 小米 展台 建筑 开源 开源大模型 开源工具 开源框架 开源模型 强化学习 微软 教程 早报 智能体 智能体编程 智谱AI 月之暗面 本地AI 海报设计 生成式AI 科大讯飞 科幻 端侧AI 端侧大模型 网络安全 联想 腾讯混元 英伟达 苹果 视频生成模型 语音合成 谷歌 谷歌AI 赛博朋克 长上下文 阶跃星辰 阿里通义 阿里通义千问 风景
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.