Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: MultiBooth – 清华联合 Meta 等机构推出的多概念图像生成方法
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AIGC 资讯 > MultiBooth – 清华联合 Meta 等机构推出的多概念图像生成方法
AIGC 资讯

MultiBooth – 清华联合 Meta 等机构推出的多概念图像生成方法

站外新闻
最近更新: 2026年6月8日 下午11:37
SHARE

MultiBooth是什么

MultiBooth是清华大学深圳国际研究生院、 Meta、香港科技大学等机构推出的多概念图像生成方法,能从文本中生成包含多个用户指定概念的图像。MultiBooth将生成过程分为两个阶段:单概念学习和多概念整合。在单概念学习阶段,基于多模态图像编码器和自适应概念归一化技术,为每个概念学习一个简洁且具有区分性的嵌入表示,基于LoRA技术提高概念保真度。在多概念整合阶段,用区域定制化模块(RCM),根据边界框和区域提示在指定区域内生成各个概念,基于基础提示确保不同概念之间的准确交互。MultiBooth在保持高图像保真度和文本对齐能力的同时,实现高效的多概念图像生成,且在训练和推理阶段具有较低的成本。

阅读目录
  • MultiBooth是什么
  • MultiBooth的主要功能
  • MultiBooth的技术原理
  • MultiBooth的项目地址
  • MultiBooth的应用场景

MultiBooth

MultiBooth的主要功能

  • 多概念图像生成:根据用户提供的文本提示,生成包含多个指定概念的图像。
  • 高保真度和文本对齐:生成的图像具有高保真度,清晰地展示出各个概念的细节特征,且与文本提示具有高度的对齐性,确保图像内容与用户意图一致。
  • 高效推理:在多概念生成过程中,推理成本较低,不会随着概念数量的增加而显著增加推理时间,让多概念图像生成更加高效。
  • 插件式生成:支持用插件式的方式组合不同的单概念模块,进行多概念图像生成,无需针对每个概念组合重新训练模型,提高模型的灵活性和可扩展性。

MultiBooth的技术原理

  • 单概念学习阶段:
    • 多模态图像编码器:用QFormer编码器,输入图像和概念名称(如“dog”),基于自注意力层和交叉注意力层的交互,生成与文本对齐的定制化嵌入表示,为每个概念学习一个简洁且具有区分性的嵌入。
    • 自适应概念归一化(ACN):调整定制化嵌入的L2范数,与提示中的其他词嵌入具有可比性,解决嵌入空间中的域间差异问题,提高多概念生成的能力。
    • 高效概念编码技术:用LoRA技术对U-Net中的注意力层进行低秩分解,避免因微调U-Net导致的语言漂移,提高单概念学习的概念保真度,减少额外的参数存储需求。
  • 多概念整合阶段:
    • 区域定制化模块(RCM):在交叉注意力层中,根据用户定义或自动化过程得到的边界框和区域提示,将图像特征划分为不同区域,每个区域由相应的单概念模块和提示引导生成概念,基于基础提示确保不同区域概念之间的交互,实现多个概念在同一图像中的准确融合。
    • 并行生成与交互:在RCM中,多个单概念模块能同时进行生成,基于交叉注意力机制实现概念之间的并行交互,避免概念融合和推理成本的增加。

MultiBooth的项目地址

  • 项目官网:multibooth.github.io
  • GitHub仓库:https://github.com/chenyangzhu1/MultiBooth
  • arXiv技术论文:https://arxiv.org/pdf/2404.14239

MultiBooth的应用场景

  • 娱乐与创意产业:为冒险游戏快速生成神秘古墓场景图,展示内部机关和壁画,丰富游戏探索元素。
  • 广告与营销:制作化妆品面膜广告海报,展示年轻女性使用后面部肌肤焕然一新,传达产品功效和品牌定位。
  • 教育与学习:生成中世纪城堡图像,清晰展示塔楼和城墙结构,帮助学生理解城堡特点,加深历史知识记忆。
  • 电子商务:为夏季连衣裙生成搭配图,展示碎花连衣裙搭配草编凉鞋和草帽的效果,吸引顾客购买。
  • 科研与工程:生成新型纳米材料结构示意图,展示其超轻重量和高强度特性,帮助公众理解科研成果创新性。
SyncAnimation – 南科大等推出的实时音频驱动生成头部运动框架
小米MiMo-V2-Omni全模态Agent基座模型发布:三模态融合、百万上下文,挑战Gemini与Claude
MeteoRA – 南大推出高效可扩展的多任务嵌入框架
小红书开源FireRed-Image-Edit:SOTA级图像编辑模型,文本引导编辑、老照片修复、虚拟试穿一步到位
GPT‑5.3‑Codex‑Spark – OpenAI推出的轻量级编程模型
分享
Email 复制链接 打印
Share
上一篇 WiseDiag – 杭州智诊科技推出全球领先的医疗大模型
下一篇 Wonderland – 多伦多大学、Snap和UCLA联合推出的单视图3D场景生成技术
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

字节跳动发布SeedVR2:单步视频修复模型,以极低成本实现1080p高清画质革新
AI 工具 AIGC 资讯
北大微软联手突破:Next-Frame Diffusion实现30+FPS实时自回归视频生成,扩散模型与因果注意力新范式
AI 工具 AIGC 资讯
美团LLIA框架深度解析:实时音频驱动肖像视频生成,如何实现低延迟高保真交互?
AI 工具 AIGC 资讯
腾讯开源Hunyuan3D-2.1:工业级3D生成模型,支持PBR材质与多模态输入,1秒极速出图
AI 工具 AIGC 资讯

相关推荐

AIGC 资讯

BioEmu – 微软推出的生成式深度学习系统

站外新闻
AI 工具AIGC 资讯

DeepSeek-TUI 重磅发布:基于 Rust 的开源终端智能体,深度适配 DeepSeek V4 百万上下文模型

站外新闻
AIGC开发 DeepSeek V4 DeepSeek-TUI 开源编程工具 终端智能体
AIGC 资讯

Scenethesis – 英伟达推出的交互式3D场景生成框架

站外新闻
AI 工具AIGC 资讯

高德地图x北邮发布FantasyWorld:统一视频与3D建模框架,赋能AR/VR与机器人导航新纪元

站外新闻
3D世界建模 北京邮电大学 空间智能 视频生成 高德地图
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI大模型 AI安全 AI工具 AI智能体 AI模型 AI绘画 AI编程 AI编程助手 AI编程工具 AI视频生成 AI音乐生成 Anthropic Cerebras WSE-3 chatgpt Claude Claude Code DeepSeek Gemini GPT-5.3 Instant GPT-5.3-Codex-Spark GPT-5.4 MCP协议 meta Midjourney MiniMax Mistral AI MoE架构 openai prompt Qwen3 RAG SWE-Bench xAI 上海人工智能实验室 世界模型 人工智能 人物 代码生成 企业级AI 全模态大模型 具身智能 图像生成 图像生成模型 多智能体 多模态 多模态AI 多模态大模型 多模态模型 大模型 大模型应用 大语言模型 字节跳动 小红书 展台 开源 开源AI 开源AI工具 开源大模型 开源工具 开源平台 开源框架 开源模型 开源项目 强化学习 微软 扩散模型 推理模型 教程 数字人 文本转语音 早报 昆仑万维 智谱AI 月之暗面 本地部署 清华大学 生成式AI 美团 腾讯 腾讯混元 自然语言处理 英伟达 蚂蚁集团 视觉语言模型 视频生成 视频生成模型 语音合成 谷歌 谷歌AI 谷歌DeepMind 通义千问 阶跃星辰 阿里巴巴 阿里通义 面壁智能 香港大学
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.