Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: 小红书×复旦重磅开源:InstanceAssemble框架实现像素级布局控制,3%参数精准生成复杂场景
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AI 工具 > 小红书×复旦重磅开源:InstanceAssemble框架实现像素级布局控制,3%参数精准生成复杂场景
AI 工具AIGC 资讯

小红书×复旦重磅开源:InstanceAssemble框架实现像素级布局控制,3%参数精准生成复杂场景

站外新闻
最近更新: 2026年6月7日 下午8:09
AIGC 复旦大学 小红书 布局控制 扩散模型
SHARE

💡 站外导读:在AI图像生成领域,用户常面临一个核心痛点:生成的图像布局混乱,物体位置和语义难以精准控制,尤其在多物体复杂场景中更为明显。这限制了AI工具在设计、广告、游戏等专业场景的应用。随着AIGC技术从’能用’走向’好用’,精准布局控制成为产业落地的关键瓶颈。小红书与复旦大学此次联合研究的开源,正是瞄准这一行业痛点,通过轻量级技术路径降低专业级生成能力的门槛,推动AI生图从’创意生成’迈向’精准设计’的新阶段。

InstanceAssemble是什么

InstanceAssemble 是小红书与复旦大学联合推出的轻量级的布局到图像生成框架。框架通过创新的“实例组装注意力”机制,实现从简单到复杂、从稀疏到密集布局的精准图像生成。用户只需提供物体的边界框位置和内容描述,AI 能在对应位置生成符合语义的图像。InstanceAssemble 基于扩散变换器架构,采用轻量级适配方式,仅需少量额外参数能适配主流模型,大幅降低使用门槛。

阅读目录
  • InstanceAssemble是什么
  • InstanceAssemble的主要功能
  • InstanceAssemble的技术原理
  • InstanceAssemble的项目地址
  • InstanceAssemble的应用场景
      • 📝 站长洞察 (Editor’s Insight)

InstanceAssemble

InstanceAssemble的主要功能

  • 精准布局控制:通过指定每个物体的位置(边界框)和内容描述,让 AI 在对应位置生成符合语义的图像内容。
  • 从简单到复杂的布局生成:对简单的几个物体和复杂、密集的场景,InstanceAssemble 能保持高精度的布局对齐和语义一致性。
  • 多模态内容控制:支持通过文本描述、参考图像、深度图、边缘图等多种模态来定义每个实例的内容,进一步提升生成图像的准确性和细节表现。
  • 轻量级适配:无需重新训练整个模型,仅通过少量额外参数(如适配 Stable Diffusion 3-Medium 模型仅需约 3.46% 的额外参数),适配多种主流扩散模型,降低使用门槛。
  • 强大的泛化能力:在训练时仅使用稀疏布局(≤10 个实例),能在密集布局(≥10 个实例)上保持稳健性能,适应不同复杂度的布局条件。

InstanceAssemble的技术原理

  • 扩散模型基础:InstanceAssemble 基于当前主流的扩散变换器架构(如 Multimodal Diffusion Transformer, MMDiT),用扩散模型的强大生成能力,通过逐步去噪的过程生成高质量图像。
  • 实例组装注意力机制:
    • 布局编码器(Layout Encoder):将用户提供的布局条件(如边界框、文本描述等)编码为实例令牌(instance tokens)。对于每个实例,结合其位置信息(通过 DenseSample 增强)和内容描述(文本或视觉内容),生成对应的实例令牌。
    • 组装注意力模块(Assemble-Attn):在生成过程中,将图像令牌(image tokens)与实例令牌进行交互。对于每个实例,仅关注边界框内的图像区域,通过注意力机制更新区域特征。通过加权组装的方式将更新后的特征融合到整体图像中,确保每个实例的布局和语义一致性。
    • 级联结构:采用级联机制,通过基础的 MMDiT 模型处理全局文本提示和图像特征,再通过 Assemble-MMDiT 模块处理实例布局条件,在保持全局生成质量的同时实现精准布局控制。
  • 轻量级适配(LoRA):为高效适配现有扩散模型,InstanceAssemble 使用低秩适配(LoRA)技术,仅在注意力模块中引入少量可训练参数(如低秩矩阵),在不改变基础模型能力的前提下,实现布局控制功能。
  • 评估与基准测试:为更准确地衡量布局与图像的匹配程度,InstanceAssemble 提出“布局锚定分数”(Layout Grounding Score, LGS)评估指标,创建了包含 5000 张图像和 90000 个实例的“DenseLayout”基准测试集,用于评估复杂布局条件下的生成性能。

InstanceAssemble的项目地址

  • GitHub仓库:https://github.com/FireRedTeam/InstanceAssemble
  • arXiv技术论文:https://arxiv.org/pdf/2509.16691

InstanceAssemble的应用场景

  • 设计与广告:帮助设计师和广告公司快速生成符合特定布局和风格的设计草图或广告画面,精准控制元素位置和内容。
  • 内容创作:为内容创作者提供高质量图像生成工具,用于社交媒体、视频制作等,提升内容吸引力和专业性。
  • 游戏开发:框架能快速生成游戏场景和角色装备布局,助力游戏开发者高效设计逼真的背景和关卡。
  • 教育与培训:框架能生成教学材料和虚拟实验室场景,帮助教师更直观地传达知识,提升教学效果。
  • 建筑设计:辅助室内设计师和建筑师生成室内空间和建筑外观的布局图与效果图,优化设计方案。

📝 站长洞察 (Editor’s Insight)

InstanceAssemble的发布,标志着布局可控生成进入’轻量化’与’工程化’的新阶段。其核心价值有三点:一是技术路径的优雅——用仅3%的参数增量撬动精准布局控制,这远比重训练模型更符合产业降本增效的趋势;二是’实例组装注意力’机制的巧妙,它模拟了人类’先规划局部,再组合整体’的设计思维,为复杂场景生成提供了新范式;三是其泛化能力设计,训练用稀疏布局,推理能处理密集场景,这体现了优秀的工程鲁棒性。结合小红书的生态与复旦的学术背景,该项目在’学术-产业’协同上展现了成熟范式。长远看,当布局控制成为基础能力,AIGC的应用边界将从’内容创作’大幅扩展至’设计工程’领域,推动数字内容生产流程的系统性变革。

AI赋能“一人公司”革命:漳州“单人成军”模式如何颠覆数字贸易创业?
ChatGPT 升级记忆系统 全面推向用户
TreeMind树图
Magenta RealTime 2 – 谷歌Magenta开源的实时音乐生成模型
AutoMV: 多智能体协作开源AI系统,一键将歌曲生成节奏同步的音乐视频(附项目地址)
TAGGED:AIGC复旦大学小红书布局控制扩散模型
分享
Email 复制链接 打印
Share
上一篇 阿里通义MAI-UI开源:全尺寸GUI智能体基座模型,2B-235B参数,登顶权威评测引领人机交互变革
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

阿里通义MAI-UI开源:全尺寸GUI智能体基座模型,2B-235B参数,登顶权威评测引领人机交互变革
AI 工具 AIGC 资讯
阶跃星辰Step-DeepResearch:32B参数深度研究模型,单次推理生成专业报告,成本仅0.5元
AI 工具 AIGC 资讯
谷歌重磅开源!Computer Use Preview:用自然语言指挥AI操控浏览器,零代码实现网页自动化
AI 工具 AIGC 资讯
PersonaLive开源:澳门大学重磅发布,12G显卡跑无限时长AI直播换脸
AI 工具 AIGC 资讯

相关推荐

AIGC 资讯

ForgeTrain – 面壁智能联合清华等开源的大模型预训练框架

站外新闻
AIGC 资讯

OmniManip – 智元机器人联合北大推出的通用机器人操作框架

站外新闻
AIGC 资讯

DreamFit – 字节联合清华和中山大学推出的虚拟试衣框架

站外新闻
AI 工具AIGC 资讯

马斯克 xAI 发布 Grok 4.20:四智能体协作架构如何碾压 OpenAI?实盘交易唯一盈利 AI

站外新闻
Alpha Arena Grok 4.20 MoE架构 xAI 多智能体AI
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI大模型 AI安全 AI工具 AI智能体 AI绘画 AI编程 AI编程工具 AI视频 AI视频生成 AI设计 AI音乐生成 Anthropic chatgpt Claude Claude Code Claude Mythos Claude Opus 4.8 DeepSeek Gemini GPT-5.4 GPT-5.5 MCP协议 Midjourney MiniMax Mistral AI MoE MoE架构 NVIDIA openai OpenClaw prompt SWE-Bench xAI 世界模型 丛林 人工智能 人物 企业级AI 具身智能 命令行工具 图像生成模型 多智能体 多模态 多模态AI 多模态大模型 大模型 大模型API 大模型应用 大模型推理 大语言模型 字节跳动 家居 小红书 展台 开源 开源AI工具 开源大模型 开源工具 开源框架 开源模型 开源项目 强化学习 微软 教程 早报 昆仑万维 智能体编程 智谱AI 月之暗面 本地AI 海报设计 清华大学 生成式AI 知识管理 科大讯飞 科幻 端侧AI 端侧大模型 端侧部署 网络安全 腾讯 腾讯混元 英伟达 视频生成 视频生成模型 语音合成 谷歌 谷歌AI 赛博朋克 边缘计算 通义千问 长上下文 阶跃星辰 阿里通义 面壁智能 香港大学
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.