ART – 微软联合清华和北大等推出的多层透明图像生成技术

最近更新: 2026年6月8日下午3:49

ART是什么

ART（Anonymous Region Transformer）是新型的多层透明图像生成技术，能根据全局文本提示和匿名区域布局直接生成多个独立的透明图层（支持 RGBA 格式），图层可以单独编辑、组合或叠加。ART 的核心优势是高效的生成机制和强大的透明度处理能力。采用匿名区域布局，生成模型可以自主决定哪些视觉信息与文本对齐，提供了更大的灵活性。ART 引入逐层区域裁剪机制，显著降低了注意力计算成本，生成速度比全注意力方法快 12 倍以上。支持 50 层以上的多层图像生成，减少了图层之间的冲突。

阅读目录

ART是什么
ART的主要功能
ART的技术原理
ART的项目地址
ART的应用场景

ART

ART的主要功能

多层透明图像生成：ART 能根据全局文本提示和匿名区域布局，直接生成多个独立的透明图层（支持 RGBA 格式），图层可以单独编辑、组合或叠加。
匿名区域布局：设计灵感来源于“图式理论”，支持生成模型自主决定哪些视觉信息与文本信息对齐，提供了更大的灵活性。
高效生成机制：引入逐层区域裁剪机制，只选择与每个匿名区域相关的视觉信息，显著降低了注意力计算成本，生成速度比全注意力方法快12倍以上。
高质量自编码器：提出多层透明图像自编码器，支持直接编码和解码多层图像的透明度，进一步提升了生成质量和效率。
减少图层冲突：能处理50层以上的多层图像生成，有效减少了图层之间的冲突。

ART的技术原理

逐层区域裁剪机制：ART 引入了逐层区域裁剪机制，仅选择与每个匿名区域相关的视觉信息进行处理。这种机制显著降低了注意力计算的成本，生成速度比全注意力方法快12倍以上，能处理多达50个以上的不同图层。
多层透明图像自编码器：ART 提出了高质量的多层透明图像自编码器，能直接对多层图像的透明度进行编码和解码。通过将透明度信息嵌入RGB通道，ART 支持对多层透明图像的精确控制和可扩展生成。
全局文本提示与交互性：用户只需提供全局文本提示和匿名区域布局，模型可根据上下文自主生成每个区域的内容。
全局一致性与图层控制：ART 通过生成全局参考图像和背景图像，确保不同图层之间的视觉一致性，避免了传统方法中常见的图层冲突。用户可以通过修改全局提示或匿名区域布局动态调整生成的图像内容。