MAETok – 港大联合北大等机构推出的自动编码器

最近更新: 2026年6月8日下午11:23

MAETok是什么

MAETok（Masked Autoencoders Tokenizer）是卡内基梅隆大学、香港大学、北京大学等机构推出的扩散模型的新型图像标记化方法。MAETok基于掩码建模（Mask Modeling）训练自编码器（AE），在编码器中随机掩盖部分图像标记，用解码器重建标记的特征，学习到更具区分性的语义丰富潜在空间。MAETok的核心优势在于能生成高质量图像，显著提升训练效率和推理吞吐量。在实验中，MAETok使用128个标记，能在ImageNet 256×256和512×512分辨率上实现与以往最佳模型相当甚至更优的生成性能，证明了在高分辨率图像生成中的有效性。

阅读目录

MAETok是什么
MAETok的主要功能
MAETok的技术原理
MAETok的项目地址
MAETok的应用场景

MAETok

MAETok的主要功能

高效图像生成：基于改进的潜在空间结构，生成高质量的图像，尤其在高分辨率图像生成任务中表现优异。
自监督学习：在训练过程中通过重建掩盖的图像标记，学习到更具语义丰富性的潜在表示。
提升训练效率：显著减少训练时间和计算资源消耗，提供更快的训练和推理吞吐量。
多样化特征预测：同时预测多种特征（如HOG、DINOv2、CLIP等），增强模型的表达能力。
灵活的潜在空间设计：在不同的任务中灵活调整潜在空间的结构，适应不同的生成需求。

MAETok的技术原理

掩码建模：在训练过程中，随机选择一定比例的图像标记进行掩盖，用可学习的掩码标记替代。编码器基于处理未掩盖的标记学习潜在空间，解码器则重建掩盖的标记特征。
自编码器架构：采用自编码器（AE）架构，用简单的AE而非变分自编码器（VAE），避免复杂的变分约束，简化训练过程。
辅助解码器：引入多个辅助浅层解码器，分别预测不同的特征目标，让模型能学习到更丰富的语义信息，同时保持高重建保真度。
潜在空间优化：MAETok基于掩码建模和辅助解码器的结合，优化潜在空间的结构，更具区分性和语义性，提高扩散模型的生成性能。