SemMAE: Semantic-Guided Masking for Learning Masked Autoencoders

Li, Gang; Zheng, Heliang; Liu, Daqing; Wang, Chaoyue; Su, Bing; Zheng, Changwen

SemMAE：用于学习屏蔽自动编码器的语义引导屏蔽

的一部分神经信息处理系统进展35（NeurIPS 2022）主要会议轨道

Biptex公司纸类补充的

作者

李刚、郑和良、刘大庆、王朝岳、苏冰、郑昌文

摘要

最近，为了赶上屏蔽语言建模，屏蔽图像建模取得了重大进展。然而，与NLP中的单词不同，图像缺乏语义分解，这仍然使得视觉和语言之间的屏蔽自动编码（MAE）有所不同。在本文中，我们探索了一种潜在的词汇视觉模拟，即语义部分，并通过提出一种语义引导掩蔽策略，将语义信息集成到MAE的训练过程中。与广泛采用的随机掩蔽相比，我们的掩蔽策略可以逐步引导网络学习各种信息，即从部分内模式到部分间关系。特别是，我们通过两个步骤实现这一点。1）语义部分学习：我们设计了一种自我监督的部分学习方法，通过利用和精炼基于ViT的编码器的多头部注意力来获取语义部分。2）语义引导MAE（SemMAE）训练：我们设计了一种掩蔽策略，从掩蔽每个部分中的部分补丁到掩蔽图像中的部分（整体）部分。对各种视觉任务的大量实验表明，SemMAE可以通过整合语义信息来学习更好的图像表示。特别是，SemMAE在ImageNet-1k上实现了84.5%的微调精度，比香草MAE高出1.4%。在语义分割和细粒度识别任务中，SemMAE也带来了显著的改进，并产生了最先进的性能。

SemMAE：用于学习屏蔽自动编码器的语义引导屏蔽

作者

摘要

名称更改策略