SemMAE:用于学习屏蔽自动编码器的语义引导屏蔽

的一部分神经信息处理系统进展35(NeurIPS 2022)主要会议轨道

Biptex公司 纸类 补充的

作者

李刚、郑和良、刘大庆、王朝岳、苏冰、郑昌文

摘要

最近,为了赶上屏蔽语言建模,屏蔽图像建模取得了重大进展。然而,与NLP中的单词不同,图像缺乏语义分解,这仍然使得视觉和语言之间的屏蔽自动编码(MAE)有所不同。在本文中,我们探索了一种潜在的词汇视觉模拟,即语义部分,并通过提出一种语义引导掩蔽策略,将语义信息集成到MAE的训练过程中。与广泛采用的随机掩蔽相比,我们的掩蔽策略可以逐步引导网络学习各种信息,即从部分内模式到部分间关系。特别是,我们通过两个步骤实现这一点。1) 语义部分学习:我们设计了一种自我监督的部分学习方法,通过利用和精炼基于ViT的编码器的多头部注意力来获取语义部分。2) 语义引导MAE(SemMAE)训练:我们设计了一种掩蔽策略,从掩蔽每个部分中的部分补丁到掩蔽图像中的部分(整体)部分。对各种视觉任务的大量实验表明,SemMAE可以通过整合语义信息来学习更好的图像表示。特别是,SemMAE在ImageNet-1k上实现了84.5%的微调精度,比香草MAE高出1.4%。在语义分割和细粒度识别任务中,SemMAE也带来了显著的改进,并产生了最先进的性能。