视觉变压器解释-AI

M$^3$ViT：通过模型加速器协同设计实现高效多任务学习的专家混合视觉变压器

1 |2022-10-26|

梁汉雪、范志文、里肖夫·萨卡尔、姜子瑜、陈天龙、邹凯、余成、丛浩、王章扬，编辑社交预览

多任务学习（MTL）将多个学习过的任务封装在一个模型中，通常可以让这些任务共同学习得更好。然而，当将MTL部署到那些通常资源受限或潜在敏感的实际系统上时，会出现两个突出的挑战：（i）在训练期间，由于任务之间的梯度冲突，同时优化所有任务通常很困难；（ii）在推断时，当前的MTL机制必须激活几乎整个模型，即使只是执行一个任务。然而，大多数实际系统在每一时刻只需要一个或两个任务，并根据需要在任务之间切换：因此，所有任务激活的推理也非常低效且不可扩展。在本文中，我们提出了一个模型-加速器协同设计框架，以实现高效的设备MTL。我们的框架名为M$^3$ViT，它将专家混合（MoE）层定制为MTL的视觉变换（ViT）主干，并在培训期间稀疏地激活特定任务的专家。然后，在对任何感兴趣的任务进行推理时，相同的设计只允许激活任务对应的稀疏专家路径，而不是完整的模型。我们的新模型设计通过硬件级的创新得到了进一步增强，特别是一种为内存约束的MTL量身定制的新型计算重排序方案，该方案实现了任务之间的零开销切换，并且可以扩展到任意数量的专家。当执行单任务推理时，M$^{3}$ViT比以编码器为中心的MTL方法实现了更高的精度，同时显著减少了88%的推理FLOP。当在一个Xilinx ZCU104 FPGA的硬件平台上实现时，我们的共同设计框架将内存需求减少了2.4倍，同时实现了比同类FPGA基线高9.23倍的能效。代码位于：https://github.com/VITA-Group/M3ViT。

多任务学习

SimpleClick：使用简单视觉变换器的交互式图像分割

1 |2022-10-20|

刘勤，徐振林，格达斯·贝尔塔修斯，马克·尼塔默尔，编辑社交预览

基于点击的交互式图像分割旨在通过有限的用户点击来提取目标。分层主干是当前方法的事实上的体系结构。最近，简单、无层次的视觉变换器（ViT）已成为密集预测任务的竞争骨干。这种设计允许原始ViT成为基础模型，可以针对下游任务进行微调，而无需重新设计用于预培训的层次主干。虽然这种设计很简单，并且已经被证明是有效的，但尚未探索用于交互式分割。为了填补这一空白，我们提出了第一种用于交互式分割的普通主干方法，由于其结构简单，被称为SimpleClick。SimpleClick使用预处理为屏蔽自动编码器（MAE）的普通主干，实现了最先进的性能，无需任何提示。值得注意的是，我们的方法达到了4.15NoC@90在SBD方面，比之前的最佳结果提高了21.8%。对医学图像的广泛评估突出了我们方法的通用性。我们还为我们的方法提供了详细的计算分析，强调了它作为一种实用注释工具的可用性。

图像分割

交互式细分

语义分割

屏蔽图像建模的统一视图

0 |2022-10-19|

彭志良、李东、鲍航波、叶启祥、魏福禄、编辑社交预览

掩蔽图像建模已显示出巨大的潜力，可以消除训练大型视觉变形金刚的标签问题，在各种下游任务中取得令人印象深刻的性能。在这项工作中，我们在回顾了现有方法之后，提出了一个统一的遮罩图像建模视图。在统一的观点下，我们引入了一种简单而有效的方法，称为MaskDistill，该方法以损坏的输入图像为条件，从屏蔽位置的教师模型中重建标准化语义特征。图像分类和语义分割的实验结果表明，MaskDistilit的性能与最新的方法相当或更好。当使用巨大的视觉变换器并预训练300个epoch时，MaskDistill在ImageNet-1k（224大小）上获得88.3%的微调top-1精度，在ADE20k（512大小）上得到58.8%的语义分割mIoU度量。代码和预处理模型将在https://aka.ms/unimim。

图像

图像分类

语义分割

用于少镜头分割的特征代理转换器

1 |2022-10-13|

张建伟，孙一凡，杨毅，陈伟，编辑社交预览

少快照分割（FSS）旨在对给定少量注释支持样本的新类进行语义分割。通过对最新进展的反思，我们发现当前的FSS框架已经远远偏离了监督分割框架：鉴于深层特征，FSS方法通常使用复杂的解码器来执行复杂的像素匹配，而监督分割方法使用简单的线性分类头。由于解码器及其匹配管道的复杂性，很难遵循这样的FSS框架。本文恢复了简单的“特征抽取器$+$线性分类头”框架，并提出了一种新的特征代理变换（FPTrans）方法，其中“代理”是表示线性分类头中语义类的向量。FPTrans在学习判别特征和代表性代理方面有两个关键点：1）为了更好地利用有限的支持样本，特征提取器使用一种新颖的提示策略，使查询从底层到顶层与支持特征交互。2） FPTrans使用多个本地背景代理（而不是单个），因为背景不是同质的，并且可能包含一些新的前景区域。这两个关键点很容易通过变压器中的提示机制集成到视觉变压器主干中。给定学习的特征和代理，FPTrans直接比较它们的余弦相似性以进行分割。尽管该框架简单明了，但我们表明FPTrans实现了与最先进的基于解码器的方法相媲美的FSS精度。

如何在小规模数据集上训练视觉变换器？

1 |2022-10-13|

Hanan Gani、Muzammal Naseer、Mohammad Yaqub、编辑社交预览

视觉变换器（ViT）是一种与卷积神经网络截然不同的体系结构，在许多视觉任务中具有多种优势，包括设计简单、鲁棒性和最先进的性能。然而，与卷积神经网络相比，视觉转换器缺乏固有的归纳偏差。因此，这些模型的成功训练主要归功于大规模数据集的预训练，例如1.2M图像的ImageNet或300M图像的JFT。这阻碍了视觉变换器对小规模数据集的直接适应。在这项工作中，我们表明可以直接从小规模数据集学习自监督归纳偏差，并作为一种有效的权重初始化方案进行微调。这允许在不进行大规模预培训、更改模型架构或丢失功能的情况下对这些模型进行培训。我们进行了深入的实验，以在五个小型数据集（包括CIFAR10/100、CINIC10、SVHN、Tiny-ImageNet和两个细粒度数据集：飞机和汽车）上成功地训练单片和非单片视觉变换器。我们的方法持续改进视觉变换器的性能，同时保持其特性，如对显著区域的关注和更高的鲁棒性。我们的代码和预培训模型可从以下网址获得：https://github.com/hananshafi/vits-for-small-scale-datasets。

S4ND：使用状态空间将图像和视频建模为多维信号

0 |2022-10-12|

Eric Nguyen、Karan Goel、Albert Gu、Gordon W.Downs、Preey Shah、Tri Dao、Stephen A.Baccus、Christopher Ré、编辑社交预览

图像和视频等视觉数据通常被建模为固有的连续多维信号的离散化。现有的连续信号模型试图通过直接建模视觉（例如图像）数据的潜在信号来利用这一事实。然而，这些模型在诸如大规模图像和视频分类等实际视觉任务中还无法实现具有竞争力的性能。基于深状态空间模型（SSM）的最新工作，我们提出了S4ND，这是一个新的多维SSM层，它将SSM的连续信号建模能力扩展到包括图像和视频在内的多维数据。我们表明，S4ND可以将$1$D、$2$D和$3$D中的大规模视觉数据建模为连续多维信号，并通过简单地将Conv2D和自关注层与现有最先进模型中的S4ND层交换来展示强大的性能。在ImageNet-1k上，当使用$1$D补丁序列进行训练时，S4ND的性能比Vision Transformer基线高出1.5\%$，当使用$2$D构建图像时，与ConvNeXt的性能相匹配。对于视频，相对于HMDB-51上活动分类中膨胀的$3$D ConvNeXt，S4ND的性能提高了$4\%$。S4ND隐式学习全局、连续卷积核，这些核具有构造不变性的分辨率，提供了一个归纳偏差，可以跨多个分辨率进行泛化。通过对S4进行简单的带宽限制修改以克服混叠，S4ND实现了强大的零快照（在训练时看不到）分辨率性能，当在8美元乘以8美元的基础上进行训练，并在32美元乘以32美元的图像上进行测试时，在CIFAR-10上比基准Conv2D高出40美元。当使用渐进式调整大小进行训练时，S4ND在高分辨率模型的$\sim 1\%$范围内，而训练速度要快$22\%$。

电感偏置

视频分类

受理论启发的神经初始化优化

1 |2022-10-12|

杨一波、王红、袁浩波、林周晨，编辑社交预览

自动机器学习已经被广泛探索，以减少人类在设计神经架构和寻找合适的超参数方面的努力。然而，在神经初始化领域，类似的自动化技术很少被研究。大多数现有的初始化方法都是手工编制的，高度依赖于特定的体系结构。在本文中，我们提出了一个具有理论见解的可微量，称为梯度余弦，以评估神经网络的初始状态。具体来说，梯度余弦是采样梯度相对于初始参数的余弦相似性。通过分析样本优化景观，我们表明在梯度范数约束下，通过最大化GradCosine可以提高网络的训练和测试性能。基于这一观察，我们进一步提出了神经初始化优化（NIO）算法。从样本分析推广到实际的批处理设置，NIO能够自动寻找更好的初始化，与训练时间相比，成本可以忽略不计。通过NIO，我们改进了CIFAR-10、CIFAR-100和ImageNet上各种神经体系结构的分类性能。此外，我们发现我们的方法甚至可以帮助训练大视觉Transformer架构，而无需预热。

缩小小数据集上视觉变换器和卷积神经网络之间的差距

1 |2022-10-12|

陆志英、谢洪涛、刘传斌、张永东、编辑社交预览

在小数据集上从头开始训练时，视觉变换器（ViT）和卷积神经网络（CNN）之间仍然存在巨大的性能差距，这可以归结为缺乏归纳偏差。在本文中，我们进一步考虑了这个问题，并指出了ViTs在归纳偏差中的两个弱点，即空间相关性和多样的通道表示。首先，在空间方面，对象是局部紧凑和相关的，因此需要从令牌及其邻居中提取细粒度特征。而数据的缺乏阻碍了ViT参与空间相关性。其次，在渠道方面，表征在不同渠道上表现出多样性。但稀缺的数据无法使ViT学习到足够强的表示以进行准确识别。为此，我们提出了动态混合视觉变压器（DHVT）作为增强两种电感偏置的解决方案。在空间方面，我们采用了一种混合结构，其中卷积被集成到补丁嵌入和多层感知器模块中，迫使模型捕获令牌特征及其相邻特征。在信道方面，我们在MLP中引入了一个动态特征聚合模块，并在多头自关注模块中引入了全新的“头标记”设计，以帮助重新校准信道表示，并使不同的信道组表示相互交互。弱信道表示的融合形成了足够强的分类表示。通过这种设计，我们成功地消除了CNN和ViT之间的性能差距，我们的DHVT通过轻量级模型实现了一系列最先进的性能，在具有22.8M参数的CIFAR-100上达到85.68%，在具有24.0M参数的ImageNet-1K上达到82.3%。代码位于https://github.com/ArieSeirack/DHVT。

电感偏置

通过对抗训练重新访问适配器

0 |2022-10-10|

Sylvestre-Alvise Rebuffi，Francesco Croce，Sven Gowal，编辑社交预览

虽然对抗性训练通常被用作防御机制，但最近的研究表明，它也可以起到正规化的作用。通过对干净输入和敌对输入的神经网络进行联合训练，可以提高干净、非敌对输入的分类精度。我们证明，与之前的研究结果相反，在对干净输入和敌对输入进行联合训练时，没有必要分离批处理统计信息，并且对于每种类型的输入，只需使用具有很少域特定参数的适配器即可。我们确定，使用Vision Transformer（ViT）的分类标记作为适配器就足以匹配双规范化层的分类性能，同时使用的附加参数要少得多。首先，在ImageNet上，我们将非对手训练的ViT-B16模型的前1精度提高了+1.12%（达到83.76%的前1精确度）。第二，也是更重要的一点，我们展示了使用适配器进行训练可以通过干净令牌和对抗令牌的线性组合实现模型汤。这些模型汤，我们称之为对抗模型汤，允许我们在不牺牲效率的情况下权衡干净和稳健的准确性。最后，我们表明，面对分布变化，我们可以很容易地调整由此产生的模型。我们的ViT-B16在ImageNet变体上获得了前1位的准确度，平均比使用屏蔽自动编码器获得的准确度高+4.00%。

测试时域自适应的可视化提示调整

0 |2022-10-10|

高云和、石行健、朱毅、王浩、汤志强、熊洲、穆丽、迪米特里斯·N·梅塔克斯，编辑社交预览

模型应该能够在测试期间适应看不见的数据，以避免在实际部署场景中不可避免的分布变化导致性能下降。在这项工作中，我们解决了实际但具有挑战性的测试时间自适应（TTA）问题，即模型在不访问源数据的情况下适应目标域。我们提出了一个简单的方法，称为数据高效提示调优（DePT），它有两个关键成分。首先，DePT将视觉提示插入到vision Transformer中，并在自适应过程中只调整这些源初始化的提示。我们发现这种参数有效的微调可以有效地使模型表示适应目标域，而不会对学习目标中的噪声过拟合。其次，DePT通过基于内存库的在线伪标记将源表示引导到目标域。一种专门为提示设计的分层自监督正则化被联合优化，以减轻自训练过程中的错误累积。DePT的可调参数少得多，不仅在主要适配基准上表现出最先进的性能，而且数据效率也很高，即与100%的数据相比，只使用1%或10%的数据进行适配，性能没有太大下降。此外，DePT还可以扩展到在线或多源TTA设置。

域适应

无监督域自适应

基于变换的发展中国家洪水场景分割

0 |2022-10-09|

Ahan M R、Roshan Roy、Shreyas Sunil Kulkarni、Vaibhav Soni、Ashish Chittora、编辑社交预览

洪水是一种大规模的自然灾害，通常会导致大量死亡、大量物质损失和经济动荡。这种影响在人口众多和资源匮乏的发展中国家更为广泛和持久。预警系统（EWS）不断评估水位和其他因素，以预测洪水，帮助将损失降至最低。灾难发生后，灾难应对团队进行灾后需求评估（PDSA），以评估结构损坏，并确定最佳战略，以应对高度受影响的社区。然而，即使在今天的发展中国家，EWS和PDSA对大量图像和视频数据的分析在很大程度上也是由急救人员和志愿者进行的手动过程。我们提出FloodTransformer，据我们所知，它是第一个基于视觉变换器的模型，用于从灾难现场的航空图像中检测和分割洪水区域。我们还提出了一个自定义度量，即洪水容量（FC），用于测量水覆盖的空间范围，并量化分段淹没区域，以便进行EWS和PDSA分析。我们使用SWOC Flood分割数据集，获得0.93 mIoU，优于所有其他方法。通过验证来自其他洪水数据源的未发现洪水图像，我们进一步证明了该方法的鲁棒性。

基于视觉变换的强引力透镜参数估计

1 |2022-10-09|

黄匡威、陈志凡、张伯文、林圣哲、徐嘉中、邓恩、林耀宇，编辑社交预览

量化数百个强透镜类星体系统的参数和相应的不确定性是解决最重要科学问题之一的关键：哈勃常数（$H_{0}$）张力。常用的马尔可夫链蒙特卡罗（MCMC）方法太耗时，无法实现这一目标，但最近的工作表明，卷积神经网络（CNN）可以是速度提高七个数量级的替代方法。利用31200幅模拟强透镜类星体图像，我们首次探索了视觉变换器（ViT）在模拟强引力透镜中的应用。我们表明，ViT与CNN相比可以达到具有竞争力的结果，并且特别擅长一些透镜参数，包括最重要的质量相关参数，例如透镜中心$\theta{1}$和$\theta{2}$、椭圆度$e_1$和$e_2$以及径向幂律斜率$\gamma'$。有了这个有希望的初步结果，我们相信ViT（或基于注意力）网络架构可以成为下一代调查中强透镜科学的重要工具。我们的代码和数据的开放源代码位于\url{https://github.com/kuanweih/strong_lensing_vit_resnet}.

视觉变换器说明