An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale

虽然Transformer体系结构已经成为自然语言处理任务的实际标准，但它在计算机视觉中的应用仍然有限。在视觉中，注意力要么与卷积网络一起应用，要么用于替换卷积网络的某些组件，同时保持其整体结构不变。我们表明，这种对CNN的依赖是不必要的，直接应用于图像补丁序列的纯变换器可以很好地执行图像分类任务。当对大量数据进行预训练并传输到多个中型或小型图像识别基准（ImageNet、CIFAR-100、VTAB等）时，与最先进的卷积网络相比，Vision Transformer（ViT）获得了优异的结果，同时训练所需的计算资源大大减少。

出版物：

arXiv电子打印

发布日期：

2020年10月

内政部：

10.48550/arXiv.2010.11929年

arXiv:

arXiv:2010.11929年

书目代码：

2020arXiv201011929D

关键词：

计算机科学——计算机视觉与模式识别；
计算机科学-人工智能；
计算机科学-机器学习

电子打印：

微调代码和预处理模型可在https://github.com/google-research/vision_transformer。ICLR camera-ready版本有两个小修改：1）在附录中添加了CLS与GAP分类器的讨论，2）修复了图5和表6中exaFLOP计算中的错误（模型的相对性能基本上不受影响）

NASA/ADS

图像值16x16个单词：用于大规模图像识别的变形金刚

摘要