描述:视觉变换器(ViT)是一种图像分类模型,它在图像块上使用类似于变换器的体系结构。将图像分割成固定大小的补丁,然后将每个补丁线性嵌入,添加位置嵌入,并将生成的矢量序列馈送到标准Transformer编码器。为了进行分类,使用了向序列中添加额外可学习的“分类标记”的标准方法。
论文列表: