图像值16x16个单词:用于大规模图像识别的变形金刚
摘要
出版物: -
arXiv电子打印 发布日期: 2020年10月 内政部: -
10.48550/arXiv.2010.11929年 arXiv: -
arXiv:2010.11929年 书目代码: -
2020arXiv201011929D 关键词: -
计算机科学——计算机视觉与模式识别; 计算机科学-人工智能; 计算机科学-机器学习
电子打印: 微调代码和预处理模型可在 https://github.com/google-research/vision_transformer。 ICLR camera-ready版本有两个小修改:1)在附录中添加了CLS与GAP分类器的讨论,2)修复了图5和表6中exaFLOP计算中的错误(模型的相对性能基本上不受影响)