Scaling Vision Transformers to 22 Billion Parameters

Dehghani, Mostafa; Djolonga, Josip; Mustafa, Basil; Padlewski, Piotr; Heek, Jonathan; Gilmer, Justin; Steiner, Andreas; Caron, Mathilde; Geirhos, Robert; Alabdulmohsin, Ibrahim; Jenatton, Rodolphe; Beyer, Lucas; Tschannen, Michael; Arnab, Anurag; Wang, Xiao; Riquelme, Carlos; Minderer, Matthias; Puigcerver, Joan; Evci, Utku; Kumar, Manoj; van Steenkiste, Sjoerd; Elsayed, Gamaleldin F.; Mahendran, Aravindh; Yu, Fisher; Oliver, Avital; Huot, Fantine; Bastings, Jasmijn; Collier, Mark Patrick; Gritsenko, Alexey; Birodkar, Vighnesh; Vasconcelos, Cristina; Tay, Yi; Mensink, Thomas; Kolesnikov, Alexander; Pavetić, Filip; Tran, Dustin; Kipf, Thomas; Lučić, Mario; Zhai, Xiaohua; Keysers, Daniel; Harmsen, Jeremiah; Houlsby, Neil

计算机科学>计算机视觉和模式识别

arXiv:2302.05442（cs）

【于2023年2月10日提交】

标题：将视觉变换器扩展到220亿个参数

作者：莫斯塔法·德哈尼,约西普·乔隆加,巴西尔穆斯塔法,彼得罗·帕德莱斯基,乔纳森·海克,贾斯汀·吉尔默,安德烈亚斯·斯坦纳,玛蒂尔德·卡隆,罗伯特·盖罗斯,易卜拉欣·阿拉卜杜尔莫欣,鲁道夫·杰纳顿,卢卡斯·拜尔,迈克尔·查宁,阿努拉·阿纳布,小王,卡洛斯·里克尔梅,马蒂亚斯·明德勒,琼·普格塞弗,乌特库·埃夫奇,库马尔,Sjoerd van Steenkiste先生,Gamaleldin F.Elsayed公司,阿拉文德·马亨德兰,渔民Yu,阿维塔尔·奥利弗,芳汀·霍特,贾斯米恩·巴斯廷斯,马克·帕特里克·科利尔,亚历克谢·格里森科,维格内什·比罗德卡尔,克里斯蒂娜·瓦康塞洛斯,易泰,托马斯·门辛克,亚历山大·科列斯尼科夫,菲利普·帕维蒂奇,Dustin Tran公司,托马斯·基普夫,马里奥·卢奇奇,翟晓华,丹尼尔·凯泽斯,杰里米亚·哈姆森,尼尔·霍尔斯比

查看PDF

摘要：变形金刚的扩展推动了语言模型的突破性功能。目前，最大的大型语言模型（LLM）包含超过100B个参数。视觉变形金刚（ViT）将同样的架构引入图像和视频建模，但尚未成功扩展到几乎相同的程度；最大密度的ViT包含4B参数（Chen等人，2022）。我们提出了一种高效稳定训练22B参数ViT（ViT-22B）的方法，并对所得模型进行了各种实验。当对下游任务进行评估时（通常使用冻结特征的轻量级线性模型），ViT-22B显示出随着规模的增加而提高的性能。我们进一步观察到尺度的其他有趣好处，包括改进了公平性和性能之间的权衡，在形状/纹理偏差方面与人类视觉感知的最新对齐，以及改进了鲁棒性。ViT-22B展示了“类LLM”视觉缩放的潜力，并提供了实现这一目标的关键步骤。

学科：	计算机视觉和模式识别（cs.CV）; 人工智能（人工智能）；机器学习（cs.LG）
引用为：	arXiv公司：2302.05442[cs.CV]
	（或 arXiv:2302.05442v1[cs.CV]对于此版本）
	https://doi.org/10.48550/arXiv.2302.05442

提交历史记录

发件人：Mostafa Dehghani[查看电子邮件]
[第1版]2023年2月10日星期五18:58:21 UTC（15080 KB）

计算机科学>计算机视觉和模式识别

标题：将视觉变换器扩展到220亿个参数

提交历史记录

访问纸张：

参考文献和引文

1个博客链接

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目

计算机科学>计算机视觉和模式识别

标题：将视觉变换器扩展到220亿个参数

提交历史记录

访问纸张：

参考文献和引文

1个博客链接

BibTeX格式的引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目