计算机科学>计算机视觉和模式识别
标题: 将视觉变换器扩展到220亿个参数
摘要: 变形金刚的扩展推动了语言模型的突破性功能。 目前,最大的大型语言模型(LLM)包含超过100B个参数。 视觉变形金刚(ViT)将同样的架构引入图像和视频建模,但尚未成功扩展到几乎相同的程度; 最大密度的ViT包含4B参数(Chen等人,2022)。 我们提出了一种高效稳定训练22B参数ViT(ViT-22B)的方法,并对所得模型进行了各种实验。 当对下游任务进行评估时(通常使用冻结特征的轻量级线性模型),ViT-22B显示出随着规模的增加而提高的性能。 我们进一步观察到尺度的其他有趣好处,包括改进了公平性和性能之间的权衡,在形状/纹理偏差方面与人类视觉感知的最新对齐,以及改进了鲁棒性。 ViT-22B展示了“类LLM”视觉缩放的潜力,并提供了实现这一目标的关键步骤。