计算机科学>计算机视觉和模式识别
标题: BridgePower:在视觉语言表征学习中构建编码器之间的桥梁
摘要: 近年来,具有双塔结构的视觉语言(VL)模型在视觉语言表征学习中占据主导地位。 当前的VL模型要么使用轻量级的单模态编码器,并学习在深度跨模态编码器中同时提取、对齐和融合两种模态,要么将最后一层单模态表示从深度预训练的单模态编码器馈送到顶部跨模态编码器。 这两种方法都可能限制视觉语言表示学习并限制模型性能。 在本文中,我们提出了BridgePower,它引入了多个桥接层,在单模编码器的顶层和交叉模式编码器的每一层之间建立连接。 这使得有效的自下而上的跨模式对齐,以及跨模式编码器中预训练单模编码器不同语义级别的视觉和文本表示之间的融合。 BridgeTower仅使用4M图像进行预训练,在各种下游视觉语言任务上取得了最先进的性能。 特别是,在VQAv2测试集上,BridgePower的准确率达到78.73%,在相同的预培训数据和几乎可以忽略不计的额外参数和计算成本下,比以前最先进的METER模型高1.09%。 值得注意的是,当进一步扩展模型时,BridgePower的准确率达到81.15%,超过了在数量级较大数据集上预先训练的模型。 代码和检查点位于 此https URL .