BridgeTower: Building Bridges Between Encoders in Vision-Language Representation Learning

Xu, Xiao; Wu, Chenfei; Rosenman, Shachar; Lal, Vasudev; Che, Wanxiang; Duan, Nan

计算机科学>计算机视觉和模式识别

arXiv公司：2206.08657（cs）

【于2022年6月17日提交(第1版)，最新修订日期：2024年3月27日（本版本，第6版）]

标题：BridgePower：在视觉语言表征学习中构建编码器之间的桥梁

作者：小旭,吴晨飞,沙查尔·罗森曼,瓦苏德夫·拉尔,万向车,南区

查看PDF HTML（实验性）

摘要：近年来，具有双塔结构的视觉语言（VL）模型在视觉语言表征学习中占据主导地位。当前的VL模型要么使用轻量级的单模态编码器，并学习在深度跨模态编码器中同时提取、对齐和融合两种模态，要么将最后一层单模态表示从深度预训练的单模态编码器馈送到顶部跨模态编码器。这两种方法都可能限制视觉语言表示学习并限制模型性能。在本文中，我们提出了BridgePower，它引入了多个桥接层，在单模编码器的顶层和交叉模式编码器的每一层之间建立连接。这使得有效的自下而上的跨模式对齐，以及跨模式编码器中预训练单模编码器不同语义级别的视觉和文本表示之间的融合。BridgeTower仅使用4M图像进行预训练，在各种下游视觉语言任务上取得了最先进的性能。特别是，在VQAv2测试集上，BridgePower的准确率达到78.73%，在相同的预培训数据和几乎可以忽略不计的额外参数和计算成本下，比以前最先进的METER模型高1.09%。值得注意的是，当进一步扩展模型时，BridgePower的准确率达到81.15%，超过了在数量级较大数据集上预先训练的模型。代码和检查点位于此https URL.

评论：	AAAI 2023接受，口头
学科：	计算机视觉和模式识别（cs.CV）; 计算与语言（cs.CL）；机器学习（cs.LG）
引用为：	arXiv公司：2206.08657[cs.CV]
	（或 arXiv:2206.08657v6[cs.CV]对于此版本）
	https://doi.org/10.48550/arXiv.2206.08657

提交历史记录

发件人：肖旭[查看电子邮件]
[第1版]2022年6月17日星期五09:42:35 UTC（964 KB）
[版本2]2022年11月24日星期四12:20:24 UTC（1349 KB）
[第3版]2023年1月26日星期四14:16:34 UTC（1348 KB）
[第4版]2023年2月2日星期四16:22:23 UTC（1348 KB）
[第5版]2023年6月9日星期五12:36:33 UTC（1387 KB）
[版本6]2024年3月27日星期三03:53:23 UTC（1074 KB）

计算机科学>计算机视觉和模式识别

标题：BridgePower：在视觉语言表征学习中构建编码器之间的桥梁

提交历史记录

访问纸张：

参考文献和引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目

计算机科学>计算机视觉和模式识别

标题：BridgePower：在视觉语言表征学习中构建编码器之间的桥梁

提交历史记录

访问纸张：

参考文献和引文

BibTeX格式的引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目