VisualSparta: An Embarrassingly Simple Approach to Large-scale Text-to-Image Search with Weighted Bag-of-words

Xiaopeng Lu; Tiancheng Zhao; Kyusong Lee

doi:10.18653/v1/2021.acl-long.389

V（V）视觉的S公司parta：一种尴尬的简单方法，用于使用加权Bagof-words进行大规模文本到图像搜索

摘要

文本到图像检索是跨模式信息检索中的一项重要任务，即在给定文本查询的情况下，从一个大的未标记数据集中检索相关图像。在本文中，我们提出了VisualSparta，这是一种新的（可视文本稀疏变压器匹配）模型，它在准确性和效率方面都有显著提高。VisualSparta能够超越MSCOCO和Flickr30K中以前最先进的可扩展方法。我们还表明，它实现了显著的检索速度优势，即对于100万个图像索引，使用CPU的VisualSparta的速度比CPU矢量搜索提高了约391倍，比使用GPU加速的矢量搜索提高约5.4倍。实验表明，对于较大的数据集，这种速度优势甚至会变得更大，因为VisualSparta可以有效地实现为反向索引。据我们所知，VisualSparta是第一个基于变压器的文本到图像检索模型，它可以实现对大规模数据集的实时搜索，与以前最先进的方法相比，精确度有了显著提高。

选集ID：: 2021.acl长389
体积：: 计算语言学协会第59届年会和第11届国际自然语言处理联合会议记录（第1卷：长篇论文）
月份：: 八月
年份：: 2021
地址：: 在线的
编辑：: 宗成庆,费霞,李文杰,罗伯托·纳维利
场馆：: 国际计算语言学协会|国际JCNLP
信号：
出版商：: 计算语言学协会
注：
页：: 5020–5029
语言：
网址：: https://aclantology.org/2021.acl-long.389
内政部：: 10.18653/v1/2021.acl长389
比比键：
引用（ACL）：: 陆小鹏、赵天成和李京松。2021VisualSparta：使用加权Bagof-words进行大规模文本到图像搜索的一种令人尴尬的简单方法.英寸计算语言学协会第59届年会和第11届国际自然语言处理联合会议记录（第1卷：长篇论文），第5020–5029页，在线。计算语言学协会。
引用（非正式）：: VisualSparta：使用加权Bagof-words进行大规模文本到图像搜索的一种令人尴尬的简单方法（Lu等人，ACL-IJCNLP 2021）
复制引文：
PDF格式：: https://aclantology.org/2021.acl-long.389.pdf
视频：: https://acl选集.org/2021.acl-long.389.mp4
数据: Flickr30k手机, 中景COCO

PDF格式引用搜索视频