V(V)视觉的S公司parta:一种尴尬的简单方法,用于使用加权Bagof-words进行大规模文本到图像搜索

陆小鹏,赵天成,Kyusong Lee公司


摘要
文本到图像检索是跨模式信息检索中的一项重要任务,即在给定文本查询的情况下,从一个大的未标记数据集中检索相关图像。在本文中,我们提出了VisualSparta,这是一种新的(可视文本稀疏变压器匹配)模型,它在准确性和效率方面都有显著提高。VisualSparta能够超越MSCOCO和Flickr30K中以前最先进的可扩展方法。我们还表明,它实现了显著的检索速度优势,即对于100万个图像索引,使用CPU的VisualSparta的速度比CPU矢量搜索提高了约391倍,比使用GPU加速的矢量搜索提高约5.4倍。实验表明,对于较大的数据集,这种速度优势甚至会变得更大,因为VisualSparta可以有效地实现为反向索引。据我们所知,VisualSparta是第一个基于变压器的文本到图像检索模型,它可以实现对大规模数据集的实时搜索,与以前最先进的方法相比,精确度有了显著提高。
选集ID:
2021.acl长389
体积:
计算语言学协会第59届年会和第11届国际自然语言处理联合会议记录(第1卷:长篇论文)
月份:
八月
年份:
2021
地址:
在线的
编辑:
宗成庆,费霞,李文杰,罗伯托·纳维利
场馆:
国际计算语言学协会|国际JCNLP
信号:
出版商:
计算语言学协会
注:
页:
5020–5029
语言:
网址:
https://aclantology.org/2021.acl-long.389
内政部:
10.18653/v1/2021.acl长389
比比键:
引用(ACL):
陆小鹏、赵天成和李京松。2021VisualSparta:使用加权Bagof-words进行大规模文本到图像搜索的一种令人尴尬的简单方法.英寸计算语言学协会第59届年会和第11届国际自然语言处理联合会议记录(第1卷:长篇论文),第5020–5029页,在线。计算语言学协会。
引用(非正式):
VisualSparta:使用加权Bagof-words进行大规模文本到图像搜索的一种令人尴尬的简单方法(Lu等人,ACL-IJCNLP 2021)
复制引文:
PDF格式:
https://aclantology.org/2021.acl-long.389.pdf
视频:
 https://acl选集.org/2021.acl-long.389.mp4
数据
Flickr30k手机中景COCO