@进行中{lu-etal-2021-visualsparta,title=“{V}isual{S}parta:使用加权Bagof-words进行大规模文本图像搜索的一种令人尴尬的简单方法”,author=“卢、小鹏和赵天成和Lee,Kyusong“,editor=“宗、成清和夏、费和李文杰和罗伯托·纳维利“,booktitle=“计算语言学协会第59届年会暨第11届国际自然语言处理联合会议论文集(第1卷:长篇论文)”,月=八月,年=“2021”,address=“在线”,publisher=“计算语言学协会”,url=“https://aclantology.org/2021.acl-long.389”,doi=“10.18653/v1/2021.acl-long.389”,页码=“5020--5029”,abstract=“文本到图像检索是跨模式信息检索中的一项重要任务,即在给定文本查询的情况下,从一个大的未标记数据集中检索相关图像该模型在准确性和效率方面都有显著提高。VisualSparta能够超越MSCOCO和Flickr30K中以前最先进的可扩展方法。我们还表明,它实现了显著的检索速度优势,即对于100万个图像索引,使用CPU的VisualSparta与CPU矢量搜索相比获得了391倍的速度提升,与使用GPU加速的矢量搜索相比,获得了5.4倍的速度提高。实验表明,对于较大的数据集,这种速度优势甚至会变得更大,因为VisualSparta可以有效地实现为反向索引。据我们所知,VisualSparta是第一个基于变压器的文本到图像检索模型,它可以实现对大规模数据集的实时搜索,与以前最先进的方法相比,精确度有了显著提高。”,}
<?xml version=“1.0”encoding=“UTF-8”?><modsCollection xmlns=“http://www.loc.gov/mods/v3"><mods ID=“lu-etal-2021-visualsparta”><标题信息><title>VisualSparta:使用加权Bagof-words进行大规模文本到图像搜索的一种令人尴尬的简单方法</titleInfo><name type=“personal”>小鹏<namePart type=“family”>Lu</namePart><角色>作者</角色></name><name type=“personal”>天成<namePart type=“given”>赵<namePart type=“family”><角色>作者</角色></name><name type=“personal”><namePart type=“given”>九州</namePart>李<namePart type=“family”><角色>作者</角色></name><originInfo><发布日期>2021-08</发布日期></originInfo><typeOfResource>文本</typeOfResource><relatedItem type=“主机”><标题信息>计算语言学协会第59届年会和第11届国际自然语言处理联合会议记录(第1卷:长篇论文)</titleInfo><name type=“personal”>成清<namePart type=“given”>宗族<角色>编辑器</角色></name><name type=“personal”>飞夏<namePart type=“family”><角色>编辑器</角色></name><name type=“personal”>文杰<namePart type=“given”>李<namePart type=“family”><角色>编辑器</角色></name><name type=“personal”>罗伯托Navigli导航部件<角色>编辑器</角色></name><originInfo>计算语言学协会<位置>在线</place></originInfo>会议出版物</relatedItem>文本到图像检索是跨模式信息检索中的一项基本任务,即在给定文本查询的情况下,从大型未标记数据集中检索相关图像。在本文中,我们提出了VisualSparta,这是一种新的(可视文本稀疏变压器匹配)模型,它在准确性和效率方面都有显著提高。VisualSparta能够超越MSCOCO和Flickr30K中以前最先进的可扩展方法。我们还表明,它实现了显著的检索速度优势,即对于100万个图像索引,使用CPU的VisualSparta的速度比CPU矢量搜索提高了约391倍,比使用GPU加速的矢量搜索提高约5.4倍。实验表明,对于较大的数据集,这种速度优势甚至会变得更大,因为VisualSparta可以有效地实现为反向索引。据我们所知,VisualSparta是第一个基于变压器的文本到图像检索模型,它可以实现对大规模数据集的实时搜索,与以前最先进的方法相比,精确度有了显著提高</摘要>lu-etal-2021-visualsparta10.18653/v1/2021.acl-long.389<位置><网址>https://aclantology.org/2021.acl-long.389</url></位置><部分>2021-08年<扩展单元=“page”><开始>5020</开始><end>5029</范围></部分></mods></modsCollection>
%0会议记录%T VisualSparta:使用加权Bagof-words进行大规模文本到图像搜索的一种令人尴尬的简单方法%阿璐,小鹏%阿昭、天成%A Lee,Kyusong先生%Y Zong、程青%Y Xia、Fei%李文杰%罗伯托·Y·纳维利%计算语言学协会第59届年会和第11届国际自然语言处理联合会议论文集(第1卷:长篇论文)%D 2021年%8月8日%计算语言学协会%C在线%F lu-etal-2021-visualsparta公司%X文本到图像检索是跨模式信息检索中的一项基本任务,即在给定文本查询的情况下,从大型未标记数据集中检索相关图像。在本文中,我们提出了VisualSparta,这是一种新的(可视文本稀疏变压器匹配)模型,它在准确性和效率方面都有显著提高。VisualSparta能够超越MSCOCO和Flickr30K中以前最先进的可扩展方法。我们还表明,它实现了显著的检索速度优势,即对于100万个图像索引,使用CPU的VisualSparta的速度比CPU矢量搜索提高了约391倍,比使用GPU加速的矢量搜索提高约5.4倍。实验表明,对于较大的数据集,这种速度优势甚至会变得更大,因为VisualSparta可以有效地实现为反向索引。据我们所知,VisualSparta是第一个基于变压器的文本到图像检索模型,它可以实现对大规模数据集的实时搜索,与以前最先进的方法相比,精确度有了显著提高。%R 10.18653/v1/2021.acl长389%U型https://aclantology.org/2021.acl-long.389%U型https://doi.org/10.18653/v1/2021.acl-long.389%第5020-5029页
降价(非正式)
[VisualSparta:使用加权Bagof-words进行大规模文本到图像搜索的一种令人尴尬的简单方法](https://aclantology.org/2021.acl-long.389)(Lu等人,ACL-IJCNLP 2021)
国际计算语言学协会