×

学习用于个性化图像检索的多功能二进制代码。 (英语) Zbl 1483.68308号

小结:由于图像的语义信息非常复杂,即使使用相同的查询图像,在不同的场景中,基于内容的图像检索结果也可能会有很大的差异,并具有个性化。然而,现有的大多数散列方法只保留一种类型的语义相似度,因此无法处理此类现实的检索任务。为了解决这个问题,我们提出了一个统一的哈希框架,利用卷积网络(CNN)将多种类型的信息编码为二进制码。具体来说,我们假设典型的检索任务通常定义在两个方面,即高级语义(例如对象类别)和视觉属性(例如对象形状和颜色)。为此,我们的双用途哈希模型经过训练,以共同保持分别表征这两个方面的两种相似性。此外,由于同时具有类别和属性标签的图像很少,我们的模型经过精心设计,可以利用丰富的部分标记数据作为训练输入,以减轻过度拟合的风险。在这种框架下,通过量化特定CNN层的输出,可以很容易地获得新编码图像的二进制码,并且可以通过不同的方式使用二进制码来实现不同的检索任务。在两个大规模数据集上的实验表明,我们的方法与专门为每个检索任务设计的最新方法相比,性能相当甚至更好,同时比比较的方法更紧凑。

MSC公司:

68T05型 人工智能中的学习和自适应系统
68第20页 信息存储和数据检索
68单位10 图像处理的计算方法
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Al-Halah,Z.、Lehrmann,A.M.和Sigal,L.(2018年)。朝向遍历图像检索的连续谱。arXiv预打印arXiv:1812.00202。
[2] Bau,D.、Zhou,B.、Khosla,A.、Oliva,A.和Torralba,A.(2017年)。网络解剖:量化深层视觉表征的可解释性。收录:IEEE计算机视觉和模式识别会议记录(第3319-3327页)。
[3] Cakir,F.、He,K.和Sclaroff,S.(2018年)。使用二进制矩阵追踪进行散列。摘自:欧洲计算机视觉会议记录(第332-348页)。
[4] Cao,J.,Li,Y.,&Zhang,Z.(2018)。用于人脸属性学习的具有局部约束的部分共享多任务卷积神经网络。收录:IEEE计算机视觉和模式识别会议记录(第4290-4299页)。
[5] Cao,Y.、Liu,B.、Long,M.和Wang,J.(2018)。Hashgan:深入学习使用成对条件wasserstein gan进行散列。收录:IEEE计算机视觉和模式识别会议记录(第1287-1296页)。
[6] Cao,Y.、Long,M.、Liu,B.和Wang,J.(2018)。用于汉明空间检索的深度柯西散列。摘自:IEEE计算机视觉和模式识别会议记录(第1229-1237页)。
[7] Cao,Z.、Long,M.、Wang,J.和Yu,P.S.(2017)。哈希网:通过继续深入学习哈希。收录于:《IEEE计算机视觉国际会议论文集》(第5609-5618页)。
[8] 邓,C。;陈,Z。;刘,X。;高,X。;Tao,D.,用于交叉模式检索的基于三元组的深度哈希网络,IEEE图像处理学报(TIP),27,8,3893-3903(2018)·Zbl 1409.94109号 ·doi:10.1109/TIP.2018.2821921
[9] Escorcia,V.、Niebles,J.C.和Ghanem,B.(2015)。关于视觉属性和卷积网络之间的关系。摘自:IEEE计算机视觉和模式识别会议记录(第1256-1264页)。
[10] Gionis,A。;Indyk,P。;Motwani,R.,通过散列进行高维相似性搜索,超大数据库(VLDB),99,518-529(1999)
[11] Gong,Y.和Lazebnik,S.(2011年)。迭代量化:一种学习二进制代码的繁琐方法。摘自:IEEE计算机视觉和模式识别会议记录(第817-824页)。
[12] He,K.,Gkioxari,G.,Dollár,P.,&Girshick,r.(2017年)。遮罩r-cnn。摘自:IEEE计算机视觉国际会议(ICCV)会议记录(第2961-2969页)。
[13] He,K.,Zhang,X.,Ren,S.,&Sun,J.(2016)。用于图像识别的深度残差学习。摘自:IEEE计算机视觉和模式识别会议记录(第770-778页)。
[14] Hu,R.,Xu,H.,Rohrbach,M.,Feng,J.,Saenko,K.,&Darrell,T.(2016)。自然语言对象检索。摘自:IEEE计算机视觉和模式识别会议记录(第4555-4564页)。
[15] Huang,C.、Loy,C.C.和Tang,X.(2016)。辨别属性和视觉表征的无监督学习。摘自:IEEE计算机视觉和模式识别会议记录(第5175-5184页)。
[16] Jia,Y.、Shelhamer,E.、Donahue,J.、Karayev,S.、Long,J.、Girshick,R.、Guadarrama,S.和Darrell,T.(2014)。Caffe:快速特征嵌入的卷积架构。摘自:国际多媒体会议(MM)(第675-678页)。
[17] 江,QY;崔,X。;Li,WJ,深度离散监督散列,IEEE图像处理汇刊(TIP),27,12,5996-6009(2018)·Zbl 1409.94268号 ·doi:10.1109/TIP.2018.2864894
[18] Jiang,Q.Y.,&Li,W.J.(2017)。深度跨模式哈希。摘自:IEEE计算机视觉和模式识别会议记录(第3232-3240页)。
[19] Kokkinos,I.(2017)。Ubernet:使用不同的数据集和有限的内存,为低、中、高视力训练通用卷积神经网络。摘自:IEEE计算机视觉和模式识别会议记录(第5454-5463页)。
[20] Kovashka,A.和Grauman,K.(2013年)。用于个性化图像搜索的属性自适应。收录于:《IEEE计算机视觉国际会议论文集》(第3432-3439页)。
[21] Krizhevsky,A.、Sutskever,I.和Hinton,G.E.(2012)。基于深度卷积神经网络的Imagenet分类。摘自:《神经信息处理系统进展》(NIPS)(第1097-1105页)。
[22] Kulis,B.和Darrell,T.(2009年)。学习使用二进制重建嵌入进行散列。摘自:《神经信息处理系统进展》(NIPS)(第1042-1050页)。
[23] Kumar,N.、Belhumeur,P.和Nayar,S.(2008年)。Facetracer:搜索包含人脸的大型图像集合的引擎。摘自:欧洲计算机视觉会议(ECCV)(第340-353页)。
[24] Lai,H.、Pan,Y.、Liu,Y.和Yan,S.(2015)。利用深度神经网络同时进行特征学习和散列编码。收录:IEEE计算机视觉和模式识别会议记录(第3270-3278页)。
[25] Li,Y.,Wang,R.,Liu,H.,Jiang,H.、Shan,S.和Chen,X.(2015)。二鸟一石:联合学习二进制代码用于大规模人脸图像检索和属性预测。摘自:IEEE计算机视觉国际会议论文集(第3819-3827页)。
[26] Liu,H.,Wang,R.,Shan,S.,&Chen,X.(2016)。用于快速图像检索的深度监督哈希。摘自:IEEE计算机视觉和模式识别会议记录(第2064-2072页)。
[27] Liu,H.,Wang,R.,Shan,S.,&Chen,X.(2017)。学习面向类别和属性的检索任务的多功能二进制代码。摘自:IEEE计算机视觉和模式识别会议记录(第6259-6268页)。
[28] 刘,L。;陈,J。;菲古斯,P。;赵,G。;切拉帕,R。;Pietikäinen,M.,《从弓到cnn:纹理分类的二十年纹理表示》,《国际计算机视觉杂志》,127,1,74-109(2019)·doi:10.1007/s11263-018-1125-z
[29] 刘,L。;欧阳,W。;王,X。;菲古斯,P。;陈,J。;刘,X。;Pietikäinen,M.,《通用物体检测的深度学习:一项调查》,《国际计算机视觉杂志》,128,2,261-318(2020)·Zbl 1477.68393号 ·doi:10.1007/s11263-019-01247-4
[30] Liu,W.,Wang,J.,Ji,R.,Jiang,Y.G.,&Chang,S.F.(2012)。监督用内核进行散列。摘自:IEEE计算机视觉和模式识别会议记录(第2074-2081页)。
[31] Liu,X.、He,J.、Deng,C.和Lang,B.(2014)。协作哈希。摘自:IEEE计算机视觉和模式识别会议记录(第2139-2146页)。
[32] Liu,X.、He,J.、Lang,B.和Chang,S.F.(2013)。哈希位选择:哈希中选择问题的统一解决方案。收录:IEEE计算机视觉和模式识别会议记录(第1570-1577页)。
[33] Liu,X.、Huang,L.、Deng,C.、Lu,J.和Lang,B.(2015)。用于最近邻搜索的多视图互补哈希表。摘自:IEEE计算机视觉国际会议(ICCV)会议记录(第1107-1115页)。
[34] Liu,Z.,Luo,P.,Qiu,S.,Wang,X.,&Tang,X..(2016)。Deepfashion:通过丰富的注释支持强大的衣服识别和检索。在:IEEE计算机视觉和模式识别会议论文集(CVPR)(第1096-1104页)。
[35] Long,Y.、Liu,L.、Shen,Y.和Shao,L.(2018)。面向负担得起的语义搜索:通过主要属性进行零镜头检索。参加:第三十二届AAAI人工智能会议。
[36] Norouzi,M.和Fleet,D.J.(2011年)。紧凑二进制代码的最小损失散列。摘自:机器学习国际会议(ICML)(第353-360页)。
[37] Parikh,D.和Grauman,K.(2011年)。交互式构建可命名属性的区分性词汇表。摘自:IEEE计算机视觉和模式识别会议记录(第1681-1688页)。
[38] Patterson,G。;徐,C。;苏,H。;Hays,J.,《太阳属性数据库:超越类别以加深场景理解》,《国际计算机视觉杂志》(IJCV),108,1-2,59-81(2014)·doi:10.1007/s11263-013-0695-z
[39] Rastegari,M.、Diba,A.、Parikh,D.和Farhadi,A.(2013年)。多属性查询:合并还是不合并?摘自:IEEE计算机视觉和模式识别会议记录(第3310-3317页)。
[40] Rastegari,M.、Farhadi,A.和Forsyth,D.(2012年)。通过可预测的区分二进制代码进行属性发现。摘自:欧洲计算机视觉会议(ECCV)(第876-889页)。
[41] 俄勒冈州Russakovsky。;邓,J。;苏,H。;克劳斯,J。;Satheesh,S。;马,S。;黄,Z。;Karpathy,A。;科斯拉,A。;伯恩斯坦,M。;Berg,AC;Fei-Fei,L.,Imagenet大规模视觉识别挑战,国际计算机视觉杂志(IJCV),115,3,211-252(2015)·doi:10.1007/s11263-015-0816-y
[42] Sadovnik,A.、Gallagher,A.、Parikh,D.和Chen,T.(2013年)。口语属性:混合二进制和相对属性来表达正确的内容。摘自:IEEE计算机视觉国际会议(ICCV)会议记录(第2160-2167页)。
[43] Scheire,W.J.、Kumar,N.、Belhumeur,P.N.和Boult,T.E.(2012年)。多属性空间:属性融合和相似性搜索的校准。在:IEEE计算机视觉和模式识别会议记录(CVPR)(第2933-2940页)。
[44] Shen,F.、Shen,C.、Liu,W.和Tao Shen,H.(2015)。监督离散散列。摘自:IEEE计算机视觉和模式识别会议记录(第37-45页)。
[45] Shen,L.,Lin,Z.,&Huang,Q.(2016)。用于深度卷积神经网络有效学习的中继反向传播。摘自:欧洲计算机视觉会议(ECCV)(第467-482页)。
[46] Siddiquie,B.、Feris,R.S.和Davis,L.S.(2011年)。基于多属性查询的图像排序和检索。摘自:IEEE计算机视觉和模式识别会议记录(第801-808页)。
[47] Sun,Y.、Chen,Y.、Wang,X.和Tang,X.(2014)。通过联合身份验证深入学习人脸表示。摘自:《神经信息处理系统进展》(NIPS)(第1988-1996页)。
[48] Szegedy,C.、Liu,W.、Jia,Y.、Sermanet,P.、Reed,S.、Angelov,D.、Erhan,D.、Vanhoucke,V.和Rabinovich,A.(2015)。用卷积深入。摘自:IEEE计算机视觉和模式识别会议记录(第1-9页)。
[49] Tao,R.、Smeulders,A.W.M.和Chang,S.F.(2015)。来自一个示例的通用实例搜索的属性和类别。摘自:IEEE计算机视觉和模式识别会议记录(第177-186页)。
[50] Turakhia,N.和Parikh,D.(2013年)。属性支配:会弹出什么?摘自:IEEE计算机视觉国际会议(ICCV)会议记录(第1225-1232页)。
[51] Veit,A.、Belongie,S.和Karaletsos,T.(2017年)。条件相似网络。收录:IEEE计算机视觉和模式识别会议记录(第830-838页)。
[52] Wang,J。;库马尔,S。;Chang,SF,用于大规模搜索的半监督散列,IEEE模式分析和机器智能交易(PAMI),34,12,2393-2406(2012)·doi:10.1109/TPAMI.2012.48
[53] Wang,L.、Lee,C.Y.、Tu,Z.和Lazebnik,S.(2015)。在深度监督下训练更深层次的卷积网络。arXiv预打印arXiv:1505.02496。
[54] Weiss,Y.、Torralba,A.和Fergus,R.(2008)。光谱散列。摘自:《神经信息处理系统进展》(NIPS)(第1753-1760页)。
[55] Xia,R.、Pan,Y.、Lai,H.、Liu,C.和Yan,S.(2014)。通过图像表示学习进行图像检索的监督哈希。参加:第二十八届AAAI人工智能会议。
[56] Xiao,J.、Hays,J.,Ehinger,K.A.、Oliva,A.和Torralba,A.(2010年)。太阳数据库:从修道院到动物园的大规模场景识别。摘自:IEEE计算机视觉和模式识别会议记录(第3485-3492页)。
[57] Yang,E.、Deng,C.、Liu,W.、Liu,X.、Tao,D.和Gao,X.(2017)。用于跨模式检索的成对关系引导的深度哈希。参加:第三十一届AAAI人工智能会议。
[58] 杨,HF;Lin,K。;Chen,CS,通过深度卷积神经网络监督学习语义提供散列,IEEE模式分析和机器智能(PAMI)汇刊,40,2,27-35(2015)
[59] Yi,D.、Lei,Z.、Liao,S.和Li,S.Z.(2014)。从头开始学习面部表情。arXiv预打印arXiv:1411.7923。
[60] Yu,F.X.、Ji,R.、Tsai,M.H.、Ye,G.和Chang,S.F.(2012)。用于大规模图像检索的弱属性。在:IEEE计算机视觉和模式识别会议论文集(CVPR)(第2949-2956页)。
[61] Zamir,A.R.、Sax,A.、Shen,W.、Guibas,L.J.、Malik,J.和Savarese,S.(2018年)。任务分类法:分解任务转移学习。摘自:IEEE计算机视觉和模式识别会议记录(第3712-3722页)。
[62] 张,R。;林,L。;张,R。;左,W。;Zhang,L.,带正则相似性学习的比特级深度散列用于图像检索和人员重新识别,IEEE图像处理学报(TIP),24,12,4766-4779(2015)·Zbl 1408.94811号 ·doi:10.1109/TIP.2015.2467315
[63] 张,X。;张,L。;王,XJ;Shum,HY,《在数十亿网络图像中寻找名人》,IEEE多媒体交易(TMM),第14、4、995-1007页(2012)·doi:10.1109/TMM.2012.2186121
[64] Zhang,Z.,Chen,Y.,&Saligrama,V.(2016)。用于监督散列的深度神经网络的有效训练。摘自:IEEE计算机视觉和模式识别会议记录(第1487-1495页)。
[65] Zhao,F.、Huang,Y.、Wang,L.和Tan,T.(2015)。基于深度语义排序的多标签图像检索散列。摘自:IEEE计算机视觉和模式识别会议记录(第1556-1564页)。
[66] Zhong,Y.、Sullivan,J.和Li,H.(2016)。基于分类cnn的人脸属性预测。arXiv预打印arXiv:1602.01827。
[67] Zhou,B.、Lapedriza,A.、Xiao,J.、Torralba,A.和Oliva,A.(2014)。使用位置数据库学习场景识别的深层特征。摘自:《神经信息处理系统进展》(NIPS)(第487-495页)。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。