×

用于快速图像检索的深度监督哈希。 (英语) Zbl 1477.68515号

摘要:在本文中,我们提出了一种新的哈希方法来学习压缩二进制码,以便在大规模数据集上高效地进行图像检索。虽然复杂的图像外观变化仍然对可靠的检索提出了很大的挑战,但鉴于卷积神经网络(CNN)在学习各种视觉任务的鲁棒图像表示方面的最新进展,针对海量图像数据,提出了一种新的深度监督哈希算法来学习保持相似性的压缩二进制码。具体地说,我们设计了一个CNN架构,它将成对/三联图像作为训练输入,并鼓励每个图像的输出近似于离散值(例如\(+1/-1)\)。为此,精心设计了损失函数,通过对来自输入图像对/三元组的监督信息进行编码,同时对实际值输出进行正则化,以近似所需的离散值,从而最大限度地提高输出空间的可分辨性。对于图像检索,通过在网络中向前传播,然后将网络输出量化为二进制代码表示,可以很容易地对新的组合查询图像进行编码。在三个大规模数据集CIFAR-10、NUS-WIDE和SVHN上进行的大量实验表明,与现有技术相比,我们的方法具有良好的性能。

MSC公司:

68单位10 图像处理的计算方法
68第20页 信息存储和数据检索
2017年10月68日 人工神经网络与深度学习
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Cao,Z.、Long,M.、Wang,J.和Yu,P.S.(2017)。哈希网:通过继续深入学习哈希。IEEE计算机视觉国际会议,第5608-5617页。
[2] Chua,T.、Tang,J.、Hong,R.、Li,H.、Luo,Z.和Zheng,Y.(2009)。NUS-WIDE:来自新加坡国立大学的真实网络图像数据库。在ACM图像和视频检索国际会议论文集,第48:1-48:9页。
[3] Deng,J.、Ding,N.、Jia,Y.、Frome,A.、Murphy,K.、Bengio,S.等(2014)。使用标签关系图进行大尺度对象分类。欧洲计算机视觉会议,第48-64页。
[4] Erin Liong,V.、Lu,J.、Wang,G.、Moulin,P.和Zhou,J.(2015)。用于紧凑二进制代码学习的深度散列。在IEEE计算机视觉和模式识别会议记录中,第2475-2483页。
[5] Gionis,A.、Indyk,P.和Motwani,R.(1999)。通过散列在高维中进行相似性搜索。第25届超大数据库国际会议论文集,第518-529页。
[6] Gloot,X.和Bengio,Y.(2010年)。了解训练深度前馈神经网络的困难。第十三届人工智能和统计国际会议记录,第249-256页。
[7] Gong,Y.和Lazebnik,S.(2011年)。迭代量化:一种学习二进制代码的繁琐方法。《IEEE计算机视觉和模式识别会议论文集》,第817-824页。
[8] Hadsell,R.、Chopra,S.和LeCun,Y.(2006年)。通过学习不变映射降低维数。《IEEE计算机学会计算机视觉和模式识别会议论文集》,第1735-1742页。
[9] He,K.,Zhang,X.,Ren,S.,&Sun,J.(2015)。深入研究整流器:在图像网络分类方面超越人类水平的性能。《IEEE计算机视觉国际会议论文集》,第1026-1034页。
[10] He,K.,Zhang,X.,Ren,S.,&Sun,J.(2016)。用于图像识别的深度残差学习。《IEEE计算机视觉和模式识别会议记录》,第770-778页。
[11] Hermans,A.、Beyer,L.和Leibe,B.(2017年)。为重新确认身份的三胞胎损失辩护。ArXiv预打印ArXiv:1703.07737。
[12] Jégou,H.、Douze,M.和Schmid,C.(2011)。最近邻搜索的产品量化。IEEE模式分析和机器智能汇刊,33(1),117-128·doi:10.1109/TPAMI.2010.57
[13] Jia,Y.、Shelhamer,E.、Donahue,J.、Karayev,S.、Long,J.和Girshick,R.B.等人(2014)。Caffe:快速特征嵌入的卷积架构。第22届ACM多媒体国际会议记录,第675-678页。
[14] Jiang,Q.Y.,&Li,W.J.(2017)。深度跨模式哈希。《IEEE计算机视觉和模式识别会议论文集》,第3270-3278页。
[15] Kang,W.C.,Li,W.J.,&Zhou,Z.H.(2016)。基于列采样的离散监督哈希。第三十届AAAI人工智能会议论文集,第1230-1236页。
[16] Krizhevsky,A.(2009)。从微小图像中学习多层特征。多伦多大学技术报告。
[17] Krizhevsky,A.、Sutskever,I.和Hinton,G.E.(2012)。基于深度卷积神经网络的Imagenet分类。《神经信息处理系统进展》,第1097-1105页。
[18] Kulis,B.和Darrell,T.(2009年)。学习使用二进制重构嵌入进行散列。《神经信息处理系统进展》,第1042-1050页。
[19] Lai,H.、Pan,Y.、Liu,Y.和Yan,S.(2015)。利用深度神经网络同时进行特征学习和散列编码。《IEEE计算机视觉和模式识别会议论文集》,第3270-3278页。
[20] Li,W.,Wang,S.,&Kang,W.(2016)。基于特征学习的带有成对标签的深度监督散列。第二十五届国际人工智能联合会议记录,第1711-1717页。
[21] Lin,K.,Yang,H.,Xiao,J.,&Chen,C.(2015a)。深入学习用于快速图像检索的二进制散列码。《IEEE计算机视觉和模式识别研讨会会议记录》,第27-35页。
[22] Lin,T.、RoyChowdhury,A.和Maji,S.(2015b)。用于细粒度视觉识别的双线性cnn模型。IEEE计算机视觉国际会议论文集,第1449-1457页。
[23] Liu,H.,Wang,R.,Shan,S.,&Chen,X.(2016)。用于快速图像检索的深度监督哈希。《IEEE计算机视觉和模式识别会议论文集》,第2064-2072页。
[24] Liu,L.,Shen,F.,Shen.,Y.,Liu,X.,&Shao,L.(2017)。深度草图散列:基于自由手草图的快速图像检索。《IEEE计算机视觉和模式识别会议记录》,第2298-2307页。
[25] Liu,W.,Mu,C.,Kumar,S.和Chang,S.(2014)。离散图散列。《神经信息处理系统的进展》,第3419-3427页。
[26] Liu,W.,Wang,J.,Ji,R.,Jiang,Y.,&Chang,S.(2012)。监督用内核进行散列。《IEEE计算机视觉和模式识别会议论文集》,第2074-2081页。
[27] Long,J.、Shelhamer,E.和Darrell,T.(2015)。语义分割的完全卷积网络。《IEEE计算机视觉和模式识别会议论文集》,第3431-3440页。
[28] Nair,V.和Hinton,G.E.(2010年)。校正的线性单元改进了受限的Boltzmann机器。第27届机器学习国际会议论文集,第807-814页。
[29] Netzer,Y.、Wang,T.、Coates,A.、Bissacco,A.、Wu,B.和Ng,A.Y.(2011年)。使用无监督特征学习读取自然图像中的数字。在NIPS关于深度学习和无监督特征学习的研讨会上。
[30] Norouzi,M.和Fleet,D.J.(2011年)。紧凑二进制代码的最小损失散列。第28届国际机器学习会议论文集,第353-360页。
[31] Norouzi,M.、Fleet,D.J.和Salakhutdinov,R.(2012)。汉明距离度量学习。《神经信息处理系统进展》,第1061-1069页。
[32] Oliva,A.和Torralba,A.(2001年)。场景形状建模:空间包络线的整体表示。国际计算机视觉杂志,42(3),145-175·Zbl 0990.68601号 ·doi:10.1023/A:101139631724
[33] Rastegari,M.、Farhadi,A.和Forsyth,D.(2012年)。通过可预测的区分二进制代码进行属性发现。在欧洲计算机视觉会议上,第876-889页。
[34] Rastegari,M.、Ordonnez,V.、Redmon,J.和Farhadi,A.(2016)。Xnor-net:使用二进制卷积神经网络对图像进行分类。在欧洲计算机视觉会议上,第525-542页。
[35] Shen,F.、Shen,C.、Liu,W.和Shen,H.T.(2015)。监督离散散列。《IEEE计算机视觉和模式识别会议论文集》,第37-45页。
[36] Shen,L.,Lin,Z.,&Huang,Q.(2016)。用于深度卷积神经网络有效学习的中继反向传播。在欧洲计算机视觉会议上,第467-482页。
[37] Soudry,D.、Hubara,I.和Meir,R.(2014)。期望反向传播:具有连续或离散权重的多层神经网络的无参数训练。《神经信息处理系统进展》,第963-971页。
[38] 孙毅、陈毅、王毅、唐毅(2014)。通过联合身份验证深入学习人脸表示。《神经信息处理系统进展》,1988-1996页。
[39] Szegedy,C.、Liu,W.、Jia,Y.、Sermanet,P.、Reed,S.、Angelov,D.等人(2015)。用卷积深入。《IEEE计算机视觉和模式识别会议论文集》,第1-9页。
[40] Szegedy,C.、Toshev,A.和Erhan,D.(2013)。用于目标检测的深度神经网络。《神经信息处理系统进展》,第2553-2561页。
[41] Wang,J.、Kumar,S.和Chang,S.(2012年)。用于大规模搜索的半监督散列。IEEE模式分析和机器智能汇刊,34(12),2393-2406·doi:10.1109/TPAMI.2012.48
[42] Wang,J.,Zhang,T.,Song,J..,Sebe,N.,&Shen,H.T.(2017)。关于学习散列的调查。IEEE模式分析和机器智能汇刊,40769-790·doi:10.1109/TPAMI.2017.2699960
[43] Wang,X.,Shi,Y.,&Kitani,K.M.(2016)。使用三元组标签进行深度监督散列。在亚洲计算机视觉会议上,第70-84页。
[44] Weiss,Y.、Torralba,A.和Fergus,R.(2008)。光谱散列。《神经信息处理系统进展》,第1753-1760页。
[45] Xia,R.、Pan,Y.、Lai,H.、Liu,C.和Yan,S.(2014)。通过图像表示学习进行图像检索的监督哈希。《第二十八届AAAI人工智能会议论文集》,第2156-2162页。
[46] Zhang,R.,Lin,L.,Zhang。基于正则相似性学习的比特级深度哈希算法,用于图像检索和人员重新识别。IEEE图像处理汇刊,24(12),4766-4779·Zbl 1408.94811号 ·doi:10.1109/TIP.2015.2467315
[47] Zhang,Z.,Chen,Y.,&Saligrama,V.(2016)。用于监督散列的深度神经网络的有效训练。《IEEE计算机视觉和模式识别会议记录》,第1487-1495页。
[48] Zhao,F.、Huang,Y.、Wang,L.和Tan,T.(2015)。基于深度语义排序的多标签图像检索散列。《IEEE计算机视觉和模式识别会议论文集》,第1556-1564页。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。