×

通过深度CNN激活挖掘中级视觉模式。 (英语) Zbl 1458.68240号

摘要:中级视觉元素发现的目的是找到代表相关图像内容并区分其内容的图像补丁簇。在这里,我们提出了一种模式挖掘方法来解决识别图像中中级元素的问题,其动机是观察到,当应用于其他数据类型时,这些技术在实现类似目标方面非常有效。我们表明,从典型图像补丁中提取的卷积神经网络(CNN)激活具有两个吸引人的特性,能够与模式挖掘技术无缝集成。CNN激活与模式挖掘技术的结合,使得从大量图像补丁中快速有效地发现具有代表性和区分性的模式,并从中检索中级元素。给定模式和检索到的中级视觉元素,我们提出了两种生成图像特征表示的方法。第一种编码方法以类似于视觉单词袋模型的方式将模式用作字典中的码字。因此,我们将其标记为“图案袋”表示。第二个依赖于中级视觉元素来构建一个Bag-of-elements表示。我们评估了两种编码方法在对象和场景分类任务中的性能,并证明了我们的方法在这些任务中的表现优于或匹配当前状态。

MSC公司:

68T45型 机器视觉和场景理解
68T07型 人工神经网络与深度学习
68吨10 模式识别、语音识别
68单位10 图像处理的计算方法
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Agarwal,A.和Triggs,B.(2008年)。具有超特征的多级图像编码。国际计算机视觉杂志,78(1),15-27·doi:10.1007/s11263-007-0072-x
[2] Agrawal,P.、Girshick,R.和Malik,J.(2014)。分析多层神经网络用于目标识别的性能。《欧洲计算机视觉会议论文集》(第329-344页)。
[3] Agrawal,R.和Srikant,R.(1994)。大型数据库中关联规则挖掘的快速算法。《国际会议论文集超大数据库》(第487-499页)。
[4] Aubry,M.、Maturana,D.、Efros,A.A.、Russell,B.C.、Sivic,J.(2014a)《看到3d椅子:使用大型cad模型数据集的基于示例零件的2d-3d对齐》。《IEEE计算机视觉模式识别会议论文集》(第3762-3769页)。
[5] Aubry,M.、Russell,B.C.和Sivic,J.(2014b)。通过区分视觉元素绘制到三维模型对齐。《ACM SIGIR年会论文集》,33(2),第14页。
[6] Azizpour,H.、Razavian,A.S.、Sullivan,J.、Maki,A.和Carlsson,S.(2016)。通用convnet表示的可转移性因素。IEEE事务模式分析与机器智能,38(9),1790-1802。
[7] Bansal,A.、Shrivastava,A.、Doersch,C.和Gupta,A.(2015)。用于对象检测的中级元素。arXiv预打印arXiv:1504.07284
[8] Borgelt,C.(2012)。频繁项集挖掘。Wiley Interdisc Review:数据挖掘和知识发现,2(6),437-456。
[9] Bossard,L.、Guillaumen,M.和Gool,L.V.(2014)。Food-101使用随机森林挖掘歧视性成分。《欧洲计算机视觉会议论文集》(第446-461页)。
[10] Boudev,L.D.和Malik,J.(2009年)。Poselets:使用三维人体姿势注释训练的身体部位检测器。《IEEE计算机视觉国际会议论文集》(第1365-1372页)。
[11] Boudev,L.D.、Maji,S.、Brox,T.和Malik,J.(2010年)。使用相互一致的小窝激活检测人。《欧洲计算机视觉会议进展》(第168-181页)。
[12] Boudev,L.D.、Maji,S.和Malik,J.(2011年)。描述人:一种基于poselet的属性分类方法。IEEE计算机视觉国际会议论文集(第1543-1550页)。
[13] Boureau,Y.、Bach,F.R.、LeCun,Y.和Ponce,J.(2010年)。学习用于识别的中级特征。《IEEE计算机视觉和模式识别会议论文集》(第2559-2566页)。
[14] Chatfield,K.、Simonyan,K.,Vedaldi,A.和Zisserman,A.(2014)。细节中魔鬼的回归:深入挖掘卷积网。英国机器视觉会议论文集。
[15] Cheng,H.、Yan,X.、Han,J.和Yu,P.S.(2008)。用于有效分类的直接判别模式挖掘。《IEEE数据工程国际会议论文集》(第169-178页)。
[16] Choi,M.J.、Torralba,A.和Willsky,A.S.(2012年)。用于对象识别的基于树的上下文模型。IEEE模式分析和机器智能汇刊,34(2),240-252·doi:10.1109/TPAMI.2011.119
[17] Cimpoi,M.、Maji,S.和Vedaldi,A.(2015)。用于纹理识别和分割的深层过滤器库。《IEEE计算机视觉和模式识别会议论文集》(第3828-3836页)。
[18] Cimpoi,M.、Maji,S.、Kokkinos,I.和Vedaldi,A.(2016)。用于纹理识别、描述和分割的深层过滤器库。国际计算机视觉杂志,118(1),65-94·doi:10.1007/s11263-015-0872-3
[19] Courbariaux,M.和Bengio,Y.(2016年)。二进制网络:训练深度神经网络,权重和激活限制为+1或-1。arXiv预打印arXiv:1602.02830
[20] Crowley,E.和Zisserman,A.(2014)。艺术现状:绘画中使用辨别区域的对象检索。英国机器视觉会议论文集。
[21] Deng,J.,Dong,W.,Socher,R.,Li,L.J.,Li.K.,&Li,F.F.(2009)。Imagenet:大规模分层图像数据库。《IEEE计算机视觉和模式识别会议论文集》(第248-255页)。
[22] Diba,A.、Pazandeh,A.M.、Pirsiavash,H.和Gool,L.V.(2016年)。深度训练营:深度卷积动作和属性中级模式。IEEE计算机视觉和模式识别会议论文集。
[23] Divvala,S.K.、Hoiem,D.、Hays,J.、Efros,A.A.、Hebert,M.(2009)。对象检测中上下文的实证研究。《IEEE计算机视觉和模式识别会议论文集》(第1271-1278页)。
[24] Doersch,C.、Singh,S.、Gupta,A.、Sivic,J.和Efros,A.A.(2012年)。什么使巴黎看起来像巴黎?《国际ACM SIGIR年会论文集》,31(4),第101页。
[25] Doersch,C.、Gupta,A.和Efros,A.(2013)。作为判别模式搜索的中级视觉元素发现。《神经信息处理系统进展学报》(第494-502页)。
[26] Dosovitskiy,A.和Brox,T.(2016)。用卷积网络反转视觉表示。IEEE计算机视觉和模式识别会议论文集。
[27] Endres,I.、Shih,K.J.、Jiaa,J.和Hoiem,D.(2013)。学习用于对象识别的零件模型集合。《IEEE计算机视觉和模式识别会议论文集》(第939-946页)。
[28] Everingham,M.、Gool,L.J.V.、Williams,C.K.I.、Winn,J.M.和Zisserman,A.(2010年)。pascal可视对象类(VOC)挑战。国际计算机视觉杂志,88(2),303-338·doi:10.1007/s11263-009-0275-4
[29] Everingham,M.、Eslami,S.M.A.、Gool,L.V.、Williams,C.K.I.、Winn,J.M.和Zisserman,A.(2015)。pascal可视对象类挑战:回顾。国际计算机视觉杂志,111(1),98-136·doi:10.1007/s11263-014-0733-5
[30] Fan,R.E.,Chang,K.W.,Hsieh,C.J.,Wang,X.R.,&Lin,C.J.(2008)。Liblinear:大型线性分类库。机器学习研究杂志,91871-1874·Zbl 1225.68175号
[31] Felzenszwalb,P.F.、Girshick,R.B.、McAllester,D.A.和Ramanan,D.(2010年)。使用经过区分训练的基于零件的模型进行目标检测。IEEE模式分析和机器智能汇刊,32(9),1627-1645·doi:10.1109/TPAMI.2009.167
[32] Fernando,B.和Tuytelaars,T.(2013)。挖掘图像检索的多个查询:对特定于对象的中级表示进行动态学习。《IEEE国际计算机视觉会议论文集》(第2544-2551页)。
[33] 费尔南多(Fernando,B.)、佛罗蒙特(Fromont,E..)和Tuytelaars,T.(2012)。有效使用频繁项集挖掘进行图像分类。《欧洲计算机视觉会议论文集》(第214-227页)。
[34] 费尔南多(Fernando,B.)、佛罗蒙特(Fromont,E..)和Tuytelaars,T.(2014)。挖掘用于图像分类的中级特征。国际计算机视觉杂志,108(3),186-203·doi:10.1007/s11263-014-0700-1
[35] Fouhey,D.F.、Gupta,A.和Hebert,M.(2013)。用于理解单个图像的数据驱动三维原语。《IEEE计算机视觉国际会议论文集》(第3392-3399页)。
[36] Fouhey,D.F.、Hussain,W.、Gupta,A.和Hebert,M.(2015)。没有单个3d图像的单个3d图像。《IEEE计算机视觉国际会议论文集》(第1053-1061页)。
[37] Gao,Y.、Beijbom,O.、Zhang,N.和Darrell,T.(2010)。紧凑双线性池。《IEEE计算机视觉和模式识别会议论文集》(第317-326页)。
[38] Gilbert,A.和Bowden,R.(2014)。用于动作识别的数据挖掘。《亚洲计算机视觉会议论文集》(第290-303页)。
[39] Gilbert,A.、Illingworth,J.和Bowden,R.(2011)。利用挖掘出的层次复合特征进行动作识别。IEEE模式分析和机器智能汇刊,33(5),883-897·doi:10.1109/TPAMI.2010.144
[40] Girshick,R.、Donahue,J.、Darrell,T.和Malik,J.(2014)。丰富的特征层次用于准确的对象检测和语义分割。《IEEE计算机视觉和模式识别会议论文集》(第580-587页)。
[41] Girshick,R.B.、Donahue,J.、Darrell,T.和Malik,J.(2016)。基于区域的卷积网络用于准确的目标检测和分割。IEEE模式分析和机器智能汇刊,38(1),142-158·doi:10.1109/TPAMI.2015.2437384
[42] Gong,Y.、Wang,L.、Guo,R.和Lazebnik,S.(2014)。深度卷积激活特征的多尺度无序池。《欧洲计算机视觉会议论文集》(第392-407页)。
[43] Grahne,G.和Zhu,J.(2005年)。使用fp树进行频繁项集挖掘的快速算法。IEEE知识与数据工程汇刊,17(10),1347-1362·doi:10.1109/TKDE.2005.166
[44] Hariharan,B.、Malik,J.和Ramanan,D.(2012年)。聚类和分类的判别去相关。《欧洲计算机视觉会议论文集》(第459-472页)。
[45] He,K.,Zhang,X.,Ren,S.,&Sun,J.(2015)。用于视觉识别的深度卷积网络中的空间金字塔池。IEEE模式分析和机器智能汇刊,37(9),1904-1916·doi:10.1109/TPAMI.2015.2389824
[46] Hoiem,D.、Efros,A.A.和Hebert,M.(2008年)。将对象置于透视图中。国际计算机视觉杂志,80(1),3-15·兹比尔1477.68369 ·doi:10.1007/s11263-008-0137-5
[47] Jain,A.、Gupta,A.、Rodriguez,M.和Davis,L.S.(2013)。使用中级区分补丁表示视频。《IEEE计算机视觉和模式识别会议论文集》(第2571-2578页)。
[48] Jegou,H.、Douze,M.、Schmid,C.和Pérez,P.(2010年)。将局部描述符聚合为紧凑的图像表示。《IEEE计算机视觉和模式识别会议论文集》(第3304-3311页)。
[49] Jia,Y.、Shelhamer,E.、Donahue,J.、Karayev,S.、Long,J.,Girshick,R.、Guadarrama,S.和Darrell,T.(2014)。Caffe:快速特征嵌入的卷积架构。arXiv预打印arXiv:1408.5093
[50] Juneja,M.、Vedaldi,A.、Jawahar,C.V.和Zisserman,A.(2013)。叫喊块:场景分类的独特部分。《IEEE计算机视觉和模式识别会议论文集》(第923-930页)。
[51] Krizhevsky,A.、Sutskever,I.和Hinton,G.E.(2012)。基于深度卷积神经网络的Imagenet分类。《神经信息处理系统进展学报》(第1106-1114页)。
[52] Lazebnik,S.、Schmid,C.和Ponce,J.(2006)。除了一袋袋的特征:用于识别自然场景类别的空间金字塔匹配。《IEEE计算机视觉和模式识别会议论文集》(第2169-2178页)。
[53] Lee,Y.J.、Efros,A.A.和Hebert,M.(2013)。风格感知的中级表示,用于发现空间和时间中的视觉连接。《IEEE计算机视觉国际会议论文集》(第1857-1864页)。
[54] Li,Q.,Wu,J.,&Tu,Z.(2013)。从大规模互联网图像中获取中级视觉概念。在《IEEE计算机视觉和模式识别会议论文集》(第851-858页)中。
[55] Li,Y.、Liu,L.、Shen,C.和van den Hengel,A.(2015)。中等深度模式挖掘。《IEEE计算机视觉和模式识别会议论文集》(第971-980页)。
[56] Lin,T.、RoyChowdhury,A.和Maji,S.(2015)。用于细粒度视觉识别的双线性CNN模型。《欧洲计算机视觉会议论文集》(第1449-1457页)。
[57] Liu,L.,&Wang,L.(2012)。我的分类器学到了什么?通过支持域检测可视化袋式特征模型的分类规则。《IEEE计算机视觉和模式识别会议论文集》(第3586-3593页)。
[58] Liu,L.、Shen,C.、Wang,L.,van den Hengel,A.和Wang,C.(2014)。基于稀疏编码的fisher向量对高维局部特征进行编码。《神经信息处理系统进展学报》(第1143-1151页)。
[59] Liu,L.、Shen,C.和van den Hengel,A.(2015)。卷积层下的宝藏:用于图像分类的交叉卷积层池。《IEEE计算机视觉和模式识别会议论文集》(第4749-4757页)。
[60] Malisiewicz,T.和Efros,A.A.(2009年)。超越类别:用于推理对象关系的视觉记忆模型。《神经信息处理系统进展学报》(第1222-1230页)。
[61] Malisiewicz,T.、Gupta,A.和Efros,A.(2011年)。用于对象检测和其他的示例svms集成。《IEEE计算机视觉国际会议论文集》(第89-96页)。
[62] Matzen,K.和Snavely,N.(2015年)。泡泡网:用于视觉发现的中心凹成像。《IEEE计算机视觉国际会议论文集》(第1931-1939页)。
[63] Mettes,P.、van Gemert,J.C.和Snoek,C.G.M.(2016)。无备件:共享零件检测器进行图像分类。计算机视觉图像理解
[64] Oquab,M.、Bottou,L.、Laptev,I.和Sivic,J.(2014)。使用卷积神经网络学习和传输中级图像表示。《IEEE计算机视觉和模式识别会议论文集》(第1717-1724页)。
[65] Oramas,J.和Tuytelaars,T.(2016)。通过分层的中级元素建立视觉兼容性模型。arXiv预打印arXiv:1604.00036
[66] Owens,A.、Xiao,J.、Torralba,A.和Freeman,W.T.(2013)。用于数据驱动的多视图重建的形状定位。《IEEE国际计算机视觉会议论文集》(第33-40页)。
[67] Parizi,S.N.、Vedaldi,A.、Zisserman,A.和Felzenszwalb,P.(2015)。自动发现和优化图像分类部件。在学习代表国际会议记录中。
[68] Perronnin,F.,Liu,Y.,Sánchez,J.,Poirier,H.(2010a)使用压缩fisher向量进行大尺度图像检索。《IEEE计算机视觉和模式识别会议记录》(第3384-3391页)。
[69] Perronnin,F.,Sánchez,J.,Mensink,T.(2010b)改进fisher核以进行大规模图像分类。《欧洲计算机视觉会议论文集》(第143-156页)。
[70] Quack,T.、Ferrari,V.、Leibe,B.和Gool,L.J.V.(2007年)。高效挖掘频繁且独特的特征配置。《IEEE计算机视觉国际会议论文集》(第1-8页)。
[71] Quattoni,A.和Torralba,A.(2009年)。识别室内场景。《IEEE计算机视觉和模式识别会议论文集》(第413-420页)。
[72] Rastegari,M.、Ordonez,V.、Redmon,J.和Farhadi,A.(2016)。欧洲计算机视觉会议论文集。
[73] Razavian,A.S.、Azizpour,H.、Sullivan,J.和Carlsson,S.(2014)。Cnn的特点是:一个令人震惊的识别基线。《IEEE计算机视觉和模式识别研讨会会议记录》(第512-519页)。
[74] Rematas,K.、Fernando,B.、Dellaert,F.和Tuytelaars,T.(2015)。数据集指纹:通过数据挖掘探索图像集合。《IEEE计算机视觉和模式识别会议论文集》(第4867-4875页)。
[75] Russakovsky,O.、Deng,J.、Su,H.、Krause,J.,Satheesh,S.、Ma,S.等人(2015)。Imagenet大规模视觉识别挑战。国际计算机视觉杂志,115(3),211-252·doi:10.1007/s11263-015-0816-y
[76] Shih,K.J.、Endres,I.和Hoiem,D.(2015)。学习用于对象识别的部件检测器的区分集合。IEEE模式分析和机器智能汇刊,37(8),1571-1584·doi:10.1109/TPAMI.2014.2366122
[77] Shrivastava,A.、Malisiewicz,T.、Gupta,A.和Efros,A.A.(2011年)。用于跨域图像匹配的数据驱动视觉相似性。ACM SIGIR年度会议记录,30(6),第154页。
[78] Simonyan,K.和Zisserman,A.(2015)。用于大规模图像识别的深度卷积网络。在学习代表国际会议记录中。
[79] Simonyan,K.、Vedaldi,A.和Zisserman,A.(2013)。用于大规模图像分类的Deep fisher网络。《神经信息处理系统进展学报》(第163-171页)。
[80] Singh,S.、Gupta,A.和Efros,A.(2012年)。中级判别补丁的无监督发现。《欧洲计算机视觉会议论文集》(第73-86页)。
[81] Sivic,J.和Zisserman,A.(2003年)。视频谷歌:一种用于视频中对象匹配的文本检索方法。《IEEE计算机视觉国际会议论文集》(第1470-1477页)。
[82] Song,H.O.、Lee,Y.J.、Jegelka,S.和Darrell,T.(2014)。视觉模式配置的发现缺乏监督。《神经信息处理系统进展学报》(第1637-1645页)。
[83] Sun,J.和Ponce,J.(2013)。学习用于图像分类和共分割的判别部分检测器。《IEEE计算机视觉国际会议论文集》(第3400-3407页)。
[84] Sun,J.和Ponce,J.(2016)。用于图像分类和共分割的判别零件检测器学习词典。国际计算机视觉杂志,2,1-23。
[85] Torralba,A.(2003年)。目标检测的背景启动。国际计算机视觉杂志,53(2),169-191·Zbl 1477.68431号 ·doi:10.1023/A:1023052124951
[86] Uno,T.、Asai,T.,Uchida,Y.和Arimura,H.(2003)。LCM:枚举频繁闭项集的有效算法。《频繁项集挖掘实现研讨会论文集》,数据挖掘国际会议。
[87] Voravuthikuncai,W.、Crémilleux,B.和Jurie,F.(2014)。用于图像分类和对象识别的模式集直方图。《IEEE计算机视觉和模式识别会议论文集》(第224-231页)。
[88] Vreeken,J.、van Leeuwen,M.和Siebes,A.(2011年)。克里姆:挖掘压缩的项集。数据挖掘和知识发现,23(1),169-214·Zbl 1235.68071号 ·doi:10.1007/s10618-010-0202-x
[89] Wang,J.,Liu,Z.,Wu,Y.,&Yuan,J.(2014)。学习三维人体动作识别的actionlet集成。IEEE模式分析和机器智能汇刊,36(5),914-927·doi:10.1109/TPAMI.2013.198
[90] Wang,J.,Yang,Y.,Mao,J.、Huang,Z.和Xu,C.H.W.(2016a)。Cnn-rnn:多标签图像分类的统一框架。IEEE计算机视觉和模式识别会议论文集。
[91] Wang,L.,Qiao,Y.,Tang,X.(2013a)Motionlets:用于人体运动识别的中级三维零件。在《IEEE计算机视觉和模式识别会议论文集》(第2674-2681页)中。
[92] Wang,X.,Wang,B.,Bai,X.、Liu,W.、Tu,Z.(2013b)《Max-margin多元词典学习》。《机器学习国际会议论文集》(第846-854页)。
[93] Wang,Y.、Choi,J.、Morariu,V.I.和Davis,L.S.(2016b)。挖掘用于细粒度分类的区分性补丁三元组。《IEEE计算机视觉和模式识别会议论文集》(第1163-1172页)。
[94] Wei,Y.、Xia,W.、Huang,J.、Ni,B.、Dong,J.,Zhao,Y.和Yan,S.(2014)。CNN:单标签到多标签。CoRR arXiv公司:1406.5726
[95] Yao,B.和Fei-Fei,L.(2010年)。Grouplet:用于识别人与物体交互的结构化图像表示。《IEEE计算机视觉和模式识别会议论文集》(第9-16页)。
[96] Yoo,D.、Park,S.、Lee,J.Y.和Kweon,I.S.(2015)。用于深度卷积表示的多尺度金字塔池。《IEEE计算机视觉和模式识别研讨会会议记录》(第71-80页)。
[97] Yuan,J.、Wu,Y.和Yang,M.(2007)。搭配模式的发现:从视觉词汇到视觉短语。IEEE计算机视觉和模式识别会议论文集。
[98] Zeiler,M.D.和Fergus,R.(2014)。可视化和理解卷积网络。《欧洲计算机视觉会议论文集》(第818-833页)。
[99] Zhao,R.、Ouyang,W.和Wang,X.(2014)。学习用于人员重新识别的中级过滤器。《IEEE计算机视觉和模式识别会议论文集》(第144-151页)。
[100] Zhou,B.、Lapedriza ali,Xiao,J.、Torralba,A.和Oliva,A.(2014)。使用位置数据库学习场景识别的深层特征。《神经信息处理系统进展学报》(第487-495页)。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。