×

通过测量图像的等方差和等效性来理解图像表示。 (英语) Zbl 1458.68236号

摘要:尽管图像表示的重要性,如定向梯度直方图和深度卷积神经网络(CNN),我们对它们的理论理解仍然有限。为了填补这一空白,我们研究了表示的两个关键数学性质:等方差和等价性。等方差研究输入图像的变换如何通过表示进行编码,不变性是变换无效的特殊情况。等价性研究两种表示,例如CNN的两种不同参数化、两个不同的层或两种不同的CNN架构,是否共享相同的视觉信息。提出了一些通过经验确定这些特性的方法,包括在CNN中引入变换层和缝合层。然后将这些方法应用于流行的表示,以揭示其结构的深刻方面,包括阐明CNN中的哪些层实现了某些几何不变性,以及各种CNN体系结构的差异。我们确定了几何和建筑兼容性的几个预测因素,包括表示的空间分辨率以及模型的复杂性和深度。虽然本文的重点是理论,但也演示了结构输出回归的直接应用。

MSC公司:

68T45型 机器视觉和场景理解
68T07型 人工神经网络与深度学习
68单位05 计算机图形;计算几何(数字和算法方面)
68单位10 图像处理的计算方法
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Albanie,S.(2017)。各种卷积神经网络的内存消耗和浮点运算估计。https://github.com/albanie/convnet-burden。2017年8月8日查阅。
[2] Anselmi,F.、Leibo,J.Z.、Rosasco,L.、Mutch,J.、Tacchetti,A.和Poggio,T.(2016)。不变量表示的无监督学习。理论计算机科学,633112-121·Zbl 1342.68264号 ·doi:10.1016/j.tcs.2015.06.048
[3] Aubry,M.和Russell,B.C.(2015)。利用计算机生成的图像了解深层特征。在IEEE国际计算机视觉会议(ICCV)上。
[4] Bromley,J.、Guyon,I.、LeCun,Y.、Säckinger,E.和Shah,R.(1994)。使用siaam时滞神经网络进行签名验证。《神经信息处理系统进展》(第737-744页)。
[5] Bruna,J.和Mallat,S.(2013年)。不变散射卷积网络。IEEE模式分析和机器智能汇刊,35(8),1872-1886·doi:10.1109/TPAMI.2012.230
[6] Canziani,A.、Paszke,A.和Culurciello,E.(2016)。深层神经网络模型的实际应用分析。arXiv预打印arXiv:1605.07678。
[7] Chatfield,K.、Simonyan,K.,Vedaldi,A.和Zisserman,A.(2014)。细节中魔鬼的回归:深入研究卷积网络。BMVC会议记录。
[8] Chen,X.、Mottaghi,R.、Liu,X.和Fidler,S.、Urtasun,R.和Yuille,A.(2014)。检测你能做的:使用整体模型和身体部位检测和表示对象。在IEEE计算机视觉和模式识别(CVPR)会议上。
[9] Cohen,T.和Welling,M.(2016年)。群等变卷积网络。在机器学习国际会议上(第2990-2999页)。
[10] Cohen,T.S.和Welling,M.(2017年)。可操纵CNNS。在学习代表国际会议上。
[11] Csurka,G.、Dance,C.R.、Dan,L.、Willamowski,J.和Bray,C.(2004)。用一袋袋的关键点进行视觉分类。《ECCV计算机视觉统计学习研讨会论文集》。
[12] Dallal,N.和Triggs,B.(2005年)。人体检测定向梯度直方图。CVPR会议记录。
[13] Dieleman,S.、Willett,K.W.和Dambre,J.(2015)。用于星系形态预测的旋转不变卷积神经网络。皇家天文学会月刊,450(2),1441-1459·数字对象标识代码:10.1093/mnras/stv632
[14] Dieleman,S.、De Fauw,J.和Kavukcuoglu,K.(2016)。利用卷积神经网络中的循环对称性。在机器学习国际会议上(1889-1898页)。
[15] Donahue,J.、Jia,Y.、Vinyals,O.、Hoffman,J.,Zhang,N.、Tzeng,E.和Darrell,T.(2013)。Decaf:用于一般视觉识别的深度卷积激活功能。冠状病毒:1310.1531。
[16] Everingham,M.、Zisserman,A.、Williams,C.和Gool,L.V.(2007年)。PASCAL视觉对象类挑战2007(VOC2007)结果。技术报告,Pascal Challenge。
[17] Felzenszwalb,P.F.、Girshick,R.B.、McAllester,D.和Ramanan,D.(2009年)。使用经过区分训练的基于零件的模型进行目标检测。帕米。
[18] Fischler,M.A.和Bolles,R.C.(1981年)。随机样本一致性:模型拟合的范例,应用于图像分析和自动制图。ACM通讯,24(6),381-395·数字对象标识代码:10.1145/358669.358692
[19] Freeman,W.T.、Adelson,E.H.等人(1991年)。可控滤波器的设计和使用。IEEE模式分析和机器智能汇刊,13(9),891-906·数字对象标识代码:10.1109/34.93808
[20] Girshick,R.(2015)。快速R-CNN。IEEE计算机视觉国际会议论文集(第1440-1448页)。
[21] Girshick,R.、Donahue,J.、Darrell,T.和Malik,J.(2014a)。丰富的特征层次用于准确的对象检测和语义分割。在IEEE计算机视觉和模式识别(CVPR)会议记录中。
[22] Girshick,R.B.、Donahue,J.、Darrell,T.和Malik,J.(2014b)。丰富的特征层次用于准确的对象检测和语义分割。CVPR会议记录。
[23] Gloot,X.和Bengio,Y.(2010年)。了解训练深度前馈神经网络的困难。《艾斯塔茨》(第9卷,第249-256页)。
[24] Goodfellow,I.、Lee,H.、Le,Q.V.、Saxe,A.和Ng,A.Y.(2009年)。测量深层网络中的不变性。《神经信息处理系统进展》(第646-654页)。
[25] He,K.,Zhang,X.,Ren,S.和Sun。J.(2014)。用于视觉识别的深度卷积网络中的空间金字塔池。在欧洲计算机视觉会议上(第346-361页)。斯普林格。
[26] He,K.,Zhang,X.,Ren,S.,&Sun,J.(2016)。用于图像识别的深度残差学习。《IEEE计算机视觉和模式识别会议论文集》(第770-778页)。
[27] Huang,F.J.,Boureau,Y.L.,LeCun,Y.等人(2007年)。不变特征层次的无监督学习及其在目标识别中的应用。在IEEE计算机视觉和模式识别会议上,CVPR'07(第1-8页)。电气与电子工程师协会。
[28] Jaderberg,M.、Simonyan,K.、Zisserman,A.和kavukcuoglu,K..(2015)。空间变压器网络。在Cortes,C.、Lawrence,N.D.、Lee,D.D.、Sugiyama,M.和Garnett,R.(编辑)《神经信息处理系统的进展》(第28卷,第2017-2025页)中,Curran Associates,Inc。http://papers.nips.cc/paper/5584-spatial-transformer-networks.pdf。
[29] Jégou,H.、Douze,M.、Schmid,C.和Pérez,P.(2010)。将局部描述符聚合为紧凑的图像表示。CVPR会议记录。
[30] Krizhevsky,A.和Hinton,G.(2009年)。从微小图像中学习多层特征。多伦多大学技术报告。
[31] Krizhevsky,A.、Sutskever,I.和Hinton,G.E.(2012)。基于深度卷积神经网络的Imagenet分类。在NIPS会议记录中。
[32] Laptev,D.、Savinov,N.、Buhmann,J.M.和Pollefeys,M.(2016)。Ti池:卷积神经网络中用于特征学习的变换不变池。《IEEE计算机视觉和模式识别会议论文集》(第289-297页)。
[33] Lenc,K.和Vedaldi,A.(2015)。通过测量图像的等方差和等效性来理解图像表示。在CVPR中进行口腔预备。
[34] Leung,T.和Malik,J.(2001年)。使用三维纹理表示和识别材料的视觉外观。IJCV,43(1),29-44·Zbl 0972.68606号
[35] Li,Y.,Yosinski,J.,Clune,J.、Lipson,H.和Hopcroft,J.(2015)。收敛学习:不同的神经网络学习相同的表示吗?《特征提取:现代问题和挑战》(196-212页)。
[36] Lindeberg,T.(1998)。自动标尺选择原则。皇家理工学院ISRN KTH/NA/P 98/14 SE技术报告。
[37] Long,J.、Shelhamer,E.和Darrell,T.(2015)。语义分割的完全卷积网络。IEEE计算机视觉和模式识别会议记录(第3431-3440页)。
[38] Lowe,D.G.(1999)。基于局部尺度不变特征的目标识别。ICCV会议记录。
[39] Lowe,D.G.(2004)。具有与比例不变关键点不同的图像特征。IJCV,2(60),91-110·doi:10.1023/B:VISI.0000029664.99615.94
[40] Mahendran,A.和Vedaldi,A.(2016年)。使用自然预图像可视化深度卷积神经网络。国际计算机视觉杂志,120(3),233-255。https://doi.org/10.1007/s11263-016-0911-8。 ·doi:10.1007/s11263-016-0911-8
[41] Mikolajczyk,K.和Schmid,C.(2003年)。局部描述符的性能评估。CVPR会议记录。
[42] Parkhi,O.、Vedaldi,A.、Jawahar,C.V.和Zisserman,A.(2011年)。关于猫和狗的真相。ICCV会议记录。
[43] Perronnin,F.和Dance,C.(2006年)。图像分类视觉词汇的Fisher内核。在CVPR程序中。
[44] Razavian,A.S.、Azizpour,H.、Sullivan,J.和Carlsson,S.(2014)。美国有线电视新闻网(CNN)的特写是:一个令人震惊的识别基线。在CVPR DeepVision研讨会上。
[45] Ren,S.、He,K.、Girshick,R.和Sun,J.(2015)。更快的r-cnn:通过区域建议网络实现实时目标检测。《神经信息处理系统进展》(第91-99页)。
[46] Ren,S.、He,K.、Girshick,R.、Zhang,X.和Sun,J.(2017)。卷积特征图上的目标检测网络。IEEE模式分析和机器智能汇刊,39(7),1476-1481。https://doi.org/10.1109/TPAMI.2016.2601099。 ·doi:10.1109/TPAMI.2016.2601099
[47] Russakovsky,O.、Deng,J.、Su,H.、Krause,J.,Satheesh,S.、Ma,S.等人(2015)。ImageNet大规模视觉识别挑战。IJCV,115(3),211-252·doi:10.1007/s11263-015-0816-y
[48] Schimdt,U.和Roth,S.(2012a)。学习旋转软件特征:从不变先验到等变描述符。CVPR会议记录。
[49] Schmidt,U.和Roth,S.(2012年b)。学习旋转软件特征:从不变先验到等变描述符。IEEE计算机视觉和模式识别会议(CVPR)(第2050-2057页)。电气与电子工程师协会。
[50] Sermanet,P.、Eigen,D.、Zhang,X.、Mathieu,M.、Fergus,R.和LeCun,Y.(2014)。专长:使用卷积网络集成识别、定位和检测。arXiv:1312.6229。
[51] Sifre,L.和Mallat,S.(2013年)。用于纹理识别的旋转、缩放和变形不变散射。CVPR会议记录。
[52] Simonyan,K.和Zisserman,A.(2014)。用于大规模图像识别的深度卷积网络。CoRRarXiv公司:1409.1556。
[53] Simonyan,K.和Zisserman,A.(2015)。用于大规模图像识别的深度卷积网络。在学习代表国际会议上。
[54] Simonyan,K.、Vedaldi,A.和Zisserman,A.(2013)。用于大规模图像分类的Deep fisher网络。在NIPS会议记录中。
[55] Sivic,J.和Zisserman,A.(2003年)。视频谷歌:一种用于视频中对象匹配的文本检索方法。ICCV会议记录。
[56] Sjöstrand,K.、Clemmensen,L.H.、Larsen,R.和Ersboll,B.(2018年)。SpaSM:稀疏统计建模的MATLAB工具箱。统计软件杂志。https://doi.org/10.18637/jss.v084.i10。
[57] Sohn,K.和Lee,H.(2012)。通过局部变换学习不变量表示。CoRRarXiv:1206.6418。
[58] Szegedy,C.、Liu,W.、Jia,Y.、Sermanet,P.、Reed,S.、Angelov,D.、Erhan,D.、Vanhoucke,V.和Rabinovich,A.(2015)。用卷积深入。IEEE计算机视觉和模式识别会议记录(第1-9页)。
[59] Taskar,B.、Guestrin,C.和Koller,D.(2003)。最大边际马尔可夫网络。在NIPS会议记录中。
[60] Uijlings,J.、van de Sande,K.、Gevers,T.和Smeulders,A.(2013)。对象识别的选择性搜索。IJCV公司。
[61] Vedaldi,A.和Fulkerson,B.(2010年)。VLFeat-一个开放的便携式计算机视觉算法库。在ACM多媒体国际会议的会议记录中。
[62] Vedaldi,A.和Lenc,K.(2014年)。MatConvNet—用于MATLAB的卷积神经网络。CoRRarXiv:1412.4564。
[63] Vedaldi,A.和Soatto,S.(2005年)。识别特征:非平面场景的视点不变性。ICCV会议记录。
[64] Vondrick,C.、Khosla,A.、Malisiewicz,T.和Torralba,A.(2013年)。HOGgles:可视化目标检测功能。ICCV会议记录。
[65] Wang,J.、Yang,J.、Yu,K.、Lv,F.、Huang,T.和Gong,Y.(2010)。用于图像分类的局部约束线性编码。CVPR会议记录。
[66] Yang,J.、Yu,K.和Huang,T.(2010年)。有监督的翻译变稀疏编码。CVPR会议记录。
[67] Yosinski,J.、Clune,J.,Bengio,Y.和Lipson,H.(2014)。深度神经网络中的特征有多大的可转移性?《神经信息处理系统进展》(第3320-3328页)。
[68] Zeiler,M.D.和Fergus,R.(2013年)。可视化和理解卷积网络。CoRRarXiv:1311.2901。
[69] Zhou,B.、Lapedriza,A.、Xiao,J.、Torralba,A.和Oliva,A.(2014)。使用Places数据库学习场景识别的深层特征。神经信息处理系统的进展。
[70] Zhou,X.,Yu,K.,Zhang,T.,&Huang,T.S.(2010)。使用局部图像描述符的超矢量编码进行图像分类。在ECCV会议记录中。
[71] Zitnick,L.,&Dollar,P.(2014)。边框:从边定位对象方案。在ECCV中。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。