×

用于场景理解的平面均匀纹理的鲁棒检测和仿射校正。 (英语) Zbl 1458.68223号

摘要:人造环境往往具有丰富的平面均匀纹理,表现为沿平面有规律地重复场景元素。在这项工作中,我们建议利用这种结构来促进高级场景理解。通过稳健地将纹理投影模型拟合到图像块的最佳主频估计,我们得出了一种投影-不变方法,用于在多平面场景中定位这些具有语义意义的通用区域。恢复的投影参数还允许在被离群值、房间杂波和光度严重性损坏的真实图像中进行仿射模糊校正。进行了全面的定性和定量评估,表明我们的方法在校正和检测方面都优于现有的代表性工作。然后探讨了均匀纹理在两个场景理解任务中的潜力。首先,在无法可靠检测消失点或不满足曼哈顿假设的环境中,该方法检测到的均匀纹理可以提供替代线索以获得场景几何布局。其次,对检测到的纹理进行仿射校正后提取的低层特征描述符不仅具有类鉴别功能,而且与未经校正的特征互补,提高了室内场景的67类MIT基准的识别性能。我们的一种配置包含深层ConvNet功能,其性能优于此数据集上最新的工作,实现了76.90%的分类精度。该方法在一组31个类别(主要是显示规则重复结构的室外人造环境)上进行了额外验证,这些类别是大规模Places2场景数据集的子集。

MSC公司:

68T45型 机器视觉和场景理解
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Ahmad,S.和Cheong,L.-F.(2016)。促进和探索用于室内场景理解的平面均匀纹理。《欧洲计算机视觉会议论文集》(第35-51页)。
[2] Aiger,D.、Cohen-Or,D.和Mitra,N.J.(2012年)。基于重复最大化的纹理校正。计算机图形论坛(EUROGRAPHICS),31(2.2),439-448·文件编号:10.1111/j.1467-8659.2012.03023.x
[3] Arandjelovi,R.和Zisserman,A.(2012年)。要改进对象检索,每个人都应该知道三件事。IEEE计算机视觉和模式识别会议记录(第2911-2918页)。
[4] Bappy,J.H.和Roy-Chowdhury,A.K.(2016)。用于联合场景和对象识别的相互依赖CNN。模式识别国际会议论文集。
[5] Boureau,Y.-L.,Bach,F.,LeCun,Y.,&Ponce,J.(2010年)。学习中级识别功能。在IEEE关于计算机视觉和模式识别的会议记录中(第2559-2566页)。
[6] Boykov,Y.、Veksler,O.和Zabih,R.(2001)。通过图形切割实现快速近似能量最小化。IEEE模式分析和机器智能汇刊,23(11),1222-1239·数字对象标识代码:10.1109/34.969114
[7] Chang,C.-C.和Lin,C.-J.(2011)。LIBSVM:支持向量机库。ACM智能系统与技术汇刊,2:27:1-27:27。软件可在网址:http://www.csie.ntu.edu.tw/cjlin/libsvm。
[8] Chatfield,K.、Lempitsky,V.、Vedaldi,A.和Zisserman,A.(2011年)。问题在于细节:对最新特征编码方法的评估。《英国机器视觉会议论文集》(第76.1-76.12页)。
[9] Chum,O.和Matas,J.(2010年)。尺度变化的平面仿射校正。《亚洲计算机视觉会议论文集》(第347-360页)。
[10] Cimpoi,M.、Maji,S.、Kokkinos,I.、Mohamed,S.和Vedaldi,A.(2014)。描述野外的纹理。IEEE计算机视觉和模式识别会议论文集(第3606-3613页)。
[11] Cimpoi,M.、Maji,S.和Vedaldi,A.(2015)。用于纹理识别和分割的深层过滤器库。IEEE计算机视觉和模式识别会议记录(第3828-3836页)。
[12] Collins,T.、Durou,J.、Gurdjos,P.和Bartoli,A.(2010年)。具有焦距估计的单视图透视形状-自纹理:分段仿射方法。在《三维数据处理、可视化和传输学报》(3DPVT)中。
[13] Coughlan,J.M.和Yuille,A.L.(1999)。曼哈顿世界:通过贝叶斯推断从单个图像中获得指南针方向。IEEE计算机视觉国际会议论文集(第941-947页)。
[14] Criminsi,A.和Zisserman,A.(2000)。从纹理看形状:重新审视同质性。《英国机器视觉会议论文集》(第8291页)。
[15] Dallal,N.和Triggs,B.(2005年)。人体检测定向梯度直方图。IEEE计算机视觉国际会议论文集(第886-893页)。
[16] Doersch,C.、Gupta,A.和Efros,A.(2013)。作为区分模式搜索的中级视觉元素发现。在《神经信息处理系统学报》(第494-502页)中。
[17] Donahue*,J.、Jia*,Y.、Vinyals,O.、Hoffman,J.,Zhang,N.、Tzeng,E.和Darrell,T.(2014)。DeCAF:用于通用视觉识别的深度卷积激活功能。机器学习国际会议论文集。(*=等额供款)。
[18] Eigen,D.和Fergus,R.(2015)。使用通用的多尺度卷积结构预测深度、曲面法线和语义标签。IEEE计算机视觉国际会议论文集。
[19] Everingham,M.、Eslami,S.M.A.、Gool,L.V.、Williams,C.K.I.、Winn,J.和Zisserman,A.(2014)。PASCAL视觉对象类挑战:回顾。IJCV,111(1),98-136·doi:10.1007/s11263-014-0733-5
[20] Felzenszwalb,P.F.、Girshick,R.B.、McAllester,D.和Ramanan,D.(2010年)。使用经过区分训练的基于零件的模型进行目标检测。IEEE模式分析和机器智能汇刊,32(9),1627-1645·doi:10.1109/TPAMI.2009.167
[21] Fischler,M.A.和Bolles,R.C.(1981年)。随机样本一致性:模型拟合的范例,应用于图像分析和自动制图。ACM通讯,24(6),381-395·数字对象标识代码:10.1145/358669.358692
[22] Gong,Y.、Wang,L.、Guo,R.和Lazebnik,S.(2014)。深度卷积激活特征的多尺度无序池。《欧洲计算机视觉会议论文集》(第392-407页)。
[23] Hartley,R.I.和Zisserman,A.(2004)。计算机视觉中的多视图几何(第二版)。剑桥:剑桥大学出版社。国际标准图书编号:0521540518·Zbl 1072.68104号 ·doi:10.1017/CBO9780511811685
[24] Havlicek,J.P.、Bovik,A.C.和Maragos,P.(1992年)。图像处理和基于小波的图像解调的调制模型。在关于信号、系统和计算机的Asilomar会议记录中(第805-810页)。
[25] Hedau,V.、Hoiem,D.和Forsyth,D.(2009年)。恢复杂乱房间的空间布局。IEEE计算机视觉国际会议论文集(第1849-1856页)。
[26] Hoiem,D.、Efros,A.A.和Hebert,M.(2007年)。从图像恢复曲面布局。国际计算机视觉杂志,75(1),151-172·Zbl 1235.68268号 ·doi:10.1007/s11263-006-0031-y
[27] Hong,W.、Yang,A.Y.、Huang,K.和Ma,Y.(2004)。关于对称和多视图几何:结构、姿势和单个图像的校准。国际计算机视觉杂志,60(3),241-265·Zbl 1477.68370号 ·doi:10.1023/B:VISI.0000036837.76476.10
[28] Huang,Y.,Wu,Z.,Wang,L.,&Tan,T.(2014)。图像分类中的特征编码:一项综合研究。IEEE模式分析和机器智能汇刊,36(3),493-506·doi:10.1109/TPAMI.2013.113
[29] Jia,Y.、Shelhamer,E.、Donahue,J.、Karayev,S.、Long,J.,Girshick,R.、Guadarrama,S.和Darrell,T.(2014)。Caffe:快速特征嵌入的卷积架构。arXiv预印本arXiv:1408.5093。http://caffe.berkeleyvision.org/。
[30] Juneja,M.、Vedaldi,A.、Jawahar,C.V.和Zisserman,A.(2013)。叫喊块:场景分类的独特部分。IEEE计算机视觉和模式识别会议论文集(第923-930页)。
[31] Kosecka,J.和Zhang,W.(2003年)。基于主要矩形结构的提取、匹配和姿态恢复。在第一届IEEE国际研讨会上,讨论了3D建模和运动分析的高级知识(第83-91页)。
[32] Krizhevsky,A.、Sutskever,I.和Hinton,G.E.(2012)。基于深度卷积神经网络的Imagenet分类。在《神经信息处理系统学报》(第1097-1105页)中。
[33] Krumm,J.和Shafer,S.(1992年)。使用光谱图从周期性纹理中提取形状。《IEEE计算机视觉和模式识别会议论文集》(第284-289页)。
[34] Kulkarni,P.、Jurie,F.、Zepeda,J.、Prez,P.和Chevallier,L.(2016)。SPLeaP:用于图像分类的学习部分的软池。《欧洲计算机视觉会议论文集》(第329-345页)。
[35] Lazebnik,S.、Schmid,C.和Ponce,J.(2006)。除了一袋袋的特征:用于识别自然场景类别的空间金字塔匹配。IEEE计算机视觉和模式识别会议记录(第2169-2178页)。
[36] Leung,T.和Malik,J.(1996年)。从图像中检测、定位和分组重复的场景元素。《欧洲计算机视觉会议论文集》(第546-555页)。
[37] Lian,X.-C.,Li,Z.,Lu,B.-L.,&Zhang,L.(2010)。用于多类图像分类的Max-maring字典学习。《欧洲计算机视觉会议论文集》(第157-170页)。
[38] Lin,D.,Lu,C.,Liao,R.,&Jia,J.(2014)。学习场景分类的重要空间池区域。IEEE计算机视觉和模式识别会议记录(第3726-3733页)。
[39] Liu,X.、Veksler,O.和Samarabandu,J.(2010)。基于图形的优化的顺序保护动作。IEEE模式分析和机器智能汇刊,32(7),1182-1196·doi:10.1109/TPAMI.2009.120
[40] Lowe,D.G.(2004)。具有与比例不变关键点不同的图像特征。国际计算机视觉杂志,60(2),91-110·doi:10.1023/B:VISI.0000029664.99615.94
[41] Mikolajczyk,K.,Tuytelaars,T.,Schmid,C.,Zisserman,A.,Matas,J.,Schafalitzky,F.等人(2005年)。仿射区域检测器的比较。国际计算机视觉杂志,65(1-2),43-72·数字对象标识代码:10.1007/s11263-005-3848-x
[42] Ojala,T.、Pietikinen,M.和Menp,T.(2002)。具有局部二值模式的多分辨率灰度和旋转不变纹理分类。IEEE模式分析和机器智能汇刊,24(7),971-987·doi:10.1109/TPAMI.2002.1017623
[43] Oliva,A.和Torralba,A.(2001年)。场景形状建模:空间包络线的整体表示。国际计算机视觉杂志,42(3),145-175·Zbl 0990.68601号 ·doi:10.1023/A:101139631724
[44] Pandey,M.和Lazebnik,S.(2011年)。基于可变形部分模型的场景识别和弱监督目标定位。在IEEE计算机视觉国际会议论文集(第1307-1314页)。
[45] Patterson,G.、Xu,C.、Su,H.和Hays,J.(2014)。SUN属性数据库:超越类别,深入了解场景。国际计算机视觉杂志,108(1),59-81·doi:10.1007/s11263-013-0695-z
[46] Petkov,N.和Kruizinga,P.(1997)。视觉神经元的计算模型专门用于检测周期性和非周期性的视觉刺激:条形细胞和光栅细胞。生物控制论,76(2),83-96·兹伯利0866.92005 ·doi:10.1007/s004220050323
[47] Picard,R.W.(2010)。视频和图像库模型协会。《IBM系统杂志》,35(3.4),292-312·数字对象标识代码:10.1147/sj.353.0292
[48] Pritts,J.、Chum,O.和Matas,J.(2014)。共面重复图案的检测、校正和分割。《IEEE计算机视觉和模式识别会议论文集》(第2973-2980页)。
[49] Qi,M.,&Wang,Y.(2016)。Deep-CSSR:使用具有深层特征的特定类别显著区域进行场景分类。图像处理国际会议论文集。
[50] Quan,Y.,Xu,Y.、Sun,Y.和Luo,Y.(2014)。用于纹理分类的图像模式缺乏分析。IEEE计算机视觉和模式识别会议记录(第160-167页)。
[51] Quattoni,A.和Torralba,A.(2009年)。识别室内场景。在IEEE计算机视觉和模式识别会议论文集(第413-420页)。
[52] Razavian,A.S.、Azizpour,H.、Sullivan,J.和Carlsson,S.(2014)。美国有线电视新闻网(CNN)的特写是:一个令人震惊的识别基线。IEEE计算机视觉和模式识别研讨会会议记录(第512-519页)。
[53] Renninger,L.W.和Malik,J.(2004)。场景识别什么时候只是纹理识别?视觉研究,44(19),2301-2311·doi:10.1016/j.visres.2004.04.006
[54] Ribeiro,E.和Hancock,E.R.(2000)。使用局部光谱分析估计纹理平面的三维方向。图像和视觉计算,18(8),619-631·doi:10.1016/S0262-8856(99)00064-5
[55] Rosenholtz,R.和Malik,J.(1997)。纹理的表面方向:各向同性还是同质性(或两者兼而有之)?视力研究,37(16),2283-2293·doi:10.1016/S0042-6989(96)00121-6
[56] Rother,C.(2000年)。建筑环境中消失点检测的一种新方法。《英国机器视觉会议论文集》(第382-391页)。
[57] Russakovsky*,O.,Deng*,J.,Su,H.,Krause,J.、Satheesh,S.、Ma,S.,Huang,Z.、Karpathy,A.、Khosla,A.、Bernstein,M.、Berg,A.C.和Fei-Fei,L.(2015)。Imagenet大规模视觉识别挑战。国际计算机视觉杂志,115(3),211-252。(*=同等贡献)。
[58] Schafalitzky,F.和Zisserman,A.(1998年)。图像中重复元素的几何分组。《英国机器视觉会议论文集》(第165-181页)。
[59] Sermanet,P.、Eigen,D.、Zhang,X.、Mathieu,M.、Fergus,R.和LeCun,Y.(2014)。专长:使用卷积网络集成识别、定位和检测。学习表征国际会议论文集。http://cilvr.nyu.edu/doku.php?id=software:overfeat:start。
[60] Shaw,D.和Barnes,N.(2006年)。透视矩形检测。在欧洲计算机视觉会议论文集计算机视觉应用研讨会上。
[61] Simonyan,K.和Zisserman,A.(2015)。用于大规模图像识别的深度卷积网络。学习表征国际会议论文集。
[62] Singh,S.、Gupta,A.和Efros,A.(2012年)。未经监督发现中等水平的歧视性补丁。《欧洲计算机视觉会议论文集》(第73-86页)。
[63] Stella,X.Y.、Zhang,H.和Malik,J.(2008)。通过深度顺序分组从单个图像推断空间布局。在IEEE关于计算机视觉和模式识别研讨会的会议上(第1-7页)。
[64] Super,B.J.和Bovik,A.C.(1991年)。使用gabor小波从纹理进行三维定向。《91年SPIE视觉通信与图像处理学报:图像处理》。
[65] Super,B.J.和Bovik,A.C.(1995年A)。纹理空间频率的平面表面方向。模式识别,28(5),729-743·文件编号:10.1016/0031-3203(94)00140-H
[66] Super,B.J.和Bovik,A.C.(1995年B)。使用局部光谱矩从纹理生成形状。IEEE模式分析和机器智能汇刊,17(4),333-343·doi:10.1109/34.385983
[67] Szegedy,C.、Liu,W.、Jia,Y.、Sermanet,P.、Reed,S.、Angelov,D.、Erhan,D.、Vanhoucke,V.和Rabinovich,A.(2015)。用卷积深入。IEEE计算机视觉和模式识别会议记录(第1-9页)。
[68] Tuytelaars,T.、Turina,A.和Gool,L.V.(2003)。透视偏斜下规则重复的非组合检测。IEEE模式分析和机器智能汇刊,25(4),418-432·doi:10.1109/TPAMI.2003.1190569
[69] Varma,M.和Zisserman,A.(2002年)。材料图像分类:实现视点和照明独立性。《欧洲计算机视觉会议论文集》(第255-271页)·Zbl 1039.68738号
[70] Vedaldi,A.和Fulkerson,B.(2008年)。VLFeat:一个开放的、可移植的计算机视觉算法库。http://www.vlfeat.org/。
[71] Vedaldi,A.和Lenc,K.(2015)。MatConvNet-用于MATLAB的卷积神经网络。在ACM多媒体国际会议论文集。http://www.vlfeat.org/matconvnet/。
[72] Wu,C.、Frahm,J.-M.和Pollefeys,M.(2010)。检测具有显著边界的大型重复结构。《欧洲计算机视觉会议论文集》(第142-155页)。
[73] Wu,C.、Frahm,J.-M.和Pollefeys,M.(2011)。基于重复的密集单视图重建。IEEE计算机视觉和模式识别会议论文集(第3113-3120页)。
[74] Wu,J.和Rehg,J.M.(2011)。CENTRIST:用于场景分类的视觉描述符。IEEE模式分析和机器智能汇刊,33(8),1489-1501·doi:10.1109/TPAMI.2010.224
[75] Wu,R.、Wang,B.、Wang、W.和Yu,Y.(2015)。收集具有深度CNN特征的区分性元对象,用于场景分类。IEEE计算机视觉国际会议论文集。
[76] Xiao,J.、Ehinger,K.A.、Hays,J.、Torralba,A.和Oliva,A.(2016)。SUN数据库:探索大量场景类别。国际计算机视觉杂志,119,3-22·doi:10.1007/s11263-014-0748-y
[77] Xie,L.,Wang,J.,Guo,B.,Zhang,B.,&Tian,Q.(2014)。用于识别室内场景的定向金字塔匹配。IEEE计算机视觉和模式识别会议记录(第3734-3741页)。
[78] Yang,J.、Yu,K.和Huang,T.(2010年)。有监督的翻译变稀疏编码。IEEE计算机视觉和模式识别会议记录(第3517-3524页)。
[79] Zhang,J.,&Tan,T.(2003)。纹理图像的仿射不变分类和检索。模式识别,36(3),657-664·doi:10.1016/S0031-3203(02)00099-7
[80] Zhang,J.、Marszaek,M.、Lazebnik,S.和Schmid,C.(2007)。纹理和对象类别分类的局部特征和核:一项综合研究。国际计算机视觉杂志,73(2),213-238·doi:10.1007/s11263-006-9794-4
[81] Zhang,Z.(1998)。确定极线几何形状及其不确定性:综述。国际计算机视觉杂志,27(2),161-195·doi:10.1023/A:1007941100561
[82] Zhang,Liang,X.,Ganesh,A.,&Ma,Y.(2010)。TILT:变换不变的低阶纹理。《亚洲计算机视觉会议论文集》(第314-328页)·Zbl 1254.68290号
[83] Zhou,B.、Lapedriza,A.、Xiao,J.、Torralba,A.和Oliva,A.(2014)。使用Places Database学习场景识别的深层特征。《神经信息处理系统学报》。
[84] Zhou,B.、Khosla,A.、Lapedriza,A.、Torralba,A.和Oliva,A.(2016)。位置:用于深入了解场景的图像数据库。arXiv预打印。http://places2.csail.mit.edu/。
[85] Zuo,Z.,Wang,G.,Shuai,B.,Zhao,L.,Yang,Q.,&Jiang,X.(2014)。学习用于场景分类的区分性和可共享的特征。《欧洲计算机视觉会议论文集》(第552-568页)。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。