×

合成卷积神经网络:遮挡下目标识别的鲁棒和可解释模型。 (英语) Zbl 1483.68433号

概要:现实应用中的计算机视觉系统需要对部分遮挡具有鲁棒性,同时也需要具有可解释性。在这项工作中,我们表明黑盒深度卷积神经网络(DCNN)对部分遮挡的鲁棒性有限。我们通过将DCNN与基于部分的模型统一为组合卷积神经网络(CompositionalNets)来克服这些限制,这是一种可解释的深度架构,对部分闭塞具有天生的鲁棒性。具体来说,我们建议用一个可以端到端训练的可微组合模型来替换DCNN的全连接分类头。合成模型的结构使CompositionalNets能够将图像分解为对象和上下文,并根据各个部分和对象的姿势进一步分解对象表示。我们的合成模型的生成特性使它能够定位阻挡器并基于其非阻挡部分识别对象。我们对来自PASCAL3D+和ImageNet数据集的人工遮挡物体图像以及来自MS-COCO数据集的部分遮挡车辆的真实图像进行了大量的图像分类和目标检测实验。我们的实验表明,由几个流行的DCNN主干(VGG-16、ResNet50、ResNext)组成的CompositionalNets在分类和检测部分遮挡对象时比其非组合对等物有很大的改进。此外,他们可以准确定位封堵器,尽管只接受了班级监督的培训。最后,我们证明了CompositionalNets提供了人类可解释的预测,因为它们的单个组件可以理解为检测部件和估计对象的视点。

MSC公司:

68T45型 机器视觉和场景理解
2017年10月68日 人工神经网络与深度学习
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Alain,G.和Bengio,Y.(2016年)。使用线性分类器探测了解中间层。arXiv预打印arXiv:1610.01644。
[2] Arthur,D.和Vassilvitskii,S.(2007)。k-means++:仔细播种的优点。在第十八届ACM-SIAM离散算法年度研讨会论文集上·Zbl 1302.68273号
[3] 班纳吉,A。;印度迪伦;Ghosh,J。;Sra,S.,使用von mises-fisher分布对单位超球面进行聚类,机器学习研究杂志,1345-1382年9月6日(2005)·Zbl 1190.62116号
[4] Bau,D.、Zhou,B.、Khosla,A.、Oliva,A.和Torralba,A.(2017年)。网络解剖:量化深层视觉表征的可解释性。IEEE计算机视觉和模式识别会议记录(第6541-6549页)。
[5] Brendel,W.和Bethge,M.(2019年)。在imagenet上,用bag-of-laucal-features模型逼近cnn的效果令人惊讶。arXiv预打印arXiv:1904.00760。
[6] Cai,Z.和Vasconcelos,N.(2018年)。级联r-cnn:深入研究高质量对象检测。《IEEE计算机视觉和模式识别会议论文集》(第6154-6162页)。
[7] Chen,Y.、Zhu,L.、Lin,C.、Zhang,H.和Yuille,A.L.(2008)。对新的和/或图进行快速推理,用于对象检测、分割和解析。《神经信息处理系统的进展》(第289-296页)。
[8] Cubuk,E.D.、Zoph,B.、Mane,D.、Vasudevan,V.和Le,Q.V.(2018年)。自动增强:从数据中学习增强策略。arXiv预打印arXiv:1805.09501。
[9] Dai,J.,Hong,Y.,Hu,W.,Zhu,S.C.,&Nian Wu,Y.(2014)分层组合模型词典的无监督学习。IEEE计算机视觉和模式识别会议记录(第2505-2512页)。
[10] Dechter,R。;Mateescu,R.,《图形模型的和/或搜索空间》,《人工智能》,171,2-3,73-106(2007)·Zbl 1168.68549号 ·doi:10.1016/j.artint.2006.11.003
[11] Deng,J.,Dong,W.,Socher,R.,Li,L.J.,Li.,K.,&Fei-Fei,L.(2009)。Imagenet:一个大规模的分层图像数据库。2009年IEEE计算机视觉和模式识别会议(第248-255页)。电气与电子工程师协会。
[12] DeVries,T.和Taylor,G.W.(2017年)。带截断的卷积神经网络的改进正则化。arXiv预打印arXiv:1708.04552。
[13] 《经济学家》,T.(2017)。为什么尤伯的自动驾驶汽车杀死了一名行人。
[14] Fawzi,A.和Frossard,P.(2016)。衡量有害变量对分类器的影响。技术报告。
[15] Fidler,S.、Boben,M.和Leonardis,A.(2014)。学习用于多类对象表示的分层合成形状词汇。arXiv预打印arXiv:1408.5516。
[16] Fong,R.和Vedaldi,A.(2018年)。Net2vec:量化和解释概念是如何通过深度神经网络中的过滤器进行编码的。IEEE计算机视觉和模式识别会议记录(第8730-8738页)。
[17] 乔治·D。;莱拉赫,W。;Kansky,K。;Lázaro-Gredilla,M。;拉恩,C。;Marthi,B。;卢,X。;孟,Z。;刘,Y。;Wang,H.,一种生成性的视觉模型,能够以高数据效率进行训练并打破基于文本的字幕,《科学》,3586368,eaag2612(2017)·doi:10.1126/science.aag2612
[18] Girshick,R.(2015)。快速r-cnn。IEEE计算机视觉国际会议论文集(第1440-1448页)。
[19] Girshick,R.、Donahue,J.、Darrell,T.和Malik,J.(2014)。丰富的特征层次用于准确的对象检测和语义分割。IEEE计算机视觉和模式识别会议记录(第580-587页)。
[20] Girshick,R.、Iandola,F.、Darrell,T.和Malik,J.(2015)。可变形零件模型是卷积神经网络。在IEEE关于计算机视觉和模式识别的会议记录中(第437-446页)。
[21] He,K.,Zhang,X.,Ren,S.,&Sun,J.(2016)。用于图像识别的深度残差学习。《IEEE计算机视觉和模式识别会议论文集》(第770-778页)。
[22] Hu,Z.,Ma,X.,Liu,Z.、Hovy,E.和Xing,E.(2016)。利用逻辑规则控制深层神经网络。arXiv预打印arXiv:1603.06318。
[23] 胡贝尔,PJ,《稳健统计》(2011),柏林:施普林格出版社,柏林
[24] Jian Sun,Y.L.,&Kang,S.B.(2018年)。用于遮挡处理的对称立体匹配。在IEEE关于计算机视觉和模式识别的会议上。
[25] Jin,Y.和Geman,S.(2006)。概率图像模型中的上下文和层次。2006年IEEE计算机学会计算机视觉和模式识别会议(CVPR'06)(第2卷,第2145-2152页)。电气与电子工程师协会。
[26] Kingma,D.P.和Ba,J.(2014)。亚当:一种随机优化方法。arXiv预印本arXiv:1412.6980。
[27] Kortylewski,A.(2017年)。基于模型的图像分析用于法医鞋印识别。巴塞尔大学博士论文。
[28] Kortylewski,A.、He,J.、Liu,Q.和Yuille,A.(2020a)。合成卷积神经网络:具有对部分遮挡固有鲁棒性的深层结构。在IEEE计算机视觉和模式识别会议记录中。
[29] Kortylewski,A.,Liu,Q.,Wang,H.,Z.,&Yuille,A.(2020b)。结合合成模型和深度网络,实现遮挡下的鲁棒对象分类。在IEEE计算机视觉应用冬季会议上。
[30] Kortylewski,A.和Vetter,T.(2016)。稳健模式识别的概率成分活性基模型。在英国机器视觉会议上。
[31] Kortylewski,A.、Wieczorek,A.、Weeser,M.、Blumer,C.、Parbhoo,S.、Morel-Forster,A.、Roth,V.和Vetter,T.(2019年)。层次结构模型的贪婪结构学习。IEEE计算机视觉和模式识别会议记录(第11612-11621页)。
[32] Krizhevsky,A.、Sutskever,I.和Hinton,G.E.(2012)。基于深度卷积神经网络的Imagenet分类。《神经信息处理系统进展》(第1097-1105页)。
[33] Lampert,C.H.、Blaschko,M.B.和Hofmann,T.(2008)。超越滑动窗口:通过高效的子窗口搜索进行对象定位。2008年IEEE计算机视觉和模式识别会议(第1-8页)。电气与电子工程师协会。
[34] Le,Q.V.(2013)。使用大规模无监督学习构建高级特征。2013年IEEE声学、语音和信号处理国际会议(第8595-8598页)。电气与电子工程师协会。
[35] Li,A.和Yuan,Z.(2018)。Symmnet:用于遮挡检测的对称卷积神经网络。在英国机器视觉会议上。
[36] Li,X.、Song,X.和Wu,T.(2019)。Aognets:用于深度学习的合成语法结构。IEEE计算机视觉和模式识别会议记录(第6220-6230页)。
[37] 李毅。;Li,B。;田,B。;Yao,Q.,基于and-or图的拥堵交通状况车辆检测,IEEE智能交通系统汇刊,14,2,984-993(2013)·doi:10.1109/TITS.2013.2250501
[38] 廖,R.、施温,A.、泽梅尔,R.和乌尔塔森,R.(2016)。学习深度简约表达。《神经信息处理系统进展》(第5076-5084页)。
[39] 林,L。;王,X。;杨伟(Yang,W.)。;Lai,JH,用于物体形状检测的判别训练和或图模型,IEEE模式分析和机器智能汇刊,37,5,959-972(2014)·doi:10.1109/TPAMI.2014.2359888
[40] Lin,T.Y.、Maire,M.、Belongie,S.、Hays,J.、Perona,P.、Ramanan,D.、Dollár,P.和Zitnick,C.L.(2014)。Microsoft coco:上下文中的通用对象。摘自:欧洲计算机视觉会议(第740-755页)。斯普林格。
[41] Mahendran,A.和Vedaldi,A.(2015)。通过反转来理解深层图像表示。IEEE计算机视觉和模式识别会议记录(第5188-5196页)。
[42] 蒙塔冯,G。;萨梅克,W。;Müller,KR,《解释和理解深层神经网络的方法》,数字信号处理,73,1-15(2018)·doi:10.1016/j.dsp.2017.10.11
[43] Narasimhan,N.D.R.M.V.S.G.(2019年)。遮挡网:使用图形网络进行二维/三维遮挡关键点定位。IEEE计算机视觉和模式识别会议。
[44] Nguyen,A.、Dosovitskiy,A.、Yosinski,J.、Brox,T.和Clune,J.(2016)。通过深度生成器网络合成神经网络中神经元的首选输入。《神经信息处理系统进展》(第3387-3395页)。
[45] Nilsson,N.J.等人(1980年)。人工智能原理·Zbl 0422.68039号
[46] Ren,S.、He,K.、Girshick,R.和Sun,J.(2015)。更快的r-cnn:通过区域建议网络实现实时目标检测。《神经信息处理系统进展》(第91-99页)。
[47] Ross,A.S.、Hughes,M.C.和Doshi-Velez,F.(2017)正确的理由:通过限制解释来训练可微分模型。arXiv预打印arXiv:1703.03717。
[48] Sabour,S.、Frosst,N.和Hinton,G.E.(2017年)。胶囊之间的动态路由。《神经信息处理系统进展》(第3856-3866页)。
[49] Simonyan,K.、Vedaldi,A.和Zisserman,A.(2013)。深层卷积网络:可视化图像分类模型和显著图。arXiv预打印arXiv:1312.6034。
[50] Simonyan,K.和Zisserman,A.(2014)。用于大规模图像识别的深度卷积网络。arXiv预打印arXiv:1409.1556。
[51] Song,X.,Wu,T.,Jia,Y.,&Zhu,S.C.(2013)。用于对象检测的经过鉴别训练的和或树模型。在IEEE关于计算机视觉和模式识别的会议记录中(第3278-3285页)。
[52] Stone,A.、Wang,H.、Stark,M.、Liu,Y.、Scott Phoenix,D.和George,D.(2017)。向cnns教授构图。IEEE计算机视觉和模式识别会议记录(第5058-5067页)。
[53] Tabernik,D.、Kristan,M.、Wyatt,J.L.和Leonardis,A.(2016)。走向深度合成网络。2016年,第23届模式识别国际会议(ICPR)(第3470-3475页)。电气与电子工程师协会。
[54] Tang,W.,Yu,P.,&Wu,Y.(2018)。深入学习了用于人体姿势估计的合成模型。《欧洲计算机视觉会议论文集》(第190-206页)。
[55] Tang,W.,Yu,P.,Zhou,J.,&Wu,Y.(2017)。面向视觉模式建模的统一组合模型。《IEEE计算机视觉国际会议论文集》(第2784-2793页)。
[56] Wang,A.、Sun,Y.、Kortylewski,A.和Yuille,A.(2020年)。使用上下文软件合成网进行遮挡下的鲁棒目标检测。在关于计算机视觉和模式识别的IEEE会议论文集上。
[57] Wang,J.、Xie,C.、Zhang,Z.、Zhu,J.,Xie,L.和Yuille,A.(2017)。检测部分遮挡对象上的语义部分。arXiv预打印arXiv:1707.07819。
[58] Wang,J.,Zhang,Z.,Xie,C.,Premachandran,V.,&Yuille,A.(2015)通过群体编码从cnn内部状态无监督学习对象语义部分。arXiv预打印arXiv:1511.06855。
[59] Wang,J.、Zhang,Z.、Xie,C.、Zhou,Y.、Premachandran,V.、Zhu,J.,Xie,L.和Yuille,A.(2017)。视觉概念和合成投票。arXiv预打印arXiv:1711.04451·Zbl 1478.68412号
[60] Wu,T。;Li,B。;Zhu,SC,Learning and-or model to representative context and occlusion for car detection and viewpoint estimation,IEEE Transactions on Pattern Analysis and Machine Intelligence,38,9,1829-1843(2015),表示车辆检测和视点估计的上下文和遮挡的学习和-or模型·doi:10.1109/TPAMI.2015.2497699
[61] Xia,F.、Zhu,J.、Wang,P.和Yuille,A.L.(2016)。使用Pose-context特征通过和/或图进行姿势引导的人类分析。在第三十届AAAI人工智能会议上。
[62] Xiang,Y.、Mottaghi,R.和Savarese,S.(2014)。Beyond pascal:野外三维物体检测的基准。在IEEE计算机视觉应用冬季会议上(第75-820页)。电气与电子工程师协会。
[63] Xiang,Y.和Savarese,S.(2013)。通过三维aspectlet和遮挡推理进行目标检测。
[64] Xiao,M.、Kortylewski,A.、Wu,R.、Qiao,S.、Shen,W.和Yuille,A.(2019年)。Tdapnet:具有反复自顶向下关注的原型网络,用于部分遮挡下的鲁棒对象分类。arXiv预印arXiv:1909.03879。
[65] Xie,S.、Girschick,R.、DolláR,P.、Tu,Z.和He,K.(2017)。深度神经网络的聚合残差变换。IEEE计算机视觉和模式识别会议记录(第1492-1500页)。
[66] Yan,S.和Liu,Q.(2015)。推断遮挡特征以快速检测目标。《信号处理》(第110卷)。
[67] Yuille,A.L.和Liu,C.(2018年)。深网:他们为视力做了什么?arXiv预打印arXiv:1805.04025。
[68] Yun,S.,Han,D.,Oh,S.J.,Chun,S,Choe,J.,&Yoo,Y.(2019年)。Cutmix:训练具有可本地化特征的强分类器的正则化策略。arXiv预打印arXiv:1905.04899。
[69] Zeiler,M.D.和Fergus,R.(2014)。可视化和理解卷积网络。在欧洲计算机视觉会议上(第818-833页)。斯普林格。
[70] Zhang,Q.,Nian Wu,Y.和Zhu,S.C.(2018a)。可解释的卷积神经网络。《IEEE计算机视觉和模式识别会议论文集》(第8827-8836页)。
[71] 张,QS;Zhu,SC,《深度学习的视觉可解释性:一项调查》,信息技术和电子工程前沿,19,1,27-39(2018)·doi:10.1631/FITEE.1700808
[72] Zhang,S.,Wen,L.,Bian,X.,Lei,Z.,&Li,S.Z.(2018b)。遮挡软件r-cnn:检测人群中的行人,第637-653页。
[73] 张,Z.,谢,C.,王,J.,谢,L.,&Yuille,A.L.(2018c)。Deepvoting:用于部分遮挡下语义部分检测的强大且可解释的深度网络。《IEEE计算机视觉和模式识别会议论文集》(第1372-1380页)。
[74] Zhou,B.、Khosla,A.、Lapedriza,A.、Oliva,A.和Torralba,A.(2015)。目标探测器出现在深场景cnns中。在ICLR中。
[75] Zhu,H.,Tang,P.,Park,J.,Park,S.,&Yuille,A.(2019年)。人体和计算模型中极端遮挡下目标识别的鲁棒性。在CogSci会议上。
[76] Zhu,L.、Chen,Y.、Lu,Y.、Lin,C.和Yuille,A.(2008a)。用于解析人体的最大边距和/或图形学习。2008年IEEE计算机视觉和模式识别会议(第1-8页)。电气与电子工程师协会。
[77] Zhu,L.L.,Lin,C.,Huang,H.,Chen,Y.,&Yuille,A.(2008)。无监督结构学习:层次递归组合、可疑巧合和竞争性排除。《计算机视觉-电子商务2008》(第759-773页)。斯普林格。
此参考列表基于出版商或数字数学图书馆提供的信息。它的项目与zbMATH标识符启发式匹配,并且可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。