×

使用基于梯度的推理重新审视像素级标记的深层结构模型。 (英文) 兹比尔1448.68442

摘要:由于深度学习范式的应用,语义分割和其他像素级标记任务最近取得了显著进展。许多最先进的结构化预测方法还包括一个随机场模型,该模型具有手工构建的高斯势,用于建模空间先验信息和标签一致性,以及基于特征的图像调节。这些带有图像调节的随机场模型在推理过程中通常需要计算要求很高的滤波技术。在本文中,我们提出了一种新的推理和学习框架,可以学习任意成对条件随机场(CRF)势。同时考虑了标准空间核和高维双边核。此外,我们引入了一种新型的势函数,它像双边核一样与图像相关,但由于只使用空间卷积,计算速度要快一个数量级。经验证明,这种学习潜力可以提高分割精度,并且某些标签类交互确实可以更好地用非高斯潜力建模。我们的框架在几个公共语义分割基准上进行了评估,与之前最先进的CNN+CRF模型相比,其性能得到了改进。

MSC公司:

68T45型 机器视觉和场景理解
68T07型 人工神经网络与深度学习
68单位10 图像处理的计算方法
94A08型 信息与通信理论中的图像处理(压缩、重建等)
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] A.Adams、J.Baek和M.A.Davis,{使用置换面体晶格的快速高维滤波},计算机图形论坛,29(2010),第753-762页。
[2] T.Ajanthan、A.Desmaison、R.Bunel、M.Salzmann、P.H.S.Torr和M.P.Kumar,《密集CRF的高效线性规划》,2017年IEEE计算机视觉和模式识别会议(CVPR),IEEE,华盛顿特区,2017年,第2934-2942页·Zbl 1423.90263号
[3] A.Arnab、S.Jayasumana、S.Zheng和P.H.S.Torr,{深度神经网络中的高阶条件随机场},2016年欧洲计算机视觉会议,计算机讲义。科学。9906,柏林施普林格出版社,2016年,第524-540页。
[4] A.Arnab、S.Zheng、S.Jayasumana、B.Romera-Polares、M.Larsson、A.Kirillov、B.Savchynskyy、C.Rother、F.Kahl和P.H.S.Torr,{条件随机场满足用于语义分割的深度神经网络:将概率图形模型与深度学习相结合用于结构化预测},IEEE信号处理。Mag.,35(2018),第37-52页。
[5] A.Beck和M.Teboulle,{凸优化的镜像下降和非线性投影次梯度方法},Oper。Res.Lett.公司。,31(2003),第167-175页·Zbl 1046.90057号
[6] D.Belanger和A.McCallum,{结构化预测能量网络},《机器学习国际会议论文集》(ICML’16),美国计算机学会,纽约,2016年,第983-992页。
[7] D.Belanger、B.Yang和A.McCallum,《结构化预测能源网络的端到端学习》,预印本,2017年。
[8] G.Bertasius、L.Torresani、S.X.Yu和J.Shi,{用于语义图像分割的卷积随机行走网络},IEEE计算机视觉和模式识别会议(CVPR)(夏威夷州火奴鲁鲁),IEEE,华盛顿特区,2017年。
[9] A.Blake、P.Kohli和C.Rother,《视觉和图像处理的马尔可夫随机场》,麻省理工学院出版社,马萨诸塞州剑桥,2011年·Zbl 1236.68001号
[10] E.Borenstein和S.Ullman,{\it Class-specific,top-down segmentation},《2002年欧洲计算机视觉会议,计算机课堂讲稿》。科学。2351,柏林施普林格出版社,2002年,第109-122页·Zbl 1039.68601号
[11] E.Boros和P.Hammer,{伪布尔优化},离散应用。数学。,123(2002),第155-225页·Zbl 1076.90032号
[12] L.Bottou,Y.Bengio和Y.Le Cun,{使用图形变换器网络的文件处理系统的全球培训},摘自IEEE计算机视觉和模式识别会议,IEEE,华盛顿特区,1997年,第489-494页。
[13] S.Chandra和I.Kokkinos,{深度高斯CRFs语义图像分割的快速、准确和多尺度推理},2016年欧洲计算机视觉会议,计算机课堂讲稿。科学。9911,施普林格,柏林,第402-418页。
[14] L.Chen、G.Papandreou、I.Kokkinos、K.Murphy和A.L.Yuille,{深度卷积网络和完全连接CRFs}的语义图像分割,在加利福尼亚州圣地亚哥举行的国际学习表征会议上,2015年。
[15] L.Chen、A.Schwing、A.Yuille和R.Urtasun,《机器学习国际会议论文集》(法国里尔),美国计算机学会,纽约,2015年,第1785-1794页。
[16] L.-C.Chen、J.T.Barron、G.Papandreou、K.Murphy和A.L.Yuille,{使用CNN和区分训练域变换进行特定任务边缘检测的语义图像分割},《IEEE计算机视觉和模式识别会议论文集》,IEEE,华盛顿特区,2016年,第4545-4554页。
[17] L.-C.Chen、G.Papandreou、I.Kokkinos、K.Murphy和A.L.Yuille,{\it DeepLab:使用深度卷积网络、atrous卷积和全连接CRFs}进行语义图像分割,IEEE Trans。模式分析。机器。智力。,40(2018),第834-848页。
[18] Y.Chen和X.Ye,《单纯形投影》,预印本,2011年。
[19] A.Desmaison、R.Bunel、P.Kohli、P.H.S.Torr和M.P.Kumar,{致密CRF的有效连续松弛},2016年欧洲计算机视觉会议,《计算讲义》。科学。9906,柏林施普林格出版社,2016年,第818-833页。
[20] J.Domke,{利用近似边际推理学习图形模型参数},IEEE Trans。模式分析。机器。智力。,35(2013),第2454-2467页。
[21] M.Everingham、S.M.A.Eslami、L.Van Gool、C.K.I.Williams、J.Winn和A.Zisserman,《Pascal视觉对象类挑战:回顾》,国际出版社。J.计算。视觉。,111(2015),第98-136页。
[22] M.Everingham、L.V.Gool、C.K.I.Williams、J.Winn和A.Zisserman,《Pascal可视对象类(VOC)挑战》,国际出版社。J.计算。视觉。,88(2010),第303-338页。
[23] G.Ghiasi和C.Fowlkes,{it Laplacian重建和语义分割细化},2016年欧洲计算机视觉会议,《计算讲义》。科学。9906,柏林施普林格出版社,2016年,第519-534页。
[24] R.Girshick、J.Donahue、T.Darrell和J.Malik,{用于精确对象检测和语义分割的丰富特征层次结构},IEEE计算机视觉和模式识别会议(俄亥俄州哥伦布),IEEE,华盛顿特区,2014年。
[25] B.Hariharan、P.Arbelez、L.Bourdev、S.Maji和J.Malik,{反向检测器的语义轮廓},2011年计算机视觉国际会议(西班牙巴塞罗那),IEEE,华盛顿特区,2011年,第991-998页。
[26] K.He、X.Zhang、S.Ren和J.Sun,{图像识别的深度剩余学习},IEEE计算机视觉和模式识别会议(内华达州拉斯维加斯),IEEE,华盛顿特区,2016年。
[27] O.H.Jafari、O.Groth、A.Kirillov、M.Y.Yang和C.Rother,{分析用于联合深度预测和语义分割的模块化CNN架构},《IEEE机器人与自动化国际会议论文集》,IEEE,华盛顿特区,2017年,第4620-4627页。
[28] V.Jampani、M.Kiefel和P.V.Gehler,{学习稀疏高维滤波器:图像滤波、密集CRF和双边神经网络},《IEEE计算机视觉和模式识别会议论文集》,IEEE,华盛顿特区,2016年,第4452-4461页。
[29] Y.Jia、E.Shelhamer、J.Donahue、S.Karayev、J.Long、R.Girshick、S.Guadarrama和T.Darrell,《咖啡馆:快速特征嵌入的卷积架构》,预印本,2014年。
[30] A.Kirillov、D.Schlesinger、S.Zheng、B.Savchynskyy、P.Torr和C.Rother,{通用CNN-CRF模型与随机优化的联合训练},2016年亚洲计算机视觉会议,计算机课堂讲稿。科学。10112,柏林施普林格,第221-236页。
[31] D.Koller和N.Friedman,《概率图形模型》,麻省理工学院出版社,马萨诸塞州剑桥,2009年·Zbl 1183.68483号
[32] P.Krahenbuehl和V.Koltun,{稠密随机场的参数学习和收敛推理},《第30届机器学习国际会议论文集》,美国计算机学会,纽约,2013年,第513-521页。
[33] P.Kra¨henbu¨hl和V.Koltun,{高斯边势全连通CRF中的有效推理},《2011年神经信息处理系统学报》,Curran Associates,Red Hook,NY,2011年,第109-117页。
[34] M.Larsson,A.Arnab,F.Kahl,S.Zheng,and P.H.S.Torr,{\it CRF推理的投影梯度下降法,允许对任意成对电位进行端到端训练},第11届计算机视觉和模式识别能量最小化方法国际会议,柏林斯普林格,2017年。
[35] G.Lin、A.Milan、C.Shen和I.Reid,《RefineNet:高分辨率语义分割的多路径优化网络》,预印本,2016年。
[36] G.Lin,C.Shen,A.Hengel,and I.Reid,{语义切分深层结构模型的有效分段训练},《IEEE计算机视觉和模式识别会议论文集》,IEEE,华盛顿特区,2016年,第3194-3203页。
[37] T.-Y.Lin、M.Maire、S.Belongie、J.Hays、P.Perona、D.Ramanan、P.Dollaír和C.L.Zitnick,{\it Microsoft COCO:Common objects in context},摘自《欧洲计算机视觉会议论文集》,《计算讲义》。科学。8693,柏林施普林格出版社,2014年,第740-755页。
[38] Z.Liu,X.Li,P.Luo,C.C.Loy,X.Tang,{通过深度解析网络进行语义图像分割},《计算机视觉国际会议论文集》,IEEE,华盛顿特区,2015年,第1377-1385页。
[39] J.Long、E.Shelhamer和T.Darrell,《语义分段的完全卷积网络》,IEEE Trans。模式识别,39(2017),第640-651页。
[40] S.Ren、K.He、R.Girshick和J.Sun,{更快的R-CNN:利用区域提议网络实现实时目标检测},《2015年神经信息处理系统学报》,麻省理工学院出版社,马萨诸塞州剑桥,2015年,第91-99页。
[41] C.Rother、V.Kolmogorov和A.Blake,{“抓取切割”:使用迭代图切割的交互式前景提取},ACM Trans。《制图》,23(2004),第309-314页。
[42] A.Schwing和R.Urtasun,《完全连接的深层结构网络》,预印本,2015年。
[43] K.Simonyan和A.Zisserman,{大规模图像识别的甚深卷积网络},《学习表征国际会议论文集》,2015年,第1-14页。
[44] V.Vineet,J.Warrell,和P.Torr,{基于滤波器的高阶项和乘积标签空间的随机场平均场推断},《2012年欧洲计算机视觉会议,计算讲义》。科学。7576,柏林施普林格,第31-44页·兹比尔1328.68252
[45] P.Wang、X.Shen、Z.Lin、S.Cohen、B.Price和A.Yuille,{从单个图像实现统一深度和语义预测},《2014年IEEE计算机视觉和模式识别会议论文集》,IEEE,华盛顿特区,2014年。
[46] W.Wang、S.Fidler和R.Urtasun,{\it Proximal deep structured models},摘自《2016年神经信息处理系统学报》,Curran Associates,Red Hook,NY,2016年,第865-873页。
[47] S.Zheng、S.Jayasumana、B.Romera-Polares、V.Vineet、Z.Su、D.Du、C.Huang和P.Torr,{\it Conditional random fields as recurrent neural networks},《IEEE 2015年计算机视觉国际会议论文集》,IEEE,华盛顿特区,2015年,第1529-1537页。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。