×

用于图像语义分割的分布感知边缘校准。 (英语) Zbl 1489.68329号

小结:雅卡德指数(Jaccard index),也称为交集-重叠-联合(Intersection-over-Union,IoU),是图像语义分割中最关键的评估指标之一。然而,由于学习目标既不可微也不可分解,因此IoU分数的直接优化非常困难。虽然已经提出了一些算法来优化其代理,但并不能保证其泛化能力。本文提出了一种可直接用作学习目标的裕度校准方法,以改进IoU在数据分布上的泛化,并以刚性下限为基础。该方案在理论上确保了在IoU分数方面更好的分割性能。我们在七个图像数据集上评估了所提出的边缘校准方法的有效性,结果表明,与使用深度分割模型的其他学习目标相比,IoU得分有了显著提高。

MSC公司:

68T45型 机器视觉和场景理解
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Abraham,N.和Khan,N.M.(2019年)。一种新的局部tversky损失函数和改进的注意u-net用于病变分割。收录于:ISBI第683-687页。
[2] Ahmed,F.、Tarlow,D.和Batra,D.(2015)。优化与候选约束crf的预期交集重叠。收录于:ICCV,第1850-1858页。
[3] Allan,M.、Shvets,A.、Kurmann,T.、Zhang,Z.、Duggal,R.、Su,Y.H.、Rieke,N.、Laina,I.、Kalavakonda,N.、Bodenstedt,S.等人(2017)。机器人仪器分割挑战。CoRR公司
[4] Berman,M.、Rannen Triki,A.、Blaschko,M.B.(2018年)。lovász-softmax损失:神经网络中交叉重叠度量优化的一种易处理的替代方法。收录于:CVPR,第4413-4421页。
[5] Blaschko,M.B.和Lampert,C.H.(2008)。学习使用结构化输出回归定位对象。收录于:ECCV,第2-15页。
[6] Boser,B.E.,Guyon,I.M.,Vapnik,V.N.(1992年)。一种最优边缘分类器的训练算法。摘自:第五届计算学习理论年度研讨会论文集,第144-152页。
[7] Cadena,C.和Košecká,J.(2014)。异构传感器覆盖的语义分割。收录于:ICRA,第2639-2645页。
[8] Caesar,H.、Uijlings,J.和Ferrari,V.(2018)。Coco-stuff:上下文中的事物类。收录于:CVPR,第1209-1218页。
[9] Cao,K.、Wei,C.、Gaidon,A.、Arechiga,N.和Ma,T.(2019年)。学习具有标签分布感知的边际损失的不平衡数据集。收录于:NIPS,第1567-1578页。
[10] Chen,L。;帕潘德里欧,G。;科基诺斯,I。;墨菲,K。;Yuille,A.,Deeplab:深度卷积网络、反褶积和全连接crf的语义图像分割,IEEE模式分析和机器智能学报,40,4,834-848(2017)·doi:10.1109/TPAMI.2017.2699184
[11] Chen,L.C.、Zhu,Y.、Papandreou,G.、Schroff,F.和Adam,H.(2018年)。用于语义图像分割的带可分离卷积的编码器-解码器。收录于:ECCV,第801-818页。
[12] Cheng,B.、Chen,L.C.、Wei,Y.、Zhu,Y.,Huang,Z.、Xiong,J.、Huang、T.S.、Hwu,W.M.和Shi,H.(2019)。Spgnet:场景解析的语义预测指南。收录于:ICCV,第5218-5228页。
[13] Choi,S.、Kim,J.T.和Choo,J.(2020)。汽车不能在空中飞行:通过高度驱动的注意力网络改善城市场景分割。收录于:CVPR,第9373-9383页。
[14] Cordts,M.、Omran,M.,Ramos,S.、Rehfeld,T.、Enzweiler,M.和Benenson,R.、Franke,U.、Roth,S.和Schiele,B.(2016)。用于语义城市场景理解的城市景观数据集。收录于:CVPR,第3213-3223页。
[15] 丁浩、蒋兴、帅乙、刘安庆和王国荣(2018)。用于场景分割的上下文对比特征和门限多尺度聚集。收录于:CVPR,第2393-2402页。
[16] 丁·H。;蒋,X。;Shuai,B。;刘,AQ;Wang,G.,带上下文编码和多径解码的语义分割,IEEE图像处理汇刊,29,3520-3533(2020)·Zbl 07586119号 ·doi:10.1109/TIP.2019.2962685
[17] 埃博德,T。;Bertels,J。;伯曼,M。;Vandermeulen,D。;梅斯,F。;比斯科普斯,R。;Blaschko,MB,《医学图像分割优化:用骰子得分或雅卡指数评估时的理论和实践》,IEEE医学成像学报,39,11,3679-3690(2020)·doi:10.1109/TMI.2020.3002417
[18] Everingham,M。;南非埃斯拉米;Van Gool,L。;威廉姆斯,CK;温,J。;Zisserman,A.,《pascal视觉对象类挑战:回顾》,《国际计算机视觉杂志》,111,1,98-136(2015)·doi:10.1007/s11263-014-0733-5
[19] Fu,J.,Liu,J.、Tian,H.、Li,Y.、Bao,Y.,Fang,Z.和Lu,H.(2019)。用于场景分割的双重注意网络。收录于:CVPR,第3146-3154页。
[20] Grabocka,J.、Scholz,R.、Schmidt-Thieme,L.(2019年)。学习代理损失。CoRR公司
[21] Hariharan,B.、Arbeláez,P.、Bourdev,L.、Maji,S.和Malik,J.(2011年)。反向检测器的语义轮廓。收录于:ICCV,第991-998页。
[22] He,K.,Zhang,X.,Ren,S.,&Sun,J.(2016)。用于图像识别的深度残差学习。收录于:CVPR,第770-778页。
[23] Hu,J.,Shen,L.,&Sun,G.(2018年)。挤压和励磁网络。收录于:CVPR,第7132-7141页。
[24] 卡里米,D。;Salcudian,SE,用卷积神经网络减少医学图像分割中的hausdorff距离,IEEE医学成像汇刊,39,2499-513(2019)·doi:10.1109/TMI.2019.2930068
[25] Ke,T.、Hwang,J.、Liu,Z.和Yu,S.(2018)。用于语义分割的自适应关联字段。收录于:ECCV,第587-602页。
[26] Kervadec,H.、Bouchtiba,J.、Desrosiers,C.、Granger,E.、Dolz,J.和Ayed,I.B.(2019年)。高度不平衡分割的边界损失。收录于:MIDL,第285-296页。
[27] Khan,S.、Hayat,M.、Zamir,S.W.、Shen,J.和Shao,L.(2019)。在不确定性中取得正确的平衡。收录于:CVPR,第103-112页。
[28] Li,Y.、Zaragoza,H.、Herbrich,R.、Shawe-Taylor,J.和Kandola,J.(2002)。边缘不均匀的感知器算法。摘自:ICML,第379-386页。
[29] Lin,T.Y.、Goyal,P.、Girshick,R.、He,K.和DolláR,P.(2017)。密集目标检测的焦点丢失。收录于:CVPR,第2980-2988页。
[30] Liu,X.,Wang,Y.,Wang.,L.等(2019)。图相关变量的Mcdiarmid型不等式和稳定性界。收录于:NIPS,第10890-10901页。
[31] Long,J.、Shelhamer,E.和Darrell,T.(2015)。语义分割的完全卷积网络。收录于:CVPR,第3431-3440页。
[32] Loshchilov,I.,Hutter,F.(2019年)。解耦权重衰减正则化。在:ICLR中。
[33] 马,J。;陈,J。;Ng,M。;黄,R。;李毅。;李,C。;Yang,X.先生。;Martel,AL,医学图像分割中的失落之旅,医学图像分析,71,102035(2021)·doi:10.1016/j.media.2021.102035
[34] 莫赫里,M。;Rostamizadeh,A。;Talwalkar,A.,《机器学习基础》(2018),伦敦:麻省理工学院出版社,伦敦·Zbl 1407.68007号
[35] Nagendar,G.、Singh,D.、Balasubramanian,V.N.、Jawahar,C.(2018)。Neuro-iou:学习语义分割的替代损失。收录于:BMVC,第278页。
[36] Neuhold,G.、Ollmann,T.、Rota Bulo,S.和Kontschieder,P.(2017年)。用于街道场景语义理解的地图视景数据集。收录于:CVPR,第4990-4999页。
[37] Neyshabur,B.,Li,Z.,Bhojanapalli,S.,LeCun,Y.,Srebro,N.(2018年)。超参数化在神经网络泛化中的作用。In:ICLR。
[38] Nowozin,S.(2014年)。概率模型的最优决策:交叉-重叠案例。收录于:CVPR,第548-555页。
[39] Rahman,M.A.和Wang,Y.(2016)。优化深度神经网络中用于图像分割的交集覆盖。摘自:视觉计算国际研讨会,第234-244页。
[40] Ronneberger,O.、Fischer,P.和Brox,T.(2015)。U-net:生物医学图像分割的卷积网络。收录于:MICCAI,第234-241页。
[41] 俄勒冈州Russakovsky。;邓,J。;苏,H。;克劳斯,J。;Satheesh,S。;马,S。;黄,Z。;Karpathy,A。;科斯拉,A。;Bernstein,M.,Imagenet大规模视觉识别挑战,国际计算机视觉杂志,115,3,211-252(2015)·doi:10.1007/s11263-015-0816-y
[42] Salehi,S.S.M.、Erdogmus,D.和Gholipour,A.(2017年)。使用三维全卷积深度网络进行图像分割的Tversky损失函数。摘自:医学成像机器学习国际研讨会,第379-387页。
[43] Shen,D.、Ji,Y.、Li,P.、Wang,Y.和Lin,D.(2020)。Ranet:用于语义分割的区域注意网络。单位:NIPS。
[44] Sudre,C.H.、Li,W.、Vercauteren,T.、Ourselin,S.和Cardoso,M.J.(2017年)。广义骰子重叠作为高度不平衡分割的深度学习损失函数。摘自:医学图像分析的深度学习和临床决策支持的多模态学习,第240-248页。
[45] Sun,C.、Shrivastava,A.、Singh,S.和Gupta,A.(2017年)。重新审视深度学习时代数据的不合理有效性。收录于:CVPR,第843-852页。
[46] 王,G。;刘,X。;李,C。;徐,Z。;阮,J。;朱,H。;孟,T。;李凯。;黄,N。;Zhang,S.,从ct图像中自动分割肺炎冠状病毒肺炎病变的抗噪框架,IEEE医学成像学报,39,8,2653-2663(2020)·doi:10.1109/TMI.2020.3000314
[47] Wang,J。;Sun,K。;程,T。;江,B。;邓,C。;Zhao,Y。;刘,D。;Mu,Y。;Tan,M。;Wang,X.,用于视觉识别的深度高分辨率表示学习,IEEE模式分析和机器智能汇刊,43,10,3349-3364(2020)·doi:10.1109/TPAMI.2020.2983686
[48] Wang,L.,Li,D.,Zhu,Y.,Tian,L.和Shan,Y.(2020)。用于语义分割的双超分辨率学习。收录于:CVPR,第3774-3783页。
[49] Wong,K.C.、Moradi,M.、Tang,H.和Syeda-Mahmood,T.(2018年)。对于高度不平衡的对象大小,具有指数对数损失的三维分割。收录于:MICCAI,第-619页。
[50] Xiao,J.和Quan,L.(2009)。街景图像的多视图语义分割。在ICCV中,第-693页。
[51] Xiao,T.、Liu,Y.、Zhou,B.、Jiang,Y.和Sun,J.(2018)。用于场景理解的统一感知解析。收录于:ECCV第418-334页
[52] Xu,D.,Ouyang,W.,Wang,X.,&Sebe,N.(2018)。Pad-net:多任务引导的预测和蒸馏网络,用于同时进行深度估计和场景解析。CVPR第675-684页
[53] 徐宏,L.、Grandvalet,Y.和Davoine,F.(2018)。卷积网络传递学习的显式归纳偏差。载于:ICML,第2825-2834页
[54] Yu,F.,Chen,H.,Wang,X.,Xian,W.,Chen。Bdd100k:异构多任务学习的多样驱动数据集。收录于:CVPR,第2636-2645页
[55] Yu,F.,Koltun,V.(2015)。通过扩展卷积进行多尺度上下文聚合。CoRR公司。
[56] Zhao,H.、Shi,J.、Qi,X.、Wang,X.和Jia,J.(2017)。金字塔场景解析网络。收录:CVPR,第2881-2890页
[57] Zhao,H.,Zhang,Y.,Liu,S.,Shi,J.,Change Loy,C.,Lin,D.,&Jia,J.(2018)。Psanet:用于场景解析的点式空间注意网络。收录于:ECCV第267-283页。
[58] Zhou,B.、Zhao,H.、Puig,X.、Fidler,S.、Barriuso,A.和Torralba,A.(2017)。通过ade20k数据集进行场景解析。收录于:CVPR,第633-641页。
[59] 周,B。;赵,H。;普格,X。;萧,T。;菲德勒,S。;Barriuso,A。;Torralba,A.,通过ade20k数据集对场景进行语义理解,《国际计算机视觉杂志》,127,3,302-321(2019)·doi:10.1007/s11263-018-1140-0
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。