×

OCNet:用于语义分割的对象上下文。 (英语) Zbl 1483.68452号

摘要:在本文中,我们使用一个名为对象上下文重点增强对象信息的作用。由于每个像素的类别都是从它所属的对象继承来的,因此我们将每个像素的对象上下文定义为与图像中给定像素属于同一类别的像素集。我们使用二元关系矩阵表示所有像素之间的关系,其中值1表示两个选定像素属于同一类别,否则为零。我们建议使用稠密关系矩阵作为二元关系矩阵的代理。稠密关系阵能够强调对象信息的贡献,因为对象像素上的关系得分往往大于其他像素。考虑到稠密关系矩阵估计需要二次计算开销和相对于输入大小的内存消耗,我们提出了一种高效的隔行稀疏自关注方案,通过两个稀疏关系矩阵的组合来建模所有像素中任意两个像素之间的稠密关系。为了获取更丰富的上下文信息,我们进一步将交错稀疏自关注方案与传统的多尺度上下文方案相结合,包括金字塔池(Zhao et al.2017)和累赘空间金字塔池(Chen et al.2018)。我们通过五个具有挑战性的基准,包括:Cityscapes、ADE20K、LIP、PASCAL-Context和COCO-Stuff,实证展示了我们的方法的优势和竞争表现。

MSC公司:

68T45型 机器视觉和场景理解
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Badrinarayanan,V.、Kendall,A.和Cipolla,R.(2017年)。SegNet:用于图像分割的深度卷积编码器-解码器架构。IEEE模式分析和机器智能汇刊,39(12),2481-2495。
[2] Buló,S.R.、Porzi,L.和Kontschieder,P.(2018)。用于dnn记忆优化训练的就地激活批处理规范。参见:2018年IEEE计算机视觉和模式识别会议,CVPR 2018,美国犹他州盐湖城,2018年6月18日至22日,第5639-5647页。
[3] Caesar,H.、Uijlings,J.R.R.和Ferrari,V.(2018年)。Coco-stuff:上下文中的事物类。参见:2018年IEEE计算机视觉和模式识别会议,CVPR 2018,美国犹他州盐湖城,2018年6月18日至22日,第1209-1218页。
[4] Chen,L.、Papandreou,G.、Schroff,F.和Adam,H.(2017)。重新思考用于语义图像分割的萎缩卷积。CoRR.arXiv:1706.05587。
[5] Chen,L。;帕潘德里欧,G。;科基诺斯,I。;墨菲,K。;Yuille,AL,Deeplab:深度卷积网络、反褶积和全连接crf的语义图像分割,IEEE模式分析和机器智能汇刊,40,4,834-848(2018)·doi:10.1109/TPAMI.2017.2699184
[6] Cheng,B.,Chen,L.,Wei,Y.,Zhu,Y..,Xiong,J.,Huang,T.S.,Hwu,W.,&Shi,H.(2019)。Spgnet:场景解析的语义预测指南。2019年IEEE/CVF计算机视觉国际会议,ICCV 2019,韩国首尔,2019年10月27日至11月2日,第5217-5227页。
[7] Child,R.、Gray,S.、Radford,A.和Sutskever,I.(2019年)。使用稀疏变换器生成长序列。CoRR.arXiv:1904.10509。
[8] Cordts,M.、Omran,M.,Ramos,S.、Rehfeld,T.、Enzweiler,M.和Benenson,R.、Franke,U.、Roth,S.和Schiele,B.(2016)。用于语义城市场景理解的城市景观数据集。摘自:2016年IEEE计算机视觉和模式识别会议,CVPR 2016,美国内华达州拉斯维加斯,2016年6月27日至30日,第3213-3223页。
[9] 丁浩、蒋熙、帅乙、刘安奎和王庚(2018)。用于场景分割的上下文对比特征和门限多尺度聚集。参见:2018年IEEE计算机视觉和模式识别会议,CVPR 2018,美国犹他州盐湖城,2018年6月18日至22日,第2393-2402页。
[10] Ding,H.、Jiang,X.、Liu,A.Q.、Magnetat-Thalmann,N.和Wang,G.(2019a)。用于场景分割的边界软件特征传播。2019年IEEE/CVF计算机视觉国际会议,2019年ICCV,韩国首尔,2019月27日至11月2日,第6818-6828页。
[11] 丁·H、江·X、帅·B、刘·A·Q和王·G(2019b)。语义相关性促进了形状-变化上下文的分割。收录:IEEE计算机视觉和模式识别会议,2019年6月16日至20日,美国加利福尼亚州长滩,CVPR 2019,第8885-8894页。
[12] Divvala,S.K.、Hoiem,D.、Hays,J.、Efros,A.A.和Hebert,M.(2009年)。对象检测中上下文的实证研究。2009年IEEE计算机学会计算机视觉和模式识别会议(CVPR 2009),2009年6月20日至25日(第1271-1278页)。迈阿密:美国佛罗里达州。
[13] Ferrari,V.、Hebert,M.、Sminchisescu,C.和Weiss,Y.(编辑)(2018年)。计算机视觉-ECCV 2018-第15届欧洲会议,德国慕尼黑,2018年9月8日至14日,《计算机科学论文集》第一部分,第11205卷,施普林格出版社。
[14] Fu,J.,Liu,J.、Tian,H.、Li,Y.、Bao,Y.,Fang,Z.和Lu,H.(2019a)。用于场景分割的双重注意网络。摘自:IEEE计算机视觉和模式识别会议,CVPR 2019,美国加利福尼亚州长滩,2019年6月16-20日,第3146-3154页。
[15] Fu,J.,Liu,J.、Wang,Y.、Li,Y.和Bao,Y.,Tang,J.和Lu,H.(2019b)。用于场景解析的自适应上下文网络。2019年IEEE/CVF计算机视觉国际会议,2019年ICCV,韩国首尔,2019月27日至11月2日,第6747-6756页。
[16] Gong,K.,Liang,X.,Zhang,D.,Shen,X.和Lin,L.(2017)。观察人:自我监督的结构敏感学习和人类解析的新基准。在:2017年IEEE计算机视觉和模式识别会议,CVPR 2017,美国夏威夷火奴鲁鲁,2017年7月21日至26日,第6757-6675页。
[17] Gonzalez Garcia,A.、Modolo,D.和Ferrari,V.(2018)。对象作为检测其语义部分的上下文。参加:2018年IEEE计算机视觉和模式识别会议,CVPR 2018,美国犹他州盐湖城,2018年6月18日至22日,第6907-6916页。
[18] Greenspun,P.(1999)。Philip和Alex的网络出版指南。摩根·考夫曼。
[19] He,J.,Deng,Z.,Zhou,L.,Wang,Y.,&Qiao,Y.(2019年)。用于语义分割的自适应金字塔上下文网络。摘自:IEEE计算机视觉和模式识别会议,2019年6月16日至20日,美国加利福尼亚州长滩,CVPR 2019,第7519-7528页。
[20] He,K.,Zhang,X.,Ren,S.,&Sun,J.(2016)。用于图像识别的深度残差学习。2016年IEEE计算机视觉和模式识别会议,CVPR 2016,美国内华达州拉斯维加斯,2016年6月27日至30日,第770-778页。
[21] He,K.,Gkioxari,G.,Dollár,P.,&Girshick,r.B.(2017年)。口罩R-CNN。参见:IEEE计算机视觉国际会议,ICCV 2017,意大利威尼斯,2017年10月22-29日,第2980-2988页。
[22] Hoyer,L.,Munoz,M.,Katiyar,P.,Khoreva,A.,Fischer,V.,&(2019)语义分段上下文解释的网格显著性。摘自:《神经信息处理系统的进展》32:2019年神经信息处理体系年会,NeurIPS 2019年(12月),第8-14页。(2019). 温哥华(第6459-6470页)。加拿大:不列颠哥伦比亚省。
[23] 黄,Z.,王,X.,黄,L.,黄,C.,魏,Y.,&刘,W.(2019)。Ccnet:语义分割的交叉关注。2019年IEEE/CVF计算机视觉国际会议,2019年ICCV,韩国首尔,2019月27日至11月2日,第603-612页。
[24] Ioffe,S.和Szegedy,C.(2015)。批量规范化:通过减少内部协变量偏移来加速深层网络培训。摘自:2015年7月6日至11日在法国里尔举行的第32届国际机器学习会议记录,第448-456页。
[25] Kong,S.,&Fowlkes,C.C.(2018年)。循环透视理解的递归场景解析。参见:2018年IEEE计算机视觉和模式识别会议,CVPR 2018,美国犹他州盐湖城,2018年6月18日至22日,第956-965页。
[26] Krishna,R。;Zhu,Y。;格罗斯,O。;约翰逊,J。;哈塔,K。;Kravitz,J.,《视觉基因组:使用众包密集图像注释连接语言和视觉》,《国际计算机视觉杂志》,123,1,32-73(2017)·doi:10.1007/s11263-016-0981-7
[27] Kuo,W.、Angelova,A.、Malik,J.和Lin,T.(2019年)。Shapemask:学习通过细化形状先验来分割新对象。2019年IEEE/CVF计算机视觉国际会议,2019年ICCV,韩国首尔(2019年10月27日至11月2日),第9206-9215页。
[28] Li,X.,Zhong,Z.,Wu,J.,Yang,Y.,Lin,Z.和Liu,H.(2019)。用于语义分割的期望最大化注意力网络。在:2019年IEEE/CVF计算机视觉国际会议,ICCV 2019,韩国首尔,2019年10月27日至11月2日,第9166-9175页。
[29] Li,Y.和Gupta,A.(2018)。超越网格:学习用于视觉识别的图形表示。摘自:《神经信息处理系统进展》31:2018年神经信息处理体系年会,2018年12月3日至8日,加拿大蒙特利尔,第9245-9255页。
[30] Liang,X.,Hu,Z.,Zhang,H.,Lin,L.,&Xing,E.P.(2018a)。符号图推理满足卷积。摘自:《神经信息处理系统进展》31:2018年神经信息处理体系年会,2018年12月3日至8日,加拿大蒙特利尔,第1858-1868页。
[31] Liang,X.、Zhou,H.和Xing,E.P.(2018b)。动态结构语义传播网络。2018年IEEE计算机视觉和模式识别会议,CVPR 2018,美国犹他州盐湖城,2018年6月18日至22日,第752-761页。
[32] X·梁。;龚,K。;沈,X。;Lin,L.,Look into person:Joint body parsing&pose estimation network and a new benchmark,IEEE Transactions on Pattern Analysis and Machine Intelligence,41,4,871-885(2019),《寻找人:联合体解析和姿势估计网络及新基准》·doi:10.1109/TPAMI.2018.2820063
[33] Lin,G.、Milan,A.、Shen,C.和Reid,I.D.(2017a)。细化网络:用于高分辨率语义分割的多路径细化网络。2017年7月21日至26日,美国夏威夷州火奴鲁鲁市,2017年IEEE计算机视觉和模式识别会议,CVPR 2017,第5168-5177页。
[34] Lin,T.、Maire,M.、Belongie,S.J.、Hays,J.、Perona,P.、Ramanan,D.、Dollár,P.和Zitnick,C.L.(2014)。Microsoft COCO:上下文中的通用对象。摘自:2014年9月6日至12日在瑞士苏黎世举行的计算机视觉-ECCV 2014-第13届欧洲会议,会议记录,第五部分,第740-755页。
[35] Lin,T.、Dollár,P.、Girshick,r.B.、He,K.、Hariharan,B.和Belongie,S.J.(2017b)。用于目标检测的特征金字塔网络。2017年7月21日至26日,美国夏威夷州火奴鲁鲁市,2017年IEEE计算机视觉和模式识别会议,CVPR 2017,第936-944页。
[36] Liu,W.、Rabinovich,A.和Berg,A.C.(2015)。ParseNet:看得更宽,看得更清楚。CoRR.arXiv:1506.04579。
[37] 罗,Y.,郑,Z.,郑L.,Guan,T.,Yu,J.,&Yang,Y.(2018)。用于人工解析的宏-微对抗网络。摘自:《计算机视觉-ECCV 2018-第15届欧洲会议》,德国慕尼黑,2018年9月8日至14日,《会议记录》,第九部分,第424-440页。
[38] Ma,N.,Zhang,X.,Zheng,H.,&Sun,J.(2018)。Shufflenet V2:高效CNN架构设计的实用指南。摘自:2018年9月8日至14日在德国慕尼黑举行的第15届欧洲会议《计算机视觉-ECCV 2018》,第十四部分,第122-138页。
[39] Massa,F.和Girshick,R.(2018年)。Maskrcnn-backmark:PyTorch中实例分割和对象检测算法的快速模块化参考实现。https://github.com/facebookresearch/maskrcnn-basenchmark。
[40] Mottaghi,R.,Chen,X.,Liu,X.、Cho,N.,Lee,S.,Fidler,S.、Urtasun,R..和Yuille,A.L.(2014年)。上下文在对象检测和语义分割中的作用。2014年IEEE计算机视觉和模式识别会议,CVPR 2014,美国俄亥俄州哥伦布,2014年6月23日至28日,第891-898页。
[41] Nie,X.、Feng,J.和Yan,S.(2018年)。相互学习,以适应人类联合解析和姿态估计。在:计算机视觉-ECCV 2018-第15届欧洲会议,德国慕尼黑,2018年9月8日至14日,会议记录,第五部分,第519-534页。
[42] Pang,Y.、Li,Y.、Shen,J.和Shao,L.(2019)。致力于弥合语义鸿沟以改进语义分割。2019年IEEE/CVF国际计算机视觉会议,2019年ICCV,韩国首尔,2019月27日至11月2日,第4229-4238页。
[43] Roelofs,G.,&Koman,R.(1999)巴布亚新几内亚:权威指南。O'Reilly&Associates公司。
[44] Ronneberger,O.、Fischer,P.和Brox,T.(2015)。U-net:生物医学图像分割的卷积网络。摘自:医学图像计算和计算机辅助干预——2015年MICCAI第18届国际会议,德国慕尼黑,2015年10月5日至9日,会议记录,第三部分,第234-241页。
[45] 阮,T.,刘,T.、黄,Z.、魏,Y.、魏斯和赵,Y.(2019)。细节中的魔鬼:实现准确的单人和多人解析。摘自:第三十三届AAAI人工智能会议,2019年AAAI,第三十届人工智能创新应用会议,2019IAAI,2019EAAI,美国夏威夷檀香山2019年1月27日至2月1日,第4814-4821页。
[46] 谢尔哈默,E。;Long,J。;Darrell,T.,语义分割的完全卷积网络,IEEE模式分析和机器智能汇刊,39,4,640-651(2017)·doi:10.1109/TPAMI.2016.2572683
[47] Shen,Z.、Zhang,M.、Zhao,H.、Yi,S.和Li,H.(2018)。高效注意力:关注线性复杂性。arXiv:1812.01243。
[48] Shetty,R.、Schiele,B.和Fritz,M.(2019年)。不要用汽车看人行道——在分类和分割中量化和控制上下文的影响。摘自:IEEE计算机视觉和模式识别会议,CVPR 2019,美国加利福尼亚州长滩,2019年6月16-20日,第8218-8226页。
[49] Shuai,B。;左,Z。;王,B。;Wang,G.,用数据流神经网络进行场景分割,IEEE模式分析和机器智能汇刊,40,6,1480-1493(2018)·doi:10.1109/TPAMI.2017.2712691
[50] Sun,K.、Xiao,B.、Liu,D.和Wang,J.(2019a)。用于人体姿势估计的深度高分辨率表示学习。摘自:IEEE计算机视觉和模式识别会议,CVPR 2019,美国加利福尼亚州长滩,2019年6月16-20日,第5693-5703页。
[51] Sun,K.,Zhao,Y.,Jiang,B.,Cheng,T.,Xiao,B.,&Liu,D.等人(2019b)。用于标记像素和区域的高分辨率表示。CoRR.arXiv公司:1904.04514。
[52] 田,Z.,何,T.,沈,C.,严,Y.(2019)。解码器对语义分割很重要:数据相关解码支持灵活的特征聚合。摘自:IEEE计算机视觉和模式识别会议,CVPR 2019,美国加利福尼亚州长滩,2019年6月16-20日,第3126-3135页。
[53] 瓦斯瓦尼,A。;北沙泽尔。;北帕尔马。;Uszkoreit,J。;Jones,L。;Gomez,AN,长滩,5998-6008(2017),美国:加利福尼亚州,美国
[54] Wang,P.、Chen,P.,Yuan,Y.、Liu,D.、Huang,Z.、Hou,X.和Cottrell,G.W.(2018a)。理解用于语义分割的卷积。在:2018年IEEE计算机视觉应用冬季会议,WACV 2018,美国内华达州太浩湖,2018年3月12-15日,第1451-1460页。
[55] Wang,W.、Zhang,Z.、Qi,S.、Shen,J.、Pang,Y.和Shao,L.(2019)。学习用于人类分析的合成神经信息融合。2019年IEEE/CVF计算机视觉国际会议,ICCV 2019,韩国首尔,2019年10月27日至11月2日,第5702-5712页。
[56] Wang,X.、Girshick,R.B.、Gupta,A.和He,K.(2018b)。非局部神经网络。参见:2018年IEEE计算机视觉和模式识别会议,CVPR 2018,美国犹他州盐湖城,2018年6月18日至22日,第7794-7803页。
[57] Wu,T.、Tang,S.、Zhang,R.、Cao,J.和Li,J.(2019年)。用于语义分割的树结构kronecker卷积网络。摘自:2019年7月8日至12日在中国上海举行的IEEE多媒体与博览会国际会议,第940-945页。
[58] Xiao,T.、Liu,Y.、Zhou,B.、Jiang,Y.和Sun,J.(2018)。用于场景理解的统一感知解析。摘自:2018年9月8日至14日在德国慕尼黑举行的第15届欧洲会议《计算机视觉-ECCV 2018》,第五部分,第432-448页。
[59] Xie,G.,Wang,J.,Zhang,T.,Lai,J.、Hong,R.和Qi,G.(2018年)。交错结构稀疏卷积神经网络。参见:2018年IEEE计算机视觉和模式识别会议,CVPR 2018,美国犹他州盐湖城,2018年6月18日至22日,第8847-8856页。
[60] Yang,M.,Yu,K.,Zhang,C.,Li,Z.,&Yang,K.(2018)。Denseaspp用于街道场景中的语义分割。参见:2018年IEEE计算机视觉和模式识别会议,CVPR 2018,美国犹他州盐湖城,2018年6月18日至22日,第3684-3692页。
[61] Yu,C.,Wang,J.,Peng,C.,Gao,C.,Yu,G.,&Sang,N.(2018a)。Bisenet:用于实时语义分割的双边分割网络。摘自:2018年9月8日至14日在德国慕尼黑举行的计算机视觉-ECCV 2018第15届欧洲会议,会议记录,第十三部分,第334-349页。
[62] Yu,C.,Wang,J.,Peng,C.,Gao,C.,Yu,G.,&Sang,N.(2018b)。学习用于语义分割的判别特征网络。参加:2018年IEEE计算机视觉和模式识别会议,CVPR 2018,美国犹他州盐湖城,2018年6月18日至22日,第1857-1866页。
[63] Yu,F.和Koltun,V.(2016)。通过扩展卷积进行多尺度上下文聚合。参加:2016年5月2日至4日在波多黎各圣胡安举行的第四届国际学习代表大会,会议记录。
[64] Yuan,Y.,Chen,X.,&Wang,J.(2020年)。语义分割的对象-内容表示。摘自:《计算机视觉-ECCV 2020-第16届欧洲会议》,英国格拉斯哥,2020年8月23日至28日,《会议记录》,第六部分,第173-190页。
[65] Yue,K.,Sun,M.,Yuan,Y.,Zhou,F.,Ding,E.,&Xu,F..(2018)。紧凑型广义非局部网络。摘自:神经信息处理系统进展31:2018年神经信息处理体系年度会议,NeurIPS 2018,2018年12月3日至8日,加拿大蒙特利尔,第6511-6520页。
[66] Zhang,F.,Chen,Y.,Li,Z.,Hong,Z.、Liu,J.、Ma,F.、Han,J.和Ding,E.(2019a)。Acfnet:用于语义分割的注意类特征网络。2019年IEEE/CVF计算机视觉国际会议,2019年ICCV,韩国首尔(2019年10月27日至11月2日),第6797-6806页。
[67] Zhang,H.、Dana,K.J.、Shi,J.、Zhang、Wang,X.、Tyagi,A.和Agrawal,A.(2018年)。用于语义分割的上下文编码。在:2018年IEEE计算机视觉和模式识别会议,CVPR 2018,美国犹他州盐湖城,2018年6月18日至22日,第7151-7160页。
[68] Zhang,H.、Zhang,H.、Wang,C.和Xie,J.(2019b)。语义切分中的共现特征。摘自:IEEE计算机视觉和模式识别会议,CVPR 2019,美国加利福尼亚州长滩,2019年6月16-20日,第548-557页。
[69] Zhang,R.、Tang,S.、Zhang、Y.、Li,J.和Yan,S.(2017a)。场景解析的尺度自适应卷积。参见:IEEE计算机视觉国际会议,ICCV 2017,意大利威尼斯,2017年10月22-29日,第2050-2058页。
[70] Zhang,T.,Qi,G.,Xiao,B.,Wang,J.(2017b)。交错群卷积。参见:IEEE计算机视觉国际会议,ICCV 2017,意大利威尼斯,2017年10月22-29日,第4383-4392页。
[71] Zhao,H.、Shi,J.、Qi,X.、Wang,X.和Jia,J.(2017)。金字塔场景解析网络。2017年IEEE计算机视觉和模式识别会议,CVPR 2017,美国夏威夷州火奴鲁鲁,2017年7月21日至26日,第6230-6239页。
[72] Zhao,H.、Zhang,Y.、Liu,S.、Shi,J.、Loy,C.C.、Lin,D.和Jia,J.(2018)。Psanet:用于场景解析的点式空间注意网络。摘自:2018年9月8日至14日在德国慕尼黑举行的第15届欧洲会议《计算机视觉-ECCV 2018》,第九部分,第270-286页。
[73] Zhou,B.、Zhao,H.、Puig,X.、Fidler,S.、Barriuso,A.和Torralba,A.(2017)。通过ADE20K数据集进行场景解析。2017年7月21日至26日,美国夏威夷州火奴鲁鲁市,2017年IEEE计算机视觉和模式识别会议,CVPR 2017,第5122-5130页。
[74] Zhou,Z.、Siddiquee,M.M.R.、Tajbakhsh,N.和Liang,J.(2018)。Unet++:用于医学图像分割的嵌套u-net架构。主题:医学图像分析深度学习和临床决策支持多模态学习-2018年DLMIA第四次国际研讨会和2018年ML-CDS第八次国际研讨会,与2018年9月20日在西班牙格拉纳达举行,会议记录,第3-11页。
[75] Zhu,Z.,Xu,M.,Bai,S.,Huang,T.,&Bai,X.(2019)。用于语义分割的非对称非局部神经网络。2019年IEEE/CVF计算机视觉国际会议,2019年ICCV,韩国首尔,2019月27日至11月2日,第593-602页。
此参考列表基于出版商或数字数学图书馆提供的信息。它的项目与zbMATH标识符启发式匹配,并且可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。