×

使用RGBD图像集成几何上下文以对室内场景进行语义标记。 (英语) 兹比尔1398.68584

概述:廉价的结构光传感器可以从室内场景中捕获丰富的信息,而场景标记问题为利用这些信息提供了一个引人注目的机会。本文提出了一种新的条件随机场(CRF)模型,有效地利用深度信息对室内场景进行语义标注。在模型的核心部分,我们提出了一种新颖高效的平面检测算法,该算法对错误的深度图具有鲁棒性。我们的CRF公式定义了图像像素之间的局部、成对和高阶交互。在局部层面,我们提出了一种新的方案,将来自外观、深度和基于几何的线索的能量结合起来。提出的局部能量还通过考虑场景的近似几何体对每个对象类的位置进行编码。对于两两交互,我们学习了一种边界度量,它定义了对象类在图像上的空间不连续性。为了建模高阶交互,提出的能量将平滑曲面视为团,并鼓励曲面上的所有像素使用相同的标签。我们证明了所提出的高阶能量可以分解为成对的子模能量,并且可以使用图割算法进行有效的推理。我们采用系统方法,使用结构化学习来微调模型参数。我们在SUN3D和两个版本的NYU-Depth数据库上严格测试了我们的方法。实验结果表明,我们的工作取得了优于最先进的场景标记技术的性能。

MSC公司:

68T45型 机器视觉和场景理解
62M40型 随机字段;图像分析
68T05型 人工智能中的学习和自适应系统
PDF格式BibTeX公司 XML格式引用
全文: 内政部 链接

参考文献:

[1] 阿贝莱兹,P;Maire,M;Fowlkes,C;Malik,J,轮廓检测和分层图像分割,TPAMI,33,898-916,(2011)·doi:10.1109/TPAMI.2010.161
[2] Blake,A.、Kohli,P.和Rother,C.(2011年)。视觉和图像处理的马尔可夫随机场剑桥:麻省理工学院出版社·Zbl 1236.68001号
[3] 博伊科夫,Y;Funka-Lea,G,图切割和高效图像分割,IJCV,70,109-131,(2006)·doi:10.1007/s11263-006-7934-5
[4] 博伊科夫,Y;韦克斯勒,O;Zabih,R,通过图形切割的快速近似能量最小化,TPAMI,231222-1239,(2001)·数字对象标识代码:10.1109/34.969114
[5] Breiman,L,《随机森林,机器学习》,45,5-32,(2001)·Zbl 1007.68152号 ·doi:10.1023/A:1010933404324
[6] Cadena,C.和Košecká,J.(2014)。异构传感器覆盖的语义分割。
[7] Carreira,J;Sminchisescu,C,Cpmc:使用约束参数MIN-cuts进行自动对象分割,TPAMI,34,1312-1328,(2012)·doi:10.1109/TPAMI.2011.231
[8] Couprie,C.、Farabet,C.、Najman,L.和LeCun,Y.(2013年)。使用深度信息的室内语义分割。国际解放卢旺达民主共和国。
[9] Dallal,N.和Triggs,B.(2005年)。人体检测定向梯度直方图。2005年IEEE计算机学会计算机视觉和模式识别会议第1卷(第886-893页)。
[10] Edwards,W.、Miles,R.F,Jr和Von Winterfeldt,D.(2007年)。决策分析的进展:从基础到应用。剑桥:剑桥大学出版社。 ·doi:10.1017/CBO9780511611308
[11] 法拉贝特,C;库普利,C;纳杰曼,L;LeCun,Y,学习场景标记的层次特征,TPAMI,351915-1929,(2013)·doi:10.1109/TPAMI.2012.231
[12] Felzenszwalb,PF;Huttenlocher,DP,高效的基于图形的图像分割,IJCV,59,167-181,(2004)·Zbl 1477.68505号 ·doi:10.1023/B:VISI.0000022288.19776.77
[13] 韩国福冈;霍斯特勒,L,密度函数梯度的估计及其在模式识别中的应用,TIT,21,32-40,(1975)·Zbl 0297.62025号
[14] Gould,S.、Fulton,R.和Koller,D.(2009年)。将场景分解为几何和语义一致的区域。IEEE ICCV(第1-8页)。
[15] Gulshan,V.、Rother,C.、Criminisi,A.、Blake,A.和Zisserman,A.(2010)。用于交互式图像分割的测地线星形凸度。IEEE CVPR(第3129-3136页)。
[16] Gupta,S.、Arbelaez,P.和Malik,J.(2013),从rgb-d图像中感知组织和室内场景识别。IEEE CVPR(第564-571页)。
[17] Gupta,S.、Girschick,R.、Arbeláez。P.,&Malik,J.(2014)。从rgb-d图像中学习丰富的特征以进行目标检测和分割。计算机视觉-ECCV2014年(第345-360页)。斯普林格。
[18] 霍尔,M;E·弗兰克;霍姆斯,G;普法林格,B;鲁特曼,P;Witten,IH,The weka数据挖掘软件:更新,ACM SIGKDD,11,10-18,(2009)·数字对象标识代码:10.1145/1656274.1656278
[19] 海亚特,M;Bennamoun,M;An,S,图像集分类的深度重建模型,IEEE模式分析和机器智能汇刊,37,713-727,(2015)·doi:10.10109/TPAMI.2014.2353635
[20] He,X.、Zemel,R.S.和Carreira-Perpinán,M.A.(2004年)。用于图像标记的多尺度条件随机域。IEEE CVPR第2卷(第II-695页)。
[21] Huang,Q.、Han,M.、Wu,B.和Ioffe,S.(2011年)。用于标记和分割街道场景图像的分层条件随机场模型。IEEE CVPR(第1953-1960页)。
[22] Izadi,S.、Kim,D.、Hilliges,O.、Molyneaux,D.、Newcombe,R.、Kohli,P.、Shotton,J.、Hodges,S.,Freeman,D.、Davison,A.等人(2011年)。Kinectfusion:使用移动深度相机进行实时三维重建和交互。第24届ACM用户界面软件和技术年度研讨会会议记录(第559-568页)。
[23] 江,Y;林,M;郑,C;Saxena,A,学习在场景中放置新对象,IJRR,311021-1043,(2012)
[24] Joachims,T;芬利,T;Yu,CNJ,《结构svm的切割平面训练》,JML,77,27-59,(2009)·Zbl 1235.68161号 ·doi:10.1258/rsmmlj.77.1.27
[25] 约翰逊,AE;Hebert,M,在杂乱的三维场景中使用旋转图像进行有效的物体识别,IEEE模式分析和机器智能汇刊,21433-449,(1999)·doi:10.1009/34.765655
[26] Khan,S.、Bennamoun,M.、Sohel,F.和Togneri,R.(2014a)。用于鲁棒阴影检测的自动特征学习。IEEE CVPR.
[27] Khan,S.、He,X.、Bennamoun,M.、Sohel,F.和Togneri,R.(2015)。在室内场景中分离物体和杂物。IEEE CVPR.
[28] Khan,S.H.、Bennamoun,M.、Sohel,F.和Togneri,R.(2014b)。几何驱动的室内场景语义标记。计算机视觉-ECCV2014年(第679-694页)。斯普林格。
[29] Kohli,P.、Kumar,M.P.和Torr,P.H.(2007)。P3及以上:用高阶团解决能量问题。IEEE CVPR(第1-8页)。
[30] 科利,P;托尔,PH;等。,增强标签一致性的强大高阶潜力,IJCV,82,302-324,(2009)·doi:10.1007/s11263-008-0202-0
[31] Koppula,H.S.、Anand,A.、Joachims,T.和Saxena,A.(2011年)。室内场景三维点云的语义标记。NIPS公司(第244-252页)。
[32] Krähenbühl,P.和Koltun,V.(2011)。具有高斯边缘势的全连通crf中的有效推理。NIPS公司(第109-117页)。
[33] Ladicky,L.、Russell,C.、Kohli,P.和Torr,P.H.(2009年)。用于对象类图像分割的关联层次crf。IEEE ICCV(第739-746页)。
[34] 拉迪克ỳ, L.、Russell,C.、Kohli,P.和Torr,P.H.(2013)。具有共现统计的crfs的推断方法。IJCV公司(第1-13页)·Zbl 1270.68350号
[35] Lai,K.、Bo,L.、Ren,X.和Fox,D.(2011年)。大规模分层多视图rgb-d对象数据集。IEEE ICRA(第1817-1824页)。
[36] Lempitsky,V.、Vedaldi,A.和Zisserman,A.(2011年)。语义分割的Pylon模型。NIPS公司(第1485-1493页)。
[37] Li,Y.、Tarlow,D.和Zemel,R.(2013)。探索用于结构化输出学习的组合高阶模式潜力。IEEE CVPR(第49-56页)。
[38] Lowe,DG,《从尺度变化关键点获得的独特图像特征》,《国际计算机视觉杂志》,60,91-110,(2004)·doi:10.1023/B:VISI.0000029664.99615.94
[39] 奥贾拉,T;Pietikainen,M;Maenpaa,T,具有局部二进制模式的多分辨率灰度和旋转不变纹理分类,IEEE模式分析和机器智能汇刊,24971-987,(2002)·doi:10.1109/TPAMI.2002.1017623
[40] Quattoni,A.和Torralba,A.(2009年)。识别室内场景。CVPR公司(第413-420页)。doi:10.1109/CVPR.2009.5206537。
[41] Quigley,M.、Batra,S.、Gould,S.、Klingbeil,E.、Le,Q.、Wellman,A.和Ng,A.Y.(2009年)。用于移动操作的高精度三维传感:改进物体检测和开门。IEEE ICRA(第2816-2822页)。
[42] 拉巴尼,T;胡维尔,F;Vosselmann,G,使用平滑约束分割点云,IAPR SSIS,36,248-253,(2006)
[43] Rao,D.、Le,Q.V.、Phoka,T.、Quigley,M.、Sudsang,A.和Ng,A.Y.(2010年)。通过深度分割捕捉新对象。IEEE IROS标准(第2578-2585页)。
[44] Ren,X.、Bo,L.和Fox,D.(2012年)。Rgb-(d)场景标记:特性和算法。IEEE CVPR(第2759-2766页)。
[45] 罗瑟,C;科尔莫戈罗夫,V;Blake,A,《抓取:使用迭代图切割的交互式前景提取》,TOG,ACM,23,309-314,(2004)·doi:10.1145/1015706.1015720
[46] 肖顿,J;温恩,J;罗瑟,C;Criminisi,A,Textonboost for image understanding:通过联合建模纹理、布局和上下文来识别和分割多类对象,IJCV,81,2-23,(2009)·doi:10.1007/s11263-007-0109-1
[47] Silberman,N.和Fergus,R.(2011年)。使用结构光传感器进行室内场景分割。IEEE ICCV研讨会(第601-608页)。
[48] Silberman,N.、Hoiem,D.、Kohli,P.和Fergus,R.(2012)。室内分割和支持从rgbd图像推断。电子对抗车辆(第746-760页)。斯普林格。
[49] Szummer,M.、Kohli,P.和Hoiem,D.(2008)。使用图形切割学习crf。电子对抗车辆(第582-595页)。斯普林格。
[50] Tsochantaridis,I.、Hofmann,T.、Joachims,T.和Altun,Y.(2004)。支持相互依赖和结构化输出空间的向量机学习。ACM-ICML(第104页)·Zbl 1222.68321号
[51] Van De Weijer,J.和Schmid,C.(2006年)。着色局部特征提取。电子对抗车辆(第334-348页)。施普林格
[52] Gioi,RG;Jakubowicz,J;JM莫雷尔;Randall,G,Lsd:带假检测控制的快速线段检测器,TPAMI,32,722-732,(2010)·doi:10.1109/TPAMI.2008.300
[53] Woodford,O.J.、Rother,C.和Kolmogorov,V.(2009年)。低层视觉地图推理的全局视角。IEEE ICCV(第2319-2326页)。
[54] Xiao,J.、Owens,A.和Torralba,A.(2013)。Sun3d:使用sfm和对象标签重建的大空间数据库。IEEE ICCV
[55] Xion,&Huber,D.(2010)。使用上下文创建室内环境的语义三维模型。BMVC公司(第45-1页)。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。