跳到主要内容
研究论文

SemanticPaint:交互式3D标签和指尖学习

出版:2015年11月3日出版历史
跳过抽象节

摘要

我们提出了一种新的交互式在线3D场景理解方法。我们的系统,SemanticPaint(语义绘制),允许用户同时扫描其环境,同时通过触摸任何所需的对象或表面来交互式分割场景。我们的系统不断地从这些分割中学习,并标记环境中新的看不见的部分。与离线系统不同,在离线系统中,捕获、标记和批量学习通常需要数小时甚至数天才能完成,我们的方法是完全在线的。这为用户在捕获过程中提供了识别的连续实时反馈,允许用户立即纠正分段和/或学习中的错误,这是迄今为止批处理和脱机方法无法实现的功能。这将导致定制或个性化特别是针对用户感兴趣的环境和对象类,为增强现实、室内设计和人类/机器人导航方面的新应用开辟了潜力。它还能够捕获大量标记的3D数据集,用于训练大规模视觉识别系统。

跳过补充材料部分

补充材料

工具书类

  1. M.Abdelrahman、M.Aono、M.El-Elegy、A.Farag、A.Fereira、H.Johan、B.Li、Y.Lu、J.Machado、P.-B.Pascoal和A.Tatsuma。2013年,SHREC13:检索使用低成本深度感应相机捕获的对象。第六届会议记录第个欧洲制图三维物体检索研讨会(3DOR’13)。65--71.谷歌学者谷歌学者数字图书馆数字图书馆
  2. A.Anand、H.S.Koppula、T.Joachims和A.Saxena。2013.在上下文指导下对三维点云进行语义标记和搜索。国际J机器人。第32、1、19--34号决议。谷歌学者谷歌学者数字图书馆数字图书馆
  3. H.Bay、A.Ess、T.Tuytelaars和van L.Gool。2008.冲浪:加速强大功能。在IEEE计算机视觉和图像理解会议论文集(CVIU'08)中。谷歌学者谷歌学者数字图书馆数字图书馆
  4. A.Bifet、G.Holmes、B.Pfahringer、R.Kirkby和R.gavaldá。2009年,新的不断发展的数据流。在ACM SIGKDD知识发现和数据挖掘国际会议(KDD'00)的会议记录中。谷歌学者谷歌学者数字图书馆数字图书馆
  5. U.Bonde、V.Badrinarayanan和R.Cipolla。2013.三维物体识别的多尺度形状索引。计算机视觉中的尺度空间和变分方法。施普林格,306--318。谷歌学者谷歌学者
  6. Y.Boykov、O.Versler和R.Zabih。2001.通过图形切割实现快速近似能量最小化。IEEE传输。模式分析。机器。智力。23, 11.谷歌学者谷歌学者数字图书馆数字图书馆
  7. L.布雷曼。2001.随机森林。机器。学习。45, 1.谷歌学者谷歌学者数字图书馆数字图书馆
  8. G.J.Brostow、J.Shotton、J.Fauqueur和R.Cipolla。2008.使用运动点云的结构进行分割和识别。《欧洲计算机视觉会议论文集》(ECCV'08)。谷歌学者谷歌学者数字图书馆数字图书馆
  9. R.O.Castle、D.Gawley、G.Klein和D.W.Murray。2007年,致力于手持式和穿戴式相机的同步识别、定位和绘图。IEEE机器人与自动化国际会议论文集(ICRA'07)。谷歌学者谷歌学者
  10. J.Chen、D.Bautembach和S.Izadi。2013.可缩放实时体积曲面重建。ACM事务处理。图表。32, 4.谷歌学者谷歌学者数字图书馆数字图书馆
  11. X.Chen、A.Golovinskiy和T.Funkhouser。2009年,3D网格分割基准。ACM事务处理。图表。28,3。谷歌学者谷歌学者数字图书馆数字图书馆
  12. M.-M.Cheng、S.Zheng、W.Y.Lin、V.Vineet、P.Sturgess、N.Crook、N.Mitra和P.Torr。2014.ImageSpirit:语言引导的图像解析。ACM事务处理。图表。34, 1.谷歌学者谷歌学者数字图书馆数字图书馆
  13. C.Couprie、C.Farabet、L.Najman和Y.Lecun。2013.使用深度信息的室内语义分割。http://arxiv.org/abs/1301.3572。谷歌学者谷歌学者
  14. A.克里米尼和J.肖顿。2013年,计算机视觉和医学图像分析决策森林。斯普林格。谷歌学者谷歌学者数字图书馆数字图书馆
  15. B.Curless和M.Levoy。1996年。从距离图像构建复杂模型的体积方法。第23届会议记录第个计算机图形和交互技术年度ACM会议(SIGGRAPH’96)。纽约ACM出版社,303--312。谷歌学者谷歌学者数字图书馆数字图书馆
  16. N.Dalal和B.Triggs。2005.人体检测定向梯度直方图。IEEE计算机视觉和模式识别会议论文集(CVPR'05)。谷歌学者谷歌学者数字图书馆数字图书馆
  17. P.Domingos和G.Hulten。2000.挖掘高速数据流。第六届会议记录第个ACM SIGKDD知识发现和数据挖掘国际会议(KDD'00)。谷歌学者谷歌学者数字图书馆数字图书馆
  18. B.Drost、M.Ulrich、N.Navar和S.Ilic。2010年。全球建模,局部匹配:高效且稳健的3D物体识别。IEEE计算机视觉和模式识别会议(CVPR'10)论文集。谷歌学者谷歌学者
  19. N.Fioraio和L.di Stefano。2013年,通过语义束调整进行联合检测、跟踪和映射。IEEE计算机视觉和模式识别会议论文集(CVPR'13)。谷歌学者谷歌学者数字图书馆数字图书馆
  20. A.Geiger、P.Lenz和R.Urtasun。2012年。我们准备好进行自动驾驶了吗?KITTI愿景基准套件。IEEE计算机视觉和模式识别会议(CVPR'12)论文集。谷歌学者谷歌学者数字图书馆数字图书馆
  21. A.Gupta、A.A.Efros和M.Hebert。2010年,重访街区世界:使用定性几何和力学理解图像。《欧洲计算机视觉会议论文集》(ECCV'10)。谷歌学者谷歌学者数字图书馆数字图书馆
  22. C.Häne、C.Zach、A.Cohen、R.Angst和M.Pollefeys。2013年,联合三维场景重建和类分割。IEEE计算机视觉和模式识别会议论文集(CVPR'13)。谷歌学者谷歌学者数字图书馆数字图书馆
  23. E.Herbst、P.Henry和D.Fox。2014年。实现在线三维对象分割和映射。IEEE机器人与自动化国际会议(ICRA’14)论文集。谷歌学者谷歌学者
  24. H.Hirschmuller。2008年,通过半全局匹配和互信息进行立体处理。IEEE传输。模式分析。机器。智力。30, 2, 328--341.谷歌学者谷歌学者数字图书馆数字图书馆
  25. Y.Ioanou、B.Taati、R.Harrap和M.Greenspan。2012.作为无组织点云中的多尺度操作符的法线差异。第二届会议记录国际3D成像、建模、处理、可视化和传输会议(3DIMPVT'12)。501到508。谷歌学者谷歌学者数字图书馆数字图书馆
  26. S.Izadi、D.Kim、O.Hilliges、D.Molyneaux、R.Newcombe、P.Kohli、J.Shotton、J.Shotton、S.Hodges、D.Freeman、A.Davidson和A.Fitzgibbon。2011.KinectFusion:使用移动深度相机进行实时3D重建和交互。在24国会议记录中第个ACM用户界面软件和技术年度研讨会(UIST'11)。第559页至第568页。谷歌学者谷歌学者数字图书馆数字图书馆
  27. A.约翰逊。1997.旋转图像:三维表面匹配的表示。卡内基梅隆大学机器人研究所博士论文。谷歌学者谷歌学者
  28. O.Kähler和I.Reid。2013年。使用树木场进行高效的3D场景标记。在计算机视觉国际会议(ICCV'13)的过程中。谷歌学者谷歌学者数字图书馆数字图书馆
  29. E.Kalogerakis、A.Hertzmann和K.Singh。2010.学习3D网格分割和标记。ACM事务处理。图表。29, 4, 102.谷歌学者谷歌学者数字图书馆数字图书馆
  30. A.Karpathy、S.Miller和L.Fei-Fei。2013年,通过形状分析在3D场景中发现物体。《IEEE机器人与自动化国际会议论文集》(ICRA’13)。谷歌学者谷歌学者
  31. B.-S.Kim、P.Kohli和S.Savarese。2013年a。通过voxel-CRF了解3D场景。IEEE计算机视觉国际会议(ICCV'13)论文集。谷歌学者谷歌学者数字图书馆数字图书馆
  32. V.G.Kim、W.Li、N.J.Mitra、S.Chaudhuri、S.Diverdi和T.Funkhouser。2013年b。从大型3D形状集合中学习基于零件的模板。ACM事务处理。图表。32, 4.谷歌学者谷歌学者数字图书馆数字图书馆
  33. Y.M.Kim、N.J.Mitra、D.M.Yan和L.Guibas。2012年。获取具有可变性和重复性的3D室内环境。ACM事务处理。图表。31, 6.谷歌学者谷歌学者数字图书馆数字图书馆
  34. P.Kohli、L.Ladicky和P.H.S.Torr。2009年。加强标签一致性的强劲高阶潜力。国际期刊计算。视觉。82, 3, 302--324.谷歌学者谷歌学者数字图书馆数字图书馆
  35. D.Koller和N.Friedman。2009.概率图形模型:原理和技术。麻省理工学院出版社。谷歌学者谷歌学者数字图书馆数字图书馆
  36. H.S.Koppula、A.Anand、T.Joachims和A.Saxena。2011.室内场景3D点云的语义标记。神经信息处理系统会议记录(NIPS’11)。谷歌学者谷歌学者
  37. P.Krähenbühl和V.Koltun。2011.在具有高斯边缘电位的完全连接的CRF中的有效推理。神经信息处理系统会议记录(NIPS’11)。谷歌学者谷歌学者
  38. A.Krizhevsky、I.Sutskever和G.Hinton。2012.使用深度卷积神经网络进行ImageNet分类。神经信息处理系统会议记录(NIPS’12)。谷歌学者谷歌学者
  39. L.Ladickỳ、P.Sturgess、C.Russell、S.Sengupta、Y.Bastanlar、W.Clocksin和P.H.Torr。2012.对象类别分割和密集立体重建的联合优化。国际期刊计算。视觉。100, 2, 122--133.谷歌学者谷歌学者数字图书馆数字图书馆
  40. J.Lafferty、A.Mccallum和F.C.Pereira。2001.条件随机场:用于分割和标记序列数据的概率模型。18年会议记录第个国际机器学习会议(ICML'01)。282--289.谷歌学者谷歌学者数字图书馆数字图书馆
  41. K.Lai、L.Bo、X.Ren和D.Fox。2011.大规模分层多视图RGB-D对象数据集。IEEE机器人与自动化国际会议(ICRA’11)论文集。谷歌学者谷歌学者
  42. V.Lepetit和P.Fua。2006.使用随机树进行关键点识别。IEEE传输。模式分析。机器。智力。28, 9.谷歌学者谷歌学者数字图书馆数字图书馆
  43. M.Levoy、K.Pulli、B.Curless、S.Rusinkiewicz、D.Koller、L.Pereira、M.Ginzton、S.Anderson、J.Davis、J.Ginsberg等人,2000年。数字米开朗基罗项目。大型雕像的3D扫描。《计算机图形和交互技术年度ACM会议论文集》(SIGGRAPH'00)。纽约ACM出版社。谷歌学者谷歌学者数字图书馆数字图书馆
  44. D.Lin、S.Fidler和R.Urtasun。2013年a。使用RGBD相机进行三维物体检测的整体场景理解。IEEE计算机视觉国际会议(ICCV'13)论文集。谷歌学者谷歌学者数字图书馆数字图书馆
  45. H.Lin、J.Gao、Y.Zhou、G.Lu、M.Ye、C.Zhang、L.Liu和R.Yang。2013年b。从激光雷达数据中对住宅场景进行语义分解和重建。ACM事务处理。图表。32, 4.谷歌学者谷歌学者数字图书馆数字图书馆
  46. D.G.洛维。1999.从局部尺度不变特征识别物体。IEEE计算机视觉国际会议(ICCV'99)论文集。谷歌学者谷歌学者数字图书馆数字图书馆
  47. P.Merrell、E.Schkufza、Z.Li、M.Agrawala和V.Koltun。2011年,使用室内设计指南进行交互式家具布局。ACM事务处理。图表。30, 4.谷歌学者谷歌学者数字图书馆数字图书馆
  48. L.Nan、K.Xie和A.Sharf,2012年。一种用于理解杂乱室内场景的搜索分类方法。ACM事务处理。图表。31, 6, 137.谷歌学者谷歌学者数字图书馆数字图书馆
  49. R.A.Newcombe、S.Izadi、O.Hilliges、D.Molyneaux、D.Kim、A.J.Davison、P.Kohli、J.Shotton、S.Hodges和A Fitzgibbon。2011年a。KinectFusion:实时密集曲面映射和跟踪。《混合和增强现实国际研讨会论文集》(ISMAR'11)。谷歌学者谷歌学者数字图书馆数字图书馆
  50. R.A.Newcombe、S.J.Lovegrove和A.J.Davison。2011年b。DTAM:实时密集跟踪和绘图。IEEE计算机视觉国际会议(ICCV'11)论文集。谷歌学者谷歌学者数字图书馆数字图书馆
  51. M.Niessner、M.Zollhöfer、S.Izadi和M.Stamminger。2013年。使用体素散列进行实时三维大规模重建。ACM事务处理。图表。32, 6.谷歌学者谷歌学者数字图书馆数字图书馆
  52. M.Pollefeys、D.Nistéer、J.Frahm、A.Akbarzadeh、P.Mordoral、B.Cliff、C.Engels、D.Gallup、S.Kim、P.Merrell等人,2008年。从视频中进行详细的实时城市3D重建。国际期刊计算。视觉。78, 2.谷歌学者谷歌学者数字图书馆数字图书馆
  53. I.波斯纳、M.康明斯和P.纽曼。2009年。使用空间和时间背景的快速城市标记生成框架。自动。机器人。26, 2--3, 153--170.谷歌学者谷歌学者数字图书馆数字图书馆
  54. V.Pradeep、C.Rhemann、S.Izadi、C.Zach、M.Bleyer和S.Bathiche。2013年,MonoFusion:使用单个网络摄像头实时重建小场景。《混合与增强现实国际研讨会论文集》(ISMAR’13)。83--88.谷歌学者谷歌学者
  55. F.Ramos、J.Nieto和H.Durrant-Whyte。2008.将对象识别和SLAM结合起来,用于扩展地图表示。实验机器人学。斯普林格,55-64。谷歌学者谷歌学者
  56. X.Ren、L.Bo和D.Fox。2012.ROB-(D)场景标记:特征和算法。《计算机视觉和模式识别会议论文集》(CVPR'12)。谷歌学者谷歌学者数字图书馆数字图书馆
  57. L.G.罗伯茨。1963.三维实体的机器感知。麻省理工学院博士论文。谷歌学者谷歌学者
  58. C.Rother、V.Kolmogorov和A.Blake。GrabCut——使用迭代图切割的交互式前景提取。ACM事务处理。图表。23, 3, 309--314.谷歌学者谷歌学者数字图书馆数字图书馆
  59. S.Rusinkiewicz、O.Hall-Holt和M.Levoy。2002年。实时3D模型采集。ACM事务处理。图表。21, 3, 438--446.谷歌学者谷歌学者数字图书馆数字图书馆
  60. B.C.Russell、A.Torralba、K.P.Murphy和W.T.Freeman。2008年。LabelMe:用于图像注释的数据库和基于Web的工具。国际期刊计算。视觉。77,1-3157-173。谷歌学者谷歌学者数字图书馆数字图书馆
  61. A.Saffari、C.Leistner、J.Santner、M.Godec和H.Bischop。2009年,在线随机森林。IEEE国际计算机视觉研讨会(ICCVW’09)会议记录。谷歌学者谷歌学者
  62. R.F.Salas-Moreno、R.A.Newcombe、H.Strasdat、P.H.Kelly和A.J.Davison。2013.SLAM++:在对象级别同步定位和映射。IEEE计算机视觉和模式识别会议论文集(CVPR'13)。谷歌学者谷歌学者数字图书馆数字图书馆
  63. S.Sengupta、E.Greveson、A.Shahrokni和P.H.Torr。2013年,使用立体视觉进行城市3D语义建模。《IEEE机器人与自动化国际会议论文集》(ICRA’13)。谷歌学者谷歌学者
  64. Q.Shan、R.Adams、B.Curless、Y.Furukawa和S.M.Seitz。2013年,用于场景重建的视觉图灵测试。《3D国际会议论文集》(Vision-3DV)。25--32.谷歌学者谷歌学者数字图书馆数字图书馆
  65. T.Shao、W.Xu、K.Zhou、J.Wang、D.Li和B.Guo。2012.使用RGBD相机对室内场景进行语义建模的交互式方法。ACM事务处理。图表。31, 6, 136.谷歌学者谷歌学者数字图书馆数字图书馆
  66. L.Shapira、S.Shalom、A.Shamir、D.Cohen-Or和H.Zhang。2010.3D对象中的上下文部分类比。国际期刊计算。视觉。89, 2--3, 309--326.谷歌学者谷歌学者数字图书馆数字图书馆
  67. T.夏普。2008年,在GPU上实施决策树和森林。《欧洲计算机视觉会议论文集》(ECCV'08)。施普林格,595-608。谷歌学者谷歌学者交叉引用交叉引用
  68. 沈华华、傅华华、陈国强和胡士明,2012年。通过部件组装进行结构恢复。ACM事务处理。图表。31, 6, 180.谷歌学者谷歌学者数字图书馆数字图书馆
  69. J.Shotton、A.Fitzgibbon、M.Cook、T.Sharp、M.Finocchio、R.Moore、A.Kipman和A.Blake。2011.单深度图像中部分实时人体姿势识别。IEEE计算机视觉和模式识别会议论文集(CVPR'11)。谷歌学者谷歌学者数字图书馆数字图书馆
  70. J.Shotton、J.Winn、C.Rother和A.Criminisi。2006.TextonBoost:用于多类对象识别和分割的联合外观、形状和上下文建模。在《欧洲计算机视觉会议记录》(ECCV'06)中。谷歌学者谷歌学者数字图书馆数字图书馆
  71. N.Silberman和R.Fergus。2011.使用结构光传感器进行室内场景分割。IEEE国际计算机视觉研讨会(ICCVW’11)会议记录。谷歌学者谷歌学者
  72. N.Silberman、D.Hoiem、P.Kohli和B.Fergus。2012.从RGBD图像中进行室内分割和支持推理。《欧洲计算机视觉会议论文集》(ECCV'12)。谷歌学者谷歌学者数字图书馆数字图书馆
  73. N.Snavely、S.M.Seitz和R.Szeliski。2006.摄影旅游:探索3D摄影收藏。ACM事务处理。图表。25, 3.谷歌学者谷歌学者数字图书馆数字图书馆
  74. J.Stückler、B.Waldvogel、H.Schultz和S.Behnke。2013.RGB-D视频中对象类语义的密集实时映射。http://www.ais.uni-bonn.de/papers/JRTIP_2014_Stueckler_RT_SemanticSLAM.pdf。谷歌学者谷歌学者
  75. J.P.Valentin、S.Sengupta、J.Warrell、A.Shahrokni和P.H.Torr。2013.室内和室外场景的基于网格的语义建模。IEEE计算机视觉和模式识别会议论文集(CVPR'13)。谷歌学者谷歌学者数字图书馆数字图书馆
  76. V.Vineet和P.Narayanan。2008年。CUDA切割:GPU上的快速图形切割。IEEE计算机视觉和模式识别研讨会会议记录(CVPR'08)。1--8.谷歌学者谷歌学者
  77. J.S.维特。1985.水库随机取样。ACM事务处理。图表。11, 1.谷歌学者谷歌学者数字图书馆数字图书馆
  78. Y.Wang、J.Feng、Z.Wu、J.Wang和S.F.Chang。2014.从低成本深度传感器到CAD:通过回归树字段进行跨域3D形状检索。《欧洲计算机视觉会议论文集》(ECCV’14)。谷歌学者谷歌学者交叉引用交叉引用
  79. J.肖。2014.一种2D+3D丰富数据的场景理解方法。麻省理工学院博士论文。谷歌学者谷歌学者数字图书馆数字图书馆
  80. J.Xiao、J.Hays、K.A.Ehinger、A.Oliva和A.Torralba。2010年。SUN数据库:从修道院到动物园的大规模场景识别。IEEE计算机视觉和模式识别会议(CVPR'10)论文集。谷歌学者谷歌学者
  81. J.Xiao、A.Owens和A.Torralba。2013年,SUN3D:使用SFM和对象标签重建的大空间数据库。《计算机视觉国际会议论文集》(ICCV'13)。谷歌学者谷歌学者数字图书馆数字图书馆
  82. A.Yao、J.Gall、C.Leistner和L.Van Gool。2012.交互式对象检测。IEEE计算机视觉和模式识别会议(CVPR'12)论文集。3242--3249.谷歌学者谷歌学者数字图书馆数字图书馆

索引术语

  1. SemanticPaint:交互式3D标记和指尖学习

      建议

      评论

      登录选项

      检查您是否可以通过登录凭据或您的机构访问本文。

      登录

      完全访问权限

      • 发布于

        封面图片ACM图形事务
        ACM图形事务 第34卷第5期
        2015年10月
        188页
        国际标准编号:0730-0301
        EISSN公司:1557-7368
        内政部:10.1145/2843519
        期刊目录

        版权所有©2015 ACM

        如果复制品不是为了盈利或商业利益而制作或分发的,并且复制品的第一页载有本通知和完整引文,则允许免费制作本作品的全部或部分数字或硬拷贝以供个人或课堂使用。必须尊重ACM以外的其他人对本作品组成部分的版权。允许用信用证进行摘要。要以其他方式复制或重新发布、在服务器上发布或重新分发到列表,需要事先获得特定许可和/或收取费用。从请求权限[电子邮件保护]

        出版商

        计算机协会

        美国纽约州纽约市

        出版历史

        • 出版:2015年11月3日
        • 认可的:2015年3月1日
        • 修订日期:2015年2月1日
        • 收到:2014年8月1日
        发布于托格第34卷第5期

        权限

        请求有关此文章的权限。

        请求权限

        检查更新

        限定符

        • 研究论文
        • 研究
        • 推荐

      PDF格式

      以PDF文件查看或下载。

      PDF格式

      电子阅读器

      使用eReader联机查看。

      电子阅读器