研究论文

SemanticPaint：交互式3D标签和指尖学习

作者：
朱利安·瓦伦丁

牛津大学，牛津牛津大学，英国

牛津大学，牛津牛津大学，英国
查看个人资料

,
Vibhav葡萄藤

牛津大学，牛津牛津大学，英国

牛津大学，牛津牛津大学，英国
查看个人资料

,
郑明明

牛津大学和南开大学，中国天津南开

牛津大学和南开大学，中国天津南开
查看个人资料

,
大卫·金

英国剑桥微软研究院

英国剑桥微软研究院
查看个人资料

,
究院的杰米·肖顿

英国剑桥微软研究院

英国剑桥微软研究院
查看个人资料

,
Pushmet Kohli公司

英国剑桥微软研究院

英国剑桥微软研究院
查看个人资料

,
马蒂亚斯·尼纳

斯坦福大学，加利福尼亚州斯坦福

斯坦福大学，加利福尼亚州斯坦福
查看个人资料

,
安东尼奥·克里米尼西

英国剑桥微软研究院

英国剑桥微软研究院
查看个人资料

,
沙赫拉姆·伊扎迪

英国牛津牛津剑桥微软研究院

英国牛津牛津大学剑桥微软研究院
查看个人资料

,
菲利普·托尔

英国剑桥牛津大学

英国剑桥牛津大学
查看个人资料

作者信息和声明

ACM图形事务第34卷第5期条款编号：154第1-17页https://doi.org/10.1145/2751556

出版：2015年11月3日出版历史

ACM图形事务

摘要

我们提出了一种新的交互式在线3D场景理解方法。我们的系统，SemanticPaint（语义绘制），允许用户同时扫描其环境，同时通过触摸任何所需的对象或表面来交互式分割场景。我们的系统不断地从这些分割中学习，并标记环境中新的看不见的部分。与离线系统不同，在离线系统中，捕获、标记和批量学习通常需要数小时甚至数天才能完成，我们的方法是完全在线的。这为用户在捕获过程中提供了识别的连续实时反馈，允许用户立即纠正分段和/或学习中的错误，这是迄今为止批处理和脱机方法无法实现的功能。这将导致定制或个性化特别是针对用户感兴趣的环境和对象类，为增强现实、室内设计和人类/机器人导航方面的新应用开辟了潜力。它还能够捕获大量标记的3D数据集，用于训练大规模视觉识别系统。

补充材料

可供下载

拉链

瓦伦丁.zip（362.5 MB）

SemanticPaint:交互式3D标签和指尖学习的补充电影、附录、图像和软件文件

工具书类

M.Abdelrahman、M.Aono、M.El-Elegy、A.Farag、A.Fereira、H.Johan、B.Li、Y.Lu、J.Machado、P.-B.Pascoal和A.Tatsuma。2013年，SHREC13：检索使用低成本深度感应相机捕获的对象。第六届会议记录^第个欧洲制图三维物体检索研讨会（3DOR’13）。65--71.谷歌学者数字图书馆
A.Anand、H.S.Koppula、T.Joachims和A.Saxena。2013.在上下文指导下对三维点云进行语义标记和搜索。国际J机器人。第32、1、19--34号决议。谷歌学者数字图书馆
H.Bay、A.Ess、T.Tuytelaars和van L.Gool。2008.冲浪：加速强大功能。在IEEE计算机视觉和图像理解会议论文集（CVIU'08）中。谷歌学者数字图书馆
A.Bifet、G.Holmes、B.Pfahringer、R.Kirkby和R.gavaldá。2009年，新的不断发展的数据流。在ACM SIGKDD知识发现和数据挖掘国际会议（KDD'00）的会议记录中。谷歌学者数字图书馆
U.Bonde、V.Badrinarayanan和R.Cipolla。2013.三维物体识别的多尺度形状索引。计算机视觉中的尺度空间和变分方法。施普林格，306--318。谷歌学者
Y.Boykov、O.Versler和R.Zabih。2001.通过图形切割实现快速近似能量最小化。IEEE传输。模式分析。机器。智力。23, 11.谷歌学者数字图书馆
L.布雷曼。2001.随机森林。机器。学习。45, 1.谷歌学者数字图书馆
G.J.Brostow、J.Shotton、J.Fauqueur和R.Cipolla。2008.使用运动点云的结构进行分割和识别。《欧洲计算机视觉会议论文集》（ECCV'08）。谷歌学者数字图书馆
R.O.Castle、D.Gawley、G.Klein和D.W.Murray。2007年，致力于手持式和穿戴式相机的同步识别、定位和绘图。IEEE机器人与自动化国际会议论文集（ICRA'07）。谷歌学者
J.Chen、D.Bautembach和S.Izadi。2013.可缩放实时体积曲面重建。ACM事务处理。图表。32, 4.谷歌学者数字图书馆
X.Chen、A.Golovinskiy和T.Funkhouser。2009年，3D网格分割基准。ACM事务处理。图表。28，3。谷歌学者数字图书馆
M.-M.Cheng、S.Zheng、W.Y.Lin、V.Vineet、P.Sturgess、N.Crook、N.Mitra和P.Torr。2014.ImageSpirit:语言引导的图像解析。ACM事务处理。图表。34, 1.谷歌学者数字图书馆
C.Couprie、C.Farabet、L.Najman和Y.Lecun。2013.使用深度信息的室内语义分割。http://arxiv.org/abs/1301.3572。谷歌学者
A.克里米尼和J.肖顿。2013年，计算机视觉和医学图像分析决策森林。斯普林格。谷歌学者数字图书馆
B.Curless和M.Levoy。1996年。从距离图像构建复杂模型的体积方法。第23届会议记录^第个计算机图形和交互技术年度ACM会议（SIGGRAPH’96）。纽约ACM出版社，303--312。谷歌学者数字图书馆
N.Dalal和B.Triggs。2005.人体检测定向梯度直方图。IEEE计算机视觉和模式识别会议论文集（CVPR'05）。谷歌学者数字图书馆
P.Domingos和G.Hulten。2000.挖掘高速数据流。第六届会议记录^第个ACM SIGKDD知识发现和数据挖掘国际会议（KDD'00）。谷歌学者数字图书馆
B.Drost、M.Ulrich、N.Navar和S.Ilic。2010年。全球建模，局部匹配：高效且稳健的3D物体识别。IEEE计算机视觉和模式识别会议（CVPR'10）论文集。谷歌学者
N.Fioraio和L.di Stefano。2013年，通过语义束调整进行联合检测、跟踪和映射。IEEE计算机视觉和模式识别会议论文集（CVPR'13）。谷歌学者数字图书馆
A.Geiger、P.Lenz和R.Urtasun。2012年。我们准备好进行自动驾驶了吗？KITTI愿景基准套件。IEEE计算机视觉和模式识别会议（CVPR'12）论文集。谷歌学者数字图书馆
A.Gupta、A.A.Efros和M.Hebert。2010年，重访街区世界：使用定性几何和力学理解图像。《欧洲计算机视觉会议论文集》（ECCV'10）。谷歌学者数字图书馆
C.Häne、C.Zach、A.Cohen、R.Angst和M.Pollefeys。2013年，联合三维场景重建和类分割。IEEE计算机视觉和模式识别会议论文集（CVPR'13）。谷歌学者数字图书馆
E.Herbst、P.Henry和D.Fox。2014年。实现在线三维对象分割和映射。IEEE机器人与自动化国际会议（ICRA’14）论文集。谷歌学者
H.Hirschmuller。2008年，通过半全局匹配和互信息进行立体处理。IEEE传输。模式分析。机器。智力。30, 2, 328--341.谷歌学者数字图书馆
Y.Ioanou、B.Taati、R.Harrap和M.Greenspan。2012.作为无组织点云中的多尺度操作符的法线差异。第二届会议记录^第国际3D成像、建模、处理、可视化和传输会议（3DIMPVT'12）。501到508。谷歌学者数字图书馆
S.Izadi、D.Kim、O.Hilliges、D.Molyneaux、R.Newcombe、P.Kohli、J.Shotton、J.Shotton、S.Hodges、D.Freeman、A.Davidson和A.Fitzgibbon。2011.KinectFusion：使用移动深度相机进行实时3D重建和交互。在24国会议记录中^第个ACM用户界面软件和技术年度研讨会（UIST'11）。第559页至第568页。谷歌学者数字图书馆
A.约翰逊。1997.旋转图像：三维表面匹配的表示。卡内基梅隆大学机器人研究所博士论文。谷歌学者
O.Kähler和I.Reid。2013年。使用树木场进行高效的3D场景标记。在计算机视觉国际会议（ICCV'13）的过程中。谷歌学者数字图书馆
E.Kalogerakis、A.Hertzmann和K.Singh。2010.学习3D网格分割和标记。ACM事务处理。图表。29, 4, 102.谷歌学者数字图书馆
A.Karpathy、S.Miller和L.Fei-Fei。2013年，通过形状分析在3D场景中发现物体。《IEEE机器人与自动化国际会议论文集》（ICRA’13）。谷歌学者
B.-S.Kim、P.Kohli和S.Savarese。2013年a。通过voxel-CRF了解3D场景。IEEE计算机视觉国际会议（ICCV'13）论文集。谷歌学者数字图书馆
V.G.Kim、W.Li、N.J.Mitra、S.Chaudhuri、S.Diverdi和T.Funkhouser。2013年b。从大型3D形状集合中学习基于零件的模板。ACM事务处理。图表。32, 4.谷歌学者数字图书馆
Y.M.Kim、N.J.Mitra、D.M.Yan和L.Guibas。2012年。获取具有可变性和重复性的3D室内环境。ACM事务处理。图表。31, 6.谷歌学者数字图书馆
P.Kohli、L.Ladicky和P.H.S.Torr。2009年。加强标签一致性的强劲高阶潜力。国际期刊计算。视觉。82, 3, 302--324.谷歌学者数字图书馆
D.Koller和N.Friedman。2009.概率图形模型：原理和技术。麻省理工学院出版社。谷歌学者数字图书馆
H.S.Koppula、A.Anand、T.Joachims和A.Saxena。2011.室内场景3D点云的语义标记。神经信息处理系统会议记录（NIPS’11）。谷歌学者
P.Krähenbühl和V.Koltun。2011.在具有高斯边缘电位的完全连接的CRF中的有效推理。神经信息处理系统会议记录（NIPS’11）。谷歌学者
A.Krizhevsky、I.Sutskever和G.Hinton。2012.使用深度卷积神经网络进行ImageNet分类。神经信息处理系统会议记录（NIPS’12）。谷歌学者
L.Ladickỳ、P.Sturgess、C.Russell、S.Sengupta、Y.Bastanlar、W.Clocksin和P.H.Torr。2012.对象类别分割和密集立体重建的联合优化。国际期刊计算。视觉。100, 2, 122--133.谷歌学者数字图书馆
J.Lafferty、A.Mccallum和F.C.Pereira。2001.条件随机场：用于分割和标记序列数据的概率模型。18年会议记录^第个国际机器学习会议（ICML'01）。282--289.谷歌学者数字图书馆
K.Lai、L.Bo、X.Ren和D.Fox。2011.大规模分层多视图RGB-D对象数据集。IEEE机器人与自动化国际会议（ICRA’11）论文集。谷歌学者
V.Lepetit和P.Fua。2006.使用随机树进行关键点识别。IEEE传输。模式分析。机器。智力。28, 9.谷歌学者数字图书馆
M.Levoy、K.Pulli、B.Curless、S.Rusinkiewicz、D.Koller、L.Pereira、M.Ginzton、S.Anderson、J.Davis、J.Ginsberg等人，2000年。数字米开朗基罗项目。大型雕像的3D扫描。《计算机图形和交互技术年度ACM会议论文集》（SIGGRAPH'00）。纽约ACM出版社。谷歌学者数字图书馆
D.Lin、S.Fidler和R.Urtasun。2013年a。使用RGBD相机进行三维物体检测的整体场景理解。IEEE计算机视觉国际会议（ICCV'13）论文集。谷歌学者数字图书馆
H.Lin、J.Gao、Y.Zhou、G.Lu、M.Ye、C.Zhang、L.Liu和R.Yang。2013年b。从激光雷达数据中对住宅场景进行语义分解和重建。ACM事务处理。图表。32, 4.谷歌学者数字图书馆
D.G.洛维。1999.从局部尺度不变特征识别物体。IEEE计算机视觉国际会议（ICCV'99）论文集。谷歌学者数字图书馆
P.Merrell、E.Schkufza、Z.Li、M.Agrawala和V.Koltun。2011年，使用室内设计指南进行交互式家具布局。ACM事务处理。图表。30, 4.谷歌学者数字图书馆
L.Nan、K.Xie和A.Sharf，2012年。一种用于理解杂乱室内场景的搜索分类方法。ACM事务处理。图表。31, 6, 137.谷歌学者数字图书馆
R.A.Newcombe、S.Izadi、O.Hilliges、D.Molyneaux、D.Kim、A.J.Davison、P.Kohli、J.Shotton、S.Hodges和A Fitzgibbon。2011年a。KinectFusion：实时密集曲面映射和跟踪。《混合和增强现实国际研讨会论文集》（ISMAR'11）。谷歌学者数字图书馆
R.A.Newcombe、S.J.Lovegrove和A.J.Davison。2011年b。DTAM：实时密集跟踪和绘图。IEEE计算机视觉国际会议（ICCV'11）论文集。谷歌学者数字图书馆
M.Niessner、M.Zollhöfer、S.Izadi和M.Stamminger。2013年。使用体素散列进行实时三维大规模重建。ACM事务处理。图表。32, 6.谷歌学者数字图书馆
M.Pollefeys、D.Nistéer、J.Frahm、A.Akbarzadeh、P.Mordoral、B.Cliff、C.Engels、D.Gallup、S.Kim、P.Merrell等人，2008年。从视频中进行详细的实时城市3D重建。国际期刊计算。视觉。78, 2.谷歌学者数字图书馆
I.波斯纳、M.康明斯和P.纽曼。2009年。使用空间和时间背景的快速城市标记生成框架。自动。机器人。26, 2--3, 153--170.谷歌学者数字图书馆
V.Pradeep、C.Rhemann、S.Izadi、C.Zach、M.Bleyer和S.Bathiche。2013年，MonoFusion：使用单个网络摄像头实时重建小场景。《混合与增强现实国际研讨会论文集》（ISMAR’13）。83--88.谷歌学者
F.Ramos、J.Nieto和H.Durrant-Whyte。2008.将对象识别和SLAM结合起来，用于扩展地图表示。实验机器人学。斯普林格，55-64。谷歌学者
X.Ren、L.Bo和D.Fox。2012.ROB-（D）场景标记：特征和算法。《计算机视觉和模式识别会议论文集》（CVPR'12）。谷歌学者数字图书馆
L.G.罗伯茨。1963.三维实体的机器感知。麻省理工学院博士论文。谷歌学者
C.Rother、V.Kolmogorov和A.Blake。GrabCut——使用迭代图切割的交互式前景提取。ACM事务处理。图表。23, 3, 309--314.谷歌学者数字图书馆
S.Rusinkiewicz、O.Hall-Holt和M.Levoy。2002年。实时3D模型采集。ACM事务处理。图表。21, 3, 438--446.谷歌学者数字图书馆
B.C.Russell、A.Torralba、K.P.Murphy和W.T.Freeman。2008年。LabelMe：用于图像注释的数据库和基于Web的工具。国际期刊计算。视觉。77，1-3157-173。谷歌学者数字图书馆
A.Saffari、C.Leistner、J.Santner、M.Godec和H.Bischop。2009年，在线随机森林。IEEE国际计算机视觉研讨会（ICCVW’09）会议记录。谷歌学者
R.F.Salas-Moreno、R.A.Newcombe、H.Strasdat、P.H.Kelly和A.J.Davison。2013.SLAM++：在对象级别同步定位和映射。IEEE计算机视觉和模式识别会议论文集（CVPR'13）。谷歌学者数字图书馆
S.Sengupta、E.Greveson、A.Shahrokni和P.H.Torr。2013年，使用立体视觉进行城市3D语义建模。《IEEE机器人与自动化国际会议论文集》（ICRA’13）。谷歌学者
Q.Shan、R.Adams、B.Curless、Y.Furukawa和S.M.Seitz。2013年，用于场景重建的视觉图灵测试。《3D国际会议论文集》（Vision-3DV）。25--32.谷歌学者数字图书馆
T.Shao、W.Xu、K.Zhou、J.Wang、D.Li和B.Guo。2012.使用RGBD相机对室内场景进行语义建模的交互式方法。ACM事务处理。图表。31, 6, 136.谷歌学者数字图书馆
L.Shapira、S.Shalom、A.Shamir、D.Cohen-Or和H.Zhang。2010.3D对象中的上下文部分类比。国际期刊计算。视觉。89, 2--3, 309--326.谷歌学者数字图书馆
T.夏普。2008年，在GPU上实施决策树和森林。《欧洲计算机视觉会议论文集》（ECCV'08）。施普林格，595-608。谷歌学者交叉引用
沈华华、傅华华、陈国强和胡士明，2012年。通过部件组装进行结构恢复。ACM事务处理。图表。31, 6, 180.谷歌学者数字图书馆
J.Shotton、A.Fitzgibbon、M.Cook、T.Sharp、M.Finocchio、R.Moore、A.Kipman和A.Blake。2011.单深度图像中部分实时人体姿势识别。IEEE计算机视觉和模式识别会议论文集（CVPR'11）。谷歌学者数字图书馆
J.Shotton、J.Winn、C.Rother和A.Criminisi。2006.TextonBoost：用于多类对象识别和分割的联合外观、形状和上下文建模。在《欧洲计算机视觉会议记录》（ECCV'06）中。谷歌学者数字图书馆
N.Silberman和R.Fergus。2011.使用结构光传感器进行室内场景分割。IEEE国际计算机视觉研讨会（ICCVW’11）会议记录。谷歌学者
N.Silberman、D.Hoiem、P.Kohli和B.Fergus。2012.从RGBD图像中进行室内分割和支持推理。《欧洲计算机视觉会议论文集》（ECCV'12）。谷歌学者数字图书馆
N.Snavely、S.M.Seitz和R.Szeliski。2006.摄影旅游：探索3D摄影收藏。ACM事务处理。图表。25, 3.谷歌学者数字图书馆
J.Stückler、B.Waldvogel、H.Schultz和S.Behnke。2013.RGB-D视频中对象类语义的密集实时映射。http://www.ais.uni-bonn.de/papers/JRTIP_2014_Stueckler_RT_SemanticSLAM.pdf。谷歌学者
J.P.Valentin、S.Sengupta、J.Warrell、A.Shahrokni和P.H.Torr。2013.室内和室外场景的基于网格的语义建模。IEEE计算机视觉和模式识别会议论文集（CVPR'13）。谷歌学者数字图书馆
V.Vineet和P.Narayanan。2008年。CUDA切割：GPU上的快速图形切割。IEEE计算机视觉和模式识别研讨会会议记录（CVPR'08）。1--8.谷歌学者
J.S.维特。1985.水库随机取样。ACM事务处理。图表。11, 1.谷歌学者数字图书馆
Y.Wang、J.Feng、Z.Wu、J.Wang和S.F.Chang。2014.从低成本深度传感器到CAD：通过回归树字段进行跨域3D形状检索。《欧洲计算机视觉会议论文集》（ECCV’14）。谷歌学者交叉引用
J.肖。2014.一种2D+3D丰富数据的场景理解方法。麻省理工学院博士论文。谷歌学者数字图书馆
J.Xiao、J.Hays、K.A.Ehinger、A.Oliva和A.Torralba。2010年。SUN数据库：从修道院到动物园的大规模场景识别。IEEE计算机视觉和模式识别会议（CVPR'10）论文集。谷歌学者
J.Xiao、A.Owens和A.Torralba。2013年，SUN3D：使用SFM和对象标签重建的大空间数据库。《计算机视觉国际会议论文集》（ICCV'13）。谷歌学者数字图书馆
A.Yao、J.Gall、C.Leistner和L.Van Gool。2012.交互式对象检测。IEEE计算机视觉和模式识别会议（CVPR'12）论文集。3242--3249.谷歌学者数字图书馆

索引术语

SemanticPaint：交互式3D标记和指尖学习
1. 计算方法
  1. 人工智能
    1. 计算机视觉
      1. 计算机视觉问题
      2. 计算机视觉任务
        场景理解

建议

SemanticPaint：三维世界的交互式分割和学习
2015年SIGGRAPH：ACM SIGGRAP 2015年会谈

我们提出了一个实时交互式系统，用于三维场景的几何重建、对象类分割和学习[Valentin等人]。使用我们的系统，用户可以戴着消费者深度相机和虚拟现实走进房间。。。
阅读更多信息
基于区域边界感知和实例识别的弱监督三维场景分割
计算机愿景–ECCV 2022
摘要
当前最先进的3D场景理解方法仅仅是以一种全面监督的方式设计的。然而，在有限的重建情况下，只能重建和注释有限的三维场景。我们需要一个能够。。。
阅读更多信息
SemanticPaint：交互式分割和3D世界学习
SIGGRAPH’15:ACM SIGGRAP 2015新兴技术

我们为三维场景的几何重建、对象类分割和学习提供了一个实时交互式系统【Valentin等人，2015年】。使用我们的系统，用户可以带着深度摄像头和虚拟现实耳机走进房间。。。
阅读更多信息

登录选项

检查您是否可以通过登录凭据或您的机构访问本文。

完全访问权限

获取此文章

发布于
ACM图形事务第34卷第5期
2015年10月
188页
国际标准编号：0730-0301
EISSN公司：1557-7368
内政部：10.1145/2843519
编辑：
卡维塔·巴拉
康奈尔大学
期刊目录
版权所有©2015 ACM
如果复制品不是为了盈利或商业利益而制作或分发的，并且复制品的第一页载有本通知和完整引文，则允许免费制作本作品的全部或部分数字或硬拷贝以供个人或课堂使用。必须尊重ACM以外的其他人对本作品组成部分的版权。允许用信用证进行摘要。要以其他方式复制或重新发布、在服务器上发布或重新分发到列表，需要事先获得特定许可和/或收取费用。从请求权限[电子邮件保护]
赞助商
合作中
出版商
计算机协会
美国纽约州纽约市
出版历史
- 出版：2015年11月3日
- 认可的：2015年3月1日
- 修订日期：2015年2月1日
- 收到：2014年8月1日
发布于托格第34卷第5期

权限
请求有关此文章的权限。
请求权限

检查更新
作者标记
3D功能
3D场景理解
交互式
深度摄影机
学习
联机
分段
限定符
- 研究论文
- 研究
- 推荐
会议
资金来源
其他指标
查看文章指标

文章指标
- 81
  引文总数
  查看引文
- 892
  总下载次数
- 下载次数（过去12个月）38
- 下载次数（最近6周）6
其他指标
查看作者指标
引用人
查看全部

PDF格式

以PDF文件查看或下载。

PDF格式

电子阅读器

使用eReader联机查看。

电子阅读器

SemanticPaint：交互式3D标签和指尖学习

ACM图形事务

摘要

补充材料

可供下载

工具书类

引用人

索引术语

建议

SemanticPaint：三维世界的交互式分割和学习

基于区域边界感知和实例识别的弱监督三维场景分割

SemanticPaint：交互式分割和3D世界学习

评论

登录选项

完全访问权限

发布于

赞助商

合作中

出版商

出版历史

权限

检查更新

作者标记

限定符

会议

资金来源

其他指标

文章指标

其他指标

引用人

PDF格式

电子阅读器

数字版

解说词

SemanticPaint：交互式3D标签和指尖学习

ACM图形事务

摘要

补充材料

可供下载

工具书类

引用人

索引术语

建议

SemanticPaint：三维世界的交互式分割和学习

基于区域边界感知和实例识别的弱监督三维场景分割

SemanticPaint：交互式分割和3D世界学习

评论

登录选项

完全访问权限

发布于

赞助商

合作中

出版商

出版历史

权限

检查更新

作者标记

限定符

会议

资金来源

文章指标

其他指标

PDF格式

电子阅读器

数字版

共享此出版物链接

在社交媒体上分享