扫描网

ScanNet:对室内场景进行了大量注释的三维重建。利用有监督的深度学习方法的一个关键要求是大型标记数据集的可用性。不幸的是,在RGB-D场景理解的上下文中,可用的数据非常少——当前的数据集覆盖的场景视图范围很小,语义注释也很有限。为了解决这个问题,我们引入了ScanNet,一个RGB-D视频数据集,它在1513个场景中包含2.5米的视图,并用3D相机姿势、曲面重建和语义分段进行了注释。为了收集这些数据,我们设计了一个易于使用和可扩展的RGB-D采集系统,包括自动曲面重建和众包语义标注。我们表明,使用这些数据有助于实现一些三维场景理解任务的最新性能,包括三维对象分类、语义体素标记和CAD模型检索。数据集可在http://www.scan-net.org