安德烈亚斯·盖革

显示:使用对象知识的立体



立体声技术在过去几十年中取得了巨大进展,但该问题的某些方面今天仍然具有挑战性。引人注目的例子有反射和无纹理表面使用传统的局部正则化器很难恢复。因此,在这项工作中,我们建议在更远的距离上调整使用特定于对象类别的差异建议(displet)我们使用基于稀疏视差估计和图像语义分割的逆图形技术进行采样。提出的显示编码了这样一个事实,即某些类别的对象不是任意形状的,而是典型的规则结构。我们将其集成为非局部正则化子将具有挑战性的对象类“汽车”转换为基于超像素的CRF框架,并演示其在KITTI立体评估中的优势。我们的方法目前在所有方面排名第一KITTI立体声排行榜.上图描述了我们的方法在具有挑战性的图像上的结果。左图显示了叠加了推断对象线框模型的输入图像。右图描述了联合推断的视差图。

介绍

在这项工作中,我们研究了对象识别和语义分割等中级过程在立体匹配任务中的效用。特别是,我们将注意力集中在重建定义明确的对象上,这些对象的数据项很弱,而当前的方法性能很差,例如汽车。由于它们的无纹理、反射和半透明性质,这些对象类别对当前最先进的算法来说是一个重大挑战。相比之下,作为人类,由于我们的对象知识和形状表示,我们能够毫不费力地从单个图像中提取有关汽车几何形状的信息。受此启发,我们将约束良好的对象类别的对象知识引入到倾斜平面MRF中,并估计稠密的视差图。我们利用语义信息和逆向图形对一组看似合理的物体视差图进行采样,并给出初始的半稠密视差估计。我们鼓励在MRF公式中使用这些2.5D形状样本(displet),这取决于它们的几何和语义类与观察结果的一致程度。直观地说,displet可以被视为图像上特定语义类别的无限大可能视差映射集的代表性有限子集。例如,汽车展示应该涵盖给定两个输入图像的最可能的3D汽车配置和形状。

模型

我们假设图像可以分解为一组平面超像素S,每个超像素与一个随机变量相关联n个用3D描述平面。D表示图像中的显示集,每个显示都与其类标签c、适应值和定义它的一组超像素相关联。另一个随机变量d可以解释为高阶CRF中的辅助变量,表示场景中显示的存在(d=1)或不存在(d=0)。此外,我们假设可以对图像进行粗糙的语义分割。我们的目标是联合推断所有超像素平面参数以及场景中是否存在所有显示。我们用能量函数来指定CRF

其中i~j表示S中相邻超像素的集合。除了经典的数据项和成对约束外,我们使用displet将远程交互引入我们的模型:displet一元势(第三项)鼓励具有语义类标签c的图像区域由相应类的displet解释。最后一项确保显示和图像中相关联的超级像素是一致的。

结果

我们的实验表明,该框架能够解决来自KITTI基准如本页顶部的图所示。同时,我们的方法能够提取与估计的视差图一致的三维物体表示,并可作为高级推理的输入。该表显示了提交时KITTI立体声基准测试的定量结果,使用所有区域(左侧)和反射区域(右侧)中3个像素的默认错误阈值。这些数字表示离群值(%)和平均视差误差(像素)。标有星号的方法是使用两个或多个立体图像对作为输入的场景流方法。


下面,我们根据推断的不连续性以及不连续性对超像素几何结构的影响,展示了三个定性结果。影响被编码为alpha通道:透明=无影响,实体=大影响。




下面,我们将根据三个不同示例上的推断视差图来可视化我们的结果。左上:输入图像,右上:来自ALE的语义段,左下:通过半全局匹配(SGM)获得的输入差异图,右下:我们的结果。




视频

下面的视频说明了我们的方法和结果。为了提高效率,我们使用能量最小化方法将初始化为凸壳的闭合网格拟合为3D CAD模型(生成“半凸”壳),从而将从3D Warehouse获得的CAD模型简化为1000个面。这一过程在左侧视频中进行了说明,在标准消费类GPU(NVIDIA Quadro 4000)上,采样率约为8000 fps。右边的视频展示了由最先进的基线(左)和我们的方法(右)根据各自的彩色3D点云生成的视差图。请注意我们的方法是如何改进的,尤其是在无纹理、反射和半透明表面上。

变更日志

下载

该项目的源代码已经在Ubuntu 14.04和Matlab 2014b上进行了测试,并发布在通用公共许可证.

引文

如果您觉得这个项目、数据或代码有用,我们很高兴您能引用我们:
@正在进行中{Guney2015CVPR公司,
作者={法塔马·居尼安德烈亚斯·盖革},
title={Displets:使用对象知识解决立体模糊},
booktitle={计算机视觉和模式识别会议(CVPR)},
年份={2015年}
}


eXTReMe跟踪器