数据高效视觉识别的空间和时间局部性

更多信息
扩展_更多

摘要

时间上的空间定位对人类至关重要。因此,我们希望计算机视觉算法也能够在空间和时间上定位物体和动作。这些算法通常从给定的数据中学习,并通过利用对学习至关重要的归纳偏差来发现模式、部分、运动及其位置。然而,定位很复杂,容易出错,而且很难检查。在本论文中,我们研究了位置偏差以及CNN如何在图像和视频领域探索和利用位置和时间信息。本论文的一个有趣发现是,关于图像外部内容的启发式(边界处理)使CNN能够利用绝对空间位置并打破平移等方差。本文提出了一种简单的解决方案来消除空间位置偏差。该解决方案改进了平移等方差,并提供了数据效率和鲁棒性。此外,本文还研究了物体和零件在图像上的位置。首先,本文研究了现代目标检测器的对象-文本关系,揭示了关于有用位置偏差的见解。此外,针对视觉验证任务,研究了无益的位置偏差的影响。这些分析表明,即使物体不在图像中,物体检测器也能以高置信度产生物体位置的幻觉。基于这些见解,本文为研究人员如何为其特定任务选择目标检测器提供了建议。本文的另一个有趣发现显示了数据增强技术在解决位姿估计方法在处理遮挡时的鲁棒性问题方面的局限性。即使数据增强减轻了由采样偏差引起的一些问题,但它只能产生有限的改进,并且在应用一堆增强后性能会饱和。最后,本文研究了视频数据的时间位置信息,并证明了视频数据中的时空位置偏差。提出了一种利用潜在空间特征相似度对长视频进行标注的高效视频标注解决方案。此外,仅使用关键帧标签和积极无标记学习可以获得高质量的动作建议,可以用于许多时间动作定位方法。该方法可以提供数据和标签效率。综上所述,本文研究了CNN如何使用位置信息,并引入了位置偏差,这些偏差可以在各种计算机视觉任务中产生积极或消极的结果。

文件夹