摘要

关键点检测及其描述是局部关键点匹配的两个关键方面,在一些计算机视觉和模式识别应用中至关重要。本文提出了一种新的尺度变分和旋转变分检测器和描述子,分别是DDoG和FBRK。首先应用希尔伯特曲线扫描将二维(2D)数字图像转换为一维(1D)灰度序列。然后,基于一维图像序列,提出了一种利用高斯函数二阶差分逼近DoG检测器的方法。最后,提出了一种新的基于二进制比率的快速关键点描述符。这是通过使用关键点像素值与缩放空间中关键点周围其他像素值的比率关系来实现的。实验结果表明,该方法计算速度更快,性能接近甚至优于现有方法。

1.简介

局部关键点匹配是在同一场景或对象的两个或多个图像之间找到对应点。它在许多计算机视觉和模式识别应用中都取得了相当大的成功,例如物体识别[1]、运动跟踪、宽基线立体声[2]、纹理识别、图像检索[4],机器人导航[5]、视频数据挖掘、建筑物全景图识别[6]、立体通信、恢复相机运动和3D重建。

局部关键点匹配的两个关键方面是关键点的检测和描述。首先,关键点的检测决定了要匹配的稳定关键点;也就是说,我们必须使用位置和相应的尺度来定位关键点,同时确定计算描述符时使用的适当邻域。其次,对关键点的描述包括通过描述每个关键点及其相邻区域来为每个关键点构建唯一的描述符;也就是说,我们必须创建关键点的描述;理想情况下,由于视点变化、旋转、缩放、照明变化等原因,在各种变换下,描述必须是独特的和不变的。

最近几年提出了许多探测器。Moravec于年开发[7]用于图像匹配的角检测器。Harris和Stephens对检测器进行了改进,使其在经过一点转换并接近边缘时更具可重复性[8]名为Harris角检测器。哈里斯探测器不是尺度变分的。罗斯滕和德拉蒙德于年提出[9]角点检测的FAST标准,使用AGAST[10]扩展此工作以改进性能。但FAST没有方向操作符,也不会产生多尺度特征,并且沿边缘具有较大的响应[11]。对于Lindeberg提出的标度-invariant blob检测器[12]引入了自动尺度选择的概念,该斑点检测器由归一化拉普拉斯算子的最大值定义。Mikolajczyk和Schmid分别提出了一种Harris-Laplace检测器和一种Hessian-Laplase检测器,用于通过使用尺度自适应Harris函数或Hessian矩阵来检测关键点[1314]。这两种检测器都是鲁棒的,并且具有尺度不变性。其他几个关键点探测器总结如下[15].

检测到关键点后,下一步的局部关键点匹配是描述关键点。已经开发了许多用于描述局部关键点的局部描述符[1617]。洛[1]提出了一种基于检测区域梯度分布的尺度不变特征变换(SIFT)描述子。SIFT结合了一个尺度不变区域检测器(简称DoG),对图像缩放和旋转具有不变性,对照明变化和3D相机视点具有部分不变性。已经提出了几个改进SIFT的变体和扩展。Ke和Sukthankar[18]提出了PCA-SIFT描述符,该描述符应用PCA将SIFT描述子向量的维数从128降到36。GLOH系列[19]也是SIFT描述符的扩展,它改变了SIFT的位置网格,并使用PCA来降低SIFT维数。GLOH在相同维度上更具特色。然而,GLOH的计算成本更高。除了PCA-SIFT和GLOH之外,Bay等人还提出了一种使用积分图像进行图像卷积的尺度不变和旋转不变关键点描述符,该描述符结合了关键点检测器和名为SURF的描述符[20]。这些扩展主要关注于提高匹配性能。

近年来,提出了几种快速描述符。简介[21]是一个关键点描述符,用于超快速描述和匹配,并在平滑图像补丁中的像素之间使用简单的二进制测试。然而,它对平面内旋转非常敏感。Rublee等人[11]提出了一种二进制描述符具有旋转不变和抗噪声能力的ORB描述符。与此同时,Leutenegger等人在[22]提出了一种称为BRISK的对缩放和旋转不变量的二进制描述符。最近Alahi等人[23]受人类视觉系统和更准确地说视网膜的启发,提出了一种关键点描述符,称为FREAK。

受上述检测器和描述符的启发,本文提出了一种新的关键点检测和描述方案。本文的主要贡献在于两个方面。一方面,我们应用希尔伯特曲线扫描将二维(2D)数字图像转换为一维(1D)灰度序列。基于一维图像序列,我们利用高斯函数的二阶差分,提出了一种近似DoG检测器,即DDoG检测器。另一方面,提出了一种新的基于二进制比率的快速关键点描述符。描述符的主要动机是寻找关键点周围的一些重要像素。这是通过使用比例空间中关键点像素值与关键点周围的其他像素值的比率关系来实现的。该关键点描述符还使用二进制比特串,与现有描述符相比,计算复杂度更低。

本文的其余部分组织如下。在节中2首先介绍了希尔伯特曲线,然后基于希尔伯特曲线扫描构造了一维图像金字塔。章节提出了一种新的基于一维图像金字塔的零检测检测器DDoG。章节4提出了一种基于二进制位串的新描述符5显示了实验和结果。最后,论文在第节中总结6.

2.基于希尔伯特曲线的一维图像金字塔

2.1. 希尔伯特曲线扫描

在我们提出的关键点检测器中,第一个重要步骤是通过希尔伯特曲线扫描将二维数字图像转换为一维灰度序列。

希尔伯特曲线(Hilbert curve)是G.皮亚诺(G.Peano)出版的填空曲线之一,它访问方形网格中的每个点,大小为,   ,或2的任何其他幂(如图所示1)和之间的一对一映射-维空间和一维空间。因为曲线可以尽可能地保持原空间中相邻点的相关性,也就是说,很好地保持了局部性[24]它在计算机科学特别是图像处理中得到了广泛的应用。省略了构建希尔伯特曲线扫描的详细过程,如图所示[25]。使用希尔伯特曲线扫描,可以将二维数字图像转换为一维灰度序列。

2.2. 一维图像金字塔

然后,我们可以基于图像的一维灰度序列构建图像金字塔。因此,一维序列的尺度空间被定义为一个变量的函数,,由一元高斯函数的卷积产生,,使用图像的1D序列,:哪里是中的卷积运算然后将高斯函数差与一维图像序列卷积,,可计算如下:哪里是两个附近尺度的因子,与标准SIFT相同。

为了快速找到关键点并减少计算,我们将在下一节中更详细地讨论使用DDoG检测器代替DoG的方法。

3.基于一维图像金字塔的DDoG检测器

3.1. DDoG探测器

简化金字塔结构可以有效地减少构造金字塔的计算量。根据微积分理论,函数的局部极值点对应于其一阶导数的零点。所以我们有哪里表示高斯函数的二阶差分和与标准SIFT相同。发件人(4),我们可以得到因此因为.

这表明DoG获得的局部最大值或最小值实际上是函数一阶导数的零点。由于零检测比极值点检测容易得多,我们可以使用DoG的一阶导数函数的零检测来代替DoG的局部极值点的检测。

因此,本文提出了DDoG检测算法。我们的方法的第一步是通过构造DDoG金字塔来获得高斯函数的二阶差分(DDoG)。第二步是利用DDoG函数的零点检测找到局部极值,确定关键点及其尺度。第三步是通过对DDoG函数的拟合,利用曲线对关键点进行精确定位。

3.2、。构建DDoG金字塔

DDoG金字塔基于DoG金字塔,其构建过程如图所示2在DoG金字塔的两个相邻层中减去相同的倍频程,形成一个DDoG层,其比例与DoG金字塔中相邻两层的下层相同。例如,DDoG金字塔第一个倍频程的第一层是通过在第二层之间进行减法得到的DoG金字塔第一个八度音阶和第一层DoG金字塔的第一个八度音阶,其音阶为因此,DDoG金字塔中的倍频程数与DoG金字塔中相同,并且DDoG中每个倍频程的层数比DoG金字塔少一层。

3.3、。零点检测

为了检查高斯函数二阶差分绝对值在DDoG金字塔的每一层是否接近零的像素,该算法必须设置适当的阈值; 将DDoG金字塔中每个像素高斯函数二阶差的绝对值与。如果该值小于或等于,则该像素被视为关键点,其位置和比例记录。

显然,阈值的选择非常重要。阈值越大,提取的关键点数量越多。然而,可能会产生一些虚假关键点,导致虚假匹配率增加,计算量增加;阈值越小,提取的关键点数量越少,这不足以反映关键点的分布情况,导致匹配可靠性降低。

为了研究阈值之间的关系以及检测器的性能,我们可以在匹配任务下通过广泛的实验来确定最佳的选择。实验结果如图所示4。这些数字基于一项匹配任务,使用牛津建筑数据集(数据集可在http://www.robots.ox.ac.uk/~vgg/data/oxbuildings/). 我们可以看到,当; 我们设置了在本文中。

3.4. 关键点的精确定位

由于八度音阶和层数有限,先前步骤检测到的极值点不是精确的极值点,而是离散空间的极值点;换句话说,虽然尺度空间是离散的而不是连续的,但我们可以利用对离散空间中已知点的插值来获得连续空间的精确极值点,即Brown和Lowe提出的亚像素插值[26]。本文中,我们可以对DDoG函数进行曲线拟合;拟合函数为二维二次函数:哪里从关键点偏移,即关键点的准确位置。通过求2D函数相对于; 然后将其设置为零,我们可以得到通过替换(8)到(7),给予尤其是,表示距插值中心点的偏移;什么时候大于0.5英寸则意味着插值中心点已移动到其相邻点,因此关键点发生了变化;然后我们可以用插值代替其相邻点,并确保插值的收敛性。除此之外,表示关键点的对比度。为了提高关键点的稳定性,可以去除对比度低的不稳定极值点。本文中,极值点的对比度小于被丢弃,其中是每倍频程的层数。

应该指出,原始SIFT算法对DoG函数使用曲线拟合,拟合函数是3D二次函数。

与原始DoG算法相比,DDoG算法具有更大的优势,可以简化高斯金字塔,提高计算速度。DoG的极限检测在3像素像素三维空间像素;确定每个极值点需要利用金字塔中三层DoG图像的局部信息;零检测只需要在线性空间中进行;每个零实际上只与DDoG金字塔的层图像相关。

根据Lowe的理论,当DoG极值检测的有效层,即能够检测关键点的有效层为三层时,算法的性能最佳,然后每个倍频程包含DoG金字塔中的五层,因此每个倍频段包含对应于LoG金字塔的六层。但零检测只涉及DDoG金字塔中的一层图像,所以每一层都是该金字塔中的有效层。为了保证有三个有效层,DDoG金字塔的每个倍频程应该包含三个层;然后对应DoG的每个八度音阶包含四层,而LoG金字塔中有五层。通过比较可知,当使用DDoG构建高斯金字塔时,每个倍频程可以计算更少的一层高斯滤波器,并且有可能减少四层图像的高斯滤波计算以构建四倍频程高斯金字塔。由于构造了占DoG检测算法总时间70%以上的高斯金字塔,因此该算法可以大大提高速度并降低时间成本。此外,线性空间中零检测的DDoG算法的计算复杂度低于三维空间中的原点算法,这进一步减少了计算时间,提高了算法的实时性。

因此,我们的方法在理论方面的计算复杂度低于原始方法。因为DDoG检测器仍然是DoG检测器的核心,所以匹配性能应该保持不变。

4.基于快速二进制比率的关键点描述符

本文提出了一种计算描述子的新方法。主要动机是寻找关键点周围的一些重要像素,通过在尺度空间中进行某些数据转换,关键点像素值与关键点周围其他像素值的比值将保持不变。灵感来自[112123],我们还建议使用二进制字符串作为关键点描述符,我们称之为FBRK(基于快速二进制比率的关键点)。

4.1. 方向

原始SIFT算法的梯度计算直方图非常耗时。本文提出了一种使描述子具有旋转不变性的新方法。

首先,根据原始希尔伯特曲线,将一维尺度空间转换为二维尺度空间,定义为事实上是高斯平滑2D图像。然后我们可以选择一个33个面片以其尺度空间中的每个关键点为中心,并构造矩阵和矩阵同样大小为3三;矩阵的每个值和矩阵由表示()、和由计算得出(10)如下:哪里是像素值在补丁和是补丁中的最小值和最大值。然后,我们可以计算矩阵如下:其中是两个阈值。

因此,我们可以获得该关键点周围所有像素的二值化。这些二进制值以顺时针顺序形成状态向量。显然有2个8各种状态。但根据某些规则,这些状态可以通过逐位循环移动分为36类。例如,图5显示了两个状态图。

与上两个状态图相对应的两个状态向量可以如图所示进行描述6.

这两个状态向量可以按位循环移动到向量中,如图所示7.

矢量是按位循环移动结果中的最小数字。因此,这两个状态向量对应于相同的状态,这意味着关键点有八个方向。

然后,我们可以根据逐位循环移动的长度来旋转图像,以确保我们在下一步中提出的描述符的旋转不变。

4.2. 特征向量

在缩放空间中旋转图像后,我们可以选择更大的修补程序,例如首先,我们构造一个矩阵和矩阵具有相同大小的补丁;矩阵的每个值和矩阵由表示、和由计算得出(12)如下:哪里是像素值在补丁和是八个相邻像素值之一。然后,我们可以计算比率由(13)哪里是矩阵中关键点对应的像素值.

此外,我们可以计算矩阵如下:因此,我们获得了除了关键点本身之外的关键点周围所有像素的二值化比特串。和矩阵中的二进制位按照一定的规则排序,例如从上到下、从左到右,形成一个特征向量作为描述符。

为了提高尺度不变的性能,我们可以根据与关键点的距离为贴片中的每个像素指定一个权重作为整数。距离越短,权重越大。具体方法是根据二进制位的权重复制二进制位,并将其插入位存储中的原始位置。权重决定复制的二进制位的长度。例如,如果矩阵中有一位为1且其权重为5,将该位复制5次,即11111,并将复制的位插入原始位置。本文考虑了以下权重设置规则:如果像素与关键点相邻,则其权重为5;如果像素与关键点的距离为2像素,则其权重为3;其他的是1。例如,如果,矩阵中每个位的权重如图所示8.

描述子向量之间的相似性可以通过相应二进制向量之间的汉明距离清楚地度量。

在本文中,我们设置并将在实验部分表明,这些参数带来了良好的性能、速度和存储效率。描述符向量的长度为位。

我们的方法在方向分配阶段和关键点描述阶段都使用比率和阈值来获得二进制字符串。但我们在开始时进行了一些数据转换操作,以获得二进制字符串通过使用区间值转换,使得所提出的描述子可以大大降低光照变化的影响。该方法在计算描述符时利用了关键点与其相邻八个像素之间的像素值差,可以有效地减少光照变化的影响。使用阈值可以找到关键点周围的有效像素。为这些重要像素分配适当的权重可以确保所提出的描述符对尺度变化具有更强的鲁棒性。下一节中显示的以下实验结果将证明上述内容。

5.实验结果

我们将检测器和描述符与其他检测器和描述符的性能和速度进行比较。最初的实现用于这些检测器和描述符的比较。实验中使用的数据集为INRIA数据集[19]它包含八组图像,具有针对不同场景类型的五种几何和光度变换,包括视点更改、缩放+旋转、图像模糊、照明更改和JPEG压缩。INRIA数据集位于http://www.robots.ox.ac.uk/~vgg/research/affine/.

为了进行探测器比较,我们选择了以下序列:涂鸦(视点更改),树皮(缩放和旋转),以及鲁汶(照明变化)。我们使用的标准与[21]即重复性得分。重复性得分表示两幅图像中检测到的关键点的平均数量。

该探测器与Mikolajczyk和Schmid提出的DoG探测器、SURF探测器和Harris-Laplace探测器进行了比较[19]。使用所有探测器的默认阈值。除此之外,对于本文报告的所有实验,使用相同的参数,重叠误差固定为40%,并以归一化大小固定为30像素为例。在表中1关键点检测的计算时间涂鸦列出了序列。这些检测器的重复性得分如图所示9如表所示1我们的DDoG探测器比DoG快2倍以上,比Harris-Laplace快5倍,甚至比SURF探测器还要快。同时,我们的探测器的重复性是相当的(船只树皮、和鲁汶)甚至更好(涂鸦)而不是其他人。具体来说,数字9(a)9(c)显示了我们的方法在结构场景方面略优于竞争对手,在纹理场景方面略弱于竞争对手,而Boat序列和Leuven序列的重复性得分对于所有检测器来说都是可比较的。

注意,在本文提到的所有实验中,计算时间都是在Intel Core i5-3230M标准PC上用2.6千兆赫。

对于描述符,我们将我们的方法FBRK与流行的描述符(即SIFT、SURF、BRISK、ORB和FREAK)进行了比较,这些描述符基于使用各自检测器检测到的关键点,但使用SURF检测器的FREAK除外。我们使用识别率在中提出的图像对中[11]量化这些描述符的性能,对于一对图像以及它们之间给定数量的对应关键点;它量化了使用这些描述方法建立正确匹配的频率。此外,我们选择了涂鸦墙壁树皮鲁汶、和联合商业银行用于描述符比较。由于NNDR(最近邻距离比)匹配策略比NN(基于最近邻的)匹配和阈值匹配更具鲁棒性和精度[19]虽然FBRK的性能与这三种策略相当,但图中只显示了NNDR匹配的结果10在本文中。对于这些实验,比率固定为0.7。

为了评估视点改变时图像的性能,我们选择了涂鸦墙壁序列。对于涂鸦顺序(如图所示10(a)),每个描述符的识别率明显呈下降趋势,但SIFT是性能最好的描述符,我们的方法要么和其他描述符一样好,要么稍微好一点。对于墙壁顺序(如图所示10(b))在前三个比较中,六个描述符的性能相似,但在最后两个比较中(即1v5和1v6),SIFT和FBRK优于其他方法。为了评估图像旋转的性能,我们使用具有缩放和旋转变化的序列,序列对于六个描述子来说是具有挑战性的,SIFT优于其他描述子,但我们提出的方法与除SIFT之外的其他竞争对手相当或更好(如图所示10(c)). 为了评估模糊图像的性能,请选择序列,我们的方法是性能最好的描述符,其次是ORB方法(如图所示10(d)). 这可能是因为我们的方法由于应用尺度空间和在描述符向量中分配权重,提供了比所有其他五个描述符更多的独特信息。为了评估光线变化图像的性能,我们选择了鲁汶顺序。对于鲁汶顺序(如图所示10(e)),FBRK优于其他五种方法。发生这种情况可能是因为序列中没有任何旋转变化,并且我们的方法比其他所有五个描述符都具有更强的鲁棒性。同时,我们还通过使用联合商业银行顺序。对于联合商业银行顺序(如图所示10(f))首先是我们提出的方法,其次是ORB和SIFT。原因是序列中没有类似于鲁汶序列,而图像压缩与缩放变化类似,特别是对于关键点周围的区域。

实验结果表明,我们提出的方法在图像模糊、光照和JPEG压缩下具有领先的性能,在视点和尺度变化方面与其他竞争对手相当,而在旋转变化方面,我们的方法略弱于SIFT描述子,优于其他描述子。

同时,表2比较了六种方法的平均运行时间。表中的度量值是在涂鸦作为参考图像和中的其他图像涂鸦。第一行显示计算描述符所需的时间,第二行显示匹配时间。FBRK在描述和匹配方面比其他描述符快得多,甚至比ORB更快。值得注意的是,表中的结果是以毫秒为单位的每个关键点的时间。

6.结论

本文提出了一种新的关键点检测和描述方案。该DDoG检测器通过基于一维图像序列的高斯函数二阶差分逼近DoG检测器,实现了相当大的加速比。提出的关键点描述符在图像模糊、光照和JPEG压缩的这些条件下具有领先的性能,在视点和比例变化方面与其他竞争对手相当,而在旋转变化方面,我们的方法略弱于SIFT描述符,优于其他描述符。我们还证明了我们的描述符往往比其他最先进的描述符更快。

在未来的工作中,我们尚未充分解决的问题之一是,旋转方差的表现仍然不令人满意。这可能是因为每个关键点只指定了八个方向。我们将改进关键点描述符的旋转方差性能,以便在更广泛的情况下与最先进的描述符竞争。

利益冲突

作者声明,本论文的出版不存在利益冲突。

鸣谢

本研究得到了湖南省自然科学基金(no.13JJ6081)、湖南省教育厅科学研究基金(no.14C0598)和中国江苏省高等教育博士研究生创新基金(no.CXZZ13_0658)的资助。