摘要

降维对于理解高维数据中隐藏的内在结构至关重要。近年来,稀疏表示模型在维数约简中得到了广泛的应用。本文提出了一种新的监督学习方法,称为稀疏保持鉴别投影(SPDP)。SPDP是流形学习和稀疏表示的结合体,它试图保持数据的稀疏表示结构,同时最大化类间可分性。具体来说,SPDP首先通过逐类PCA分解创建级联字典,并使用最小二乘法学习所构建字典下每个样本的稀疏表示结构。其次,定义了局部类间可分性函数来表征样本在不同子流形中的分散性。然后,SPDP将学习到的稀疏表示信息与局部类间关系相结合,构造一个判别函数。最后,将该方法转化为广义特征值问题。在几个流行人脸数据库上的大量实验结果证明了该方法的可行性和有效性。

1.简介

在许多领域,如物体识别[1,2],文本分类[]和信息检索[4],数据通常以高维形式提供;这使得描述、理解和识别这些数据变得困难。降维作为一种有效的方法,在实践中被广泛应用于处理这些问题[58]. 到目前为止,已经设计了多种降维算法。根据使用的数据结构,这些方法分为三类:基于全局结构的方法、基于局部邻域的方法和基于稀疏表示的方法。

主成分分析(PCA)[9],线性判别分析(LDA)[10],其内核化版本是典型的基于全局结构的方法[11,12]. PCA方法以最大化投影数据方差为目标,具有简单有效的特点,在科学和工程领域有着广泛的应用;然而,它没有利用样本的标签信息,导致分类效率低下。与主成分分析不同,LDA是一种有监督的方法,它试图通过最大化类间散布,从而最小化类内散布来确定最佳投影。由于充分利用了标签信息,LDA在分类方面已被证明比PCA更有效[13]. 然而,LDA最多只能提取功能(是类别数),这在许多情况下是不可接受的。此外,PCA和LDA都基于这样的假设,即每个类的样本位于线性子空间上[14,15]; 也就是说,它们都不能识别隐藏在高维数据中的局部子流形结构。

最近,人们提出了流形学习方法,这种方法特别适用于分析位于原始空间子流形上的数据[1626]. 典型的流形学习方法包括Isomap[16],拉普拉斯特征映射(LE)[17]和局部线性嵌入(LLE)[18]. 所有这些非线性方法都能够通过求解基于权重图问题的优化问题来发现最优特征子空间;然而,它们都无法克服“样本不足”的问题[19]. 也就是说,它们生成的映射仅在训练数据点上进行描述,但如何评估新测试数据点上的映射仍不清楚。为了解决这个问题,Cai等人分别开发了上述流形学习方法的线性视觉,如等距投影[20],位置保持投影(LPP)[21]和邻里保护嵌入(NPE)[22]. 然而,这些方法有一个局限性,即它们不编码鉴别信息,这对于识别任务非常重要。最近,Gui等人提出了一种新的监督学习算法,称为局部保持鉴别投影(LPDP),以提高LPP的分类性能,并将其应用于人脸识别[26]. 实验结果表明,LPDP比LPP更适合于识别任务。

稀疏表示作为最新的信号表示技术的一个新分支,引起了广泛的研究兴趣[2738]. 它试图在低维嵌入子空间中保持样本的稀疏表示结构。基于稀疏表示的典型降维算法包括稀疏保持投影(SPP)[39],稀疏性保持判别分析(SPDA)[40],稀疏表示投影判别学习(DLSP)[41],稀疏张量判别分析(STDA)[42],和稀疏非负矩阵分解[43]. 值得注意的是,稀疏模型也依赖于子空间假设:每个样本可以由同一类的其他样本线性表示;也就是说,每个样本都可以由所有类的样本稀疏地恢复。一般来说,与条件方法相比,这些稀疏学习算法提供了优越的识别精度。然而,所有这些基于上述稀疏编码的降维方法都需要解决范数最小化问题来构造稀疏权重矩阵。因此,它们在计算上不适用于大规模问题。例如,SPP试图保留数据的稀疏重建关系[39]这是一种有效而强大的降维技术。然而,SPP的计算复杂度过高,因此不能广泛用于大规模数据处理(事实上,构建稀疏权重图的时间成本为,其中表示训练样本的总数)。此外,SPP不吸收标签信息。因此,该算法是无监督的。

基于上述工作,本文提出了一种新的监督学习方法,称为稀疏保持鉴别投影(SPDP)。通过将SPP与局部判别信息相结合进行降维,SPDP可以被视为稀疏表示和流形学习的结合体。由于稀疏表示可以隐式地发现数据的局部结构,因此可以使用此属性来描述局部结构。然而,与现有的SPP不同,SPP对每个测试样本进行稀疏重建需要花费大量时间,SPDP首先使用类态PCA分解创建一个级联字典,并使用最小二乘法快速学习所构建字典下每个样本的稀疏表示结构。然后,定义了局部类间可分性函数来表征样本在不同子流形中的分散性。随后,通过将稀疏表示信息与局部类间关系相结合,SPDP试图保持数据的稀疏表示结构,同时最大化局部类间可分性。最后,将所提出的方法转化为一个广义特征值问题。

值得强调的是,SPDP的一些优点以及本文的主要贡献:(1)SPDP是一种有监督的降维方法,它试图识别一个保持数据和标签信息稀疏表示结构的识别子空间。同时,最大化了不同子流形的可分性;也就是说,可以更清楚地区分不同的子流形。(2)SPDP能够探索隐藏在高维数据中的局部子流形结构,因为流形学习被用来表征类间的局部可分性。(3)SPDP中提取鉴别向量所需的时间明显少于许多基于稀疏表示的算法。因此,该方法可以广泛应用于大规模问题。(4)SPDP中使用了两次标签信息。首先,它被用于构造稀疏表示字典和计算稀疏系数向量,这可能有助于形成更具区分性的稀疏表示结构。此外,它还用于计算局部类间可分性,这更有利于分类。

本文的其余部分组织如下:第节2简要回顾了现有的SPP算法。第节详细描述了SPDP算法第节介绍了实验结果和分析4论文在第节中以结束语结束5.

2.稀疏保持投影(SPP)简介

SPP旨在保持样本的稀疏重建关系[39]. 给出一组训练样本,其中是训练样本的数量,让是由所有训练样本组成的数据矩阵。SPP首先寻找稀疏重建系数向量对于每个样品通过以下修改最小化问题:哪里是一个-维度列向量,其中th元素等于零,这意味着已从中删除、和元素,,表示用于重建然后,稀疏重构权重矩阵如下所示:哪里是的最佳解决方案(1). 最终最优投影向量通过以下最大化问题得到:具有该问题转化为广义特征值问题。

因此,SPP必须解决耗时的求稀疏权矩阵的范数最小化问题因此,SPP的计算复杂度过高,因此不适用于大规模数据处理。此外,SPP不利用类信息的先验知识,这对于人脸识别等分类和识别问题很有价值。

3.保持稀疏性的歧视性学习

在本节中,将更详细地描述所提出的SPDP算法。减少SPP不可避免要解决的缺点耗时的求稀疏权重矩阵的范数极小化问题SPDP首先通过逐类PCA分解构造级联字典,并使用最小二乘法快速学习所构造字典下每个样本的稀疏表示结构。为了提高鉴别性能,定义了一个局部类间可分性函数来表征样本在不同子流形中的分散性。然后,通过将稀疏表示信息与局部类间关系相结合,SPDP的目标是在不破坏局部性的情况下最大限度地分离子流形(或内在簇),同时保持数据的稀疏表示结构。因此,该算法有望保持固有的几何结构,并具有优越的鉴别能力。

3.1. 构建级联字典

为了方便起见,我们首先提供了本文中使用的一些符号。假设是一组训练样本,其中。我们可以将训练样本分类为,其中()由课堂上的样本组成假设单个类的样本位于线性子空间上。因此,每个样本可以由所有类的样本稀疏线性表示。子空间模型是捕获真实数据集中潜在信息的强大工具[44]. 为了便于PCA分解和相关计算,我们首先将每个类的样本集中在原点,(),其中表示等级平均值; 也就是说,因此,训练样本可以重新定义为之后,对每个(),其目标函数为哪里是的样本协方差矩阵每节课,第一个选择主要组件来构建(事实上,由系统中PCA比率的值自动选择)。因此,一个样本来自班级可以简单地表示为具有.是班级字典通过上述PCA分解,是由所有(),是样本的稀疏表示连接字典下、和是字典下的系数向量事实上,可以通过最小二乘法快速计算为

在上述公式的约简中,利用了同一类PCA分解的每个主成分的正交性。构建连接字典的过程如图所示1.

根据前面的过程,每个训练样本对应于级联字典下的稀疏表示和稀疏系数向量课堂上的任何培训样本可以用最小二乘法快速计算(事实上,这是提议的方法比SPP快得多的主要原因,这将在第节中详细解释4.4)因为计算过程仅涉及,考虑到(5)和(6).

3.2. 保持稀疏表示结构

如第节所示3.1在某种程度上,字典描述了数据的内在几何特性,稀疏系数向量显式编码了训练样本的判别信息。因此,希望原始高维空间中的这一有价值的特性能在低维嵌入子空间中得到保持。因此,目标函数应寻找能最好地保持稀疏表示结构的最佳投影:哪里是对应于.

使用代数运算(7)可以安排为哪里,因此(7)可以简单地重铸为

3.3. 局部类间可分性的表征

为了有效地发现高维数据中嵌入的判别结构并提高分类性能,在本小节中,我们构造了一个局部类间权重图。由于同一类中的数据位于一个或多个子流形上,并且属于不同类的数据分布在不同的子流形上。因此,在分类问题中,区分一个子流形是很重要的。因此,本节定义了局部类间可分性函数来表征不同子流形中样本的可分性。SPDP的目的是在投影后可以更清楚地区分不同的子流形;因此,不同子流形的局部类间可分性应该最大化。因此,我们可以构造一个标签矩阵描述每个点的局部和类间关系如下:哪里表示点之间的测地线距离,是一个参数,通常设置为样本的标准偏差,表示中的索引样本的最近邻,但是使用不同的类标签,以及称为局部类间权重矩阵(或局部类内权重图)。从上述定义中可以看出,如果两个相距点属于不同的子流形,它们的散布较大,反之亦然。也就是说,属于不同子流形的点在投影后应位于更远的位置。因此,局部类间可分性可以表征为以下方程:哪里()是原始数据的低维表示,可以通过投影每个在方向向量上.通过代数简化(11)可以重写为哪里是具有定义的拉普拉斯矩阵是对角矩阵[45]; 也就是说,.方程式(12)表征不同子流形中数据集的可分性(或分散性)。因此,只要最优投影,每个流形都可以清晰地分离采用。

3.4。保持稀疏性的判别投影

为了获得更好的识别结果,我们显式地集成了稀疏性保持约束,如(7)具有局部类间可分性,如(12). 新的监督算法SPDP不仅保留了稀疏表示结构,而且尽可能地分离每个子流形,其定义为其中分母项衡量保留稀疏表示结构和分子项的质量测量不同子流形的可分性。众所周知,LDA的准则是最大化类间散布,同时最小化类内散布。与LDA类似,SPDP的目标是最大化局部类间可分性与稀疏表示权重分散的比率。

出租目标函数可以被重新定义为以下优化问题:那么,最佳的是对应于最大值的特征向量以下广义特征值问题的特征值:

值得注意的是,由于训练样本的大小远小于这些高维数据的特征维数,可能是单数。这个问题可以通过投影训练集来解决在由领先特征向量跨越的PCA子空间上得到和更换通过.

基于上述讨论,在算法中总结了所提出的SPDP1.

算法1(稀疏保持鉴别投影(SPDP))。 我们有以下步骤。
步骤  1对每个对象执行PCA分解()使用(4)获取级联字典.
步骤  2计算系数向量在字典下面对于每个样本,基于(6)获得稀疏系数向量然后计算.
步骤  三。计算由(10)和(12)分别是。
步骤  4用广义特征值问题计算投影向量(16).

4.实验

在本节中,提出的SPDP算法在三个公开可用的人脸数据库(耶鲁大学[13]、ORL[46]和CMU PIE[47])并与六种常用的降维方法——PCA、LDA、LPP、NPE、LPDP和SPP进行了比较。对于PCA,唯一的模型参数是子空间维数,对于LDA,性能直接受到PCA预处理阶段保持的特征值能量的影响。对于LPP和NPE,采用监督版本。特别是,LPP和NPE中的邻居模式被设置为“受监控”;LPP中的权重模式设置为“余弦”。经验确定的参数在LPDP中取1[26],SPP中的设置为0.05,如[39]、和SPDP中设置为样本的标准偏差。最近邻分类器用于预测测试数据的类别。所有实验均使用MATLAB R2013a在Intel(R)Core i7-4770的个人计算机上完成3.50钾GHz CPU,16.0GB主内存和Windows 7操作系统。

4.1. 耶鲁人脸数据库实验

耶鲁人脸数据库包含15个人的165张人脸图像。每个人有11幅图像。这些图像是在不同的面部表情(正常、高兴、悲伤、惊讶、困倦和眨眼)和配置(左光、中光和右光)下收集的,有或没有眼镜。所有图像都被裁剪为然后归一化为单位范数。该数据库中的一些示例如图所示2。对于每个人,(从2到8)个图像随机选择作为训练样本,其余图像作为训练样本用于测试。对于每个,在50个随机分割上对结果进行平均。1给出了七种算法在不同训练集大小下的最佳识别率和相关标准差。3(a)表示最佳识别率与训练集大小的变化。3(b)是当每个类的训练样本大小固定为6时,七种算法在不同降维下的识别率变化规律。LDA维数的上限为(是类别的数量),因为最多有广义非零特征值[13]值得注意;在本文的其他实验中也会出现类似的情况。因此,可以看出SPDP算法明显优于其他方法。

4.2. ORL人脸数据库实验

ORL人脸数据集中有400张40人的图片,每个人有10张不同的图片。这些图像是在不同的时间点、不同的照明条件、不同的面部表情下采集的。在我们的实验中,每个图像都被裁剪为如图所示4。我们随机选择(每个人有2至8张照片供训练使用;剩余部分用于测试。我们重复这些分割50次,并报告平均结果。2显示了七种算法在不同训练集大小下的最佳分类精度;括号中的数字是相应的标准偏差。5(a)表示最佳识别率与训练集大小的变化。5(b)是当每个类的训练样本大小固定为5时,七种算法在不同降维下的识别率变化规律。可以看出,SPDP和LPDP优于其他比较方法(它们在ORL数据库上的性能非常相似),特别是当训练集的大小很小时。原因可能是SPDP和LPDP都考虑了数据的判别信息和局部结构。

4.3. CMU PIE人脸数据库实验

在本小节中,我们验证了该算法在不同的光照、姿态和表情下比其他降维方法获得了更高的分类精度。CMU PIE人脸数据库包含68名受试者的41368张人脸图像,这些图像由13台同步相机和21次不同姿势、光照和表情下的闪光灯拍摄。在我们的实验中,我们选择了五个正面姿势(C05、C07、C09、C27和C29)。这将为每个受试者留下170张人脸图像;所有图像都被裁剪为.图6显示了一个主题的一些图片。随机子集(=)用标签选择每个主题的图片,形成训练集;其余部分用于测试。对于每个给定的,我们平均了50次随机分割的分类精度。在括号内给出了七种算法在不同训练集大小下的最佳识别率和相关标准偏差。7(a)表示最佳识别率与训练集大小的变化。7(b)是当每个类的训练样本大小固定为10时,七种算法在不同降维下的识别率变化规律。我们可以观察到,提出的SPDP在姿势、光照和表情变化方面优于其他降维方法,如PCA、LDA、LPP、NPE、LPDP和SPP。

4.4. 获取SPP和SPDP鉴别向量的时间成本比较

在本小节中,将获取SPDP判别向量的时间成本与SPP表的时间成本进行比较4,5、和6列出获取SPP和SPDP判别向量的平均时间成本与三个人脸数据集上不同大小的训练集的时间成本。在我们的实验中,SPDP在获取嵌入函数方面明显快于SPP,特别是在大规模问题(如CMU PIE)中。

上述现象的关键因素是SPP和SPDP获得稀疏表示结构的方法完全不同。在SPP中,耗时的构造稀疏权重矩阵需要解决范数最小化问题,其计算成本为[48,49]而SPDP可以通过以下方式显著更快地实现这一目标PCA分解和最小二乘法。因为PCA分解可以在中完成根据更有效的算法[50],学习每个样本的稀疏系数向量的时间成本(仅涉及最小二乘法)为和稀疏权重矩阵可以使用计算; SPDP学习稀疏表示结构的计算复杂性为一般来说,,、和; 因此,如表所示,SPDP的执行速度比SPP快得多4,5、和6.

4.5. 总体观察和讨论

从上述实验结果可以得到一些观察和分析。(1)从表格1,2、和和数字3(a),5(a)、和7(a),我们可以得出结论,所提出的算法始终优于其他比较方法,尤其是在训练数据数量特别少的情况下。原因是SPDP同时考虑了稀疏表示结构和不同子流形的可分性。此外,这表明与其他比较方法相比,SPDP可以捕获隐藏在数据中的更多固有信息。(2)从数字3(b),5(b)、和7(b)可以看出,SPDP实现最佳识别率的约简维数小于其他比较算法。这在获得最佳嵌入函数后节省了大量时间和存储空间。(3)从表格4,5、和6结果表明,SPDP在获得鉴别矢量方面比SPP快得多。这是因为SPDP用于学习稀疏表示结构的方法比第节中分析的SPP更有效4.4.

5.结论

将流形学习和稀疏表示相结合,提出了一种新的监督学习方法,称为稀疏保持鉴别投影(SPDP)。具体来说,SPDP首先通过逐类PCA分解构造级联字典,并使用最小二乘法快速学习所构造字典下每个样本的稀疏表示结构。然后,定义了一个局部类间可分性函数来表征不同子流形中样本的可分性。随后,SPDP将稀疏表示信息与局部类间关系相结合。因此,SPDP保留了数据的稀疏表示结构,同时最大化了局部类间可分性。最后,将该方法转化为广义特征值问题。在三个公开可用的人脸数据集上进行的大量实验证实了所提出的SPDP方法的良好性能。

利益冲突

作者声明,本论文的出版不存在利益冲突。

致谢

本研究得到国家自然科学基金(611030701130226)的资助;浙江省自然科学基金项目(LQ13A010017);同济大学青年优秀人才项目(2013KJ008)。