跳到主要内容

一种新的凸差分外推法正则化线性判别分析

摘要

本文将经典的线性判别分析(LDA)转化为一个光滑的凸差分优化问题。然后,引入了一种新的带外推的差分凸算法,并证明了该算法的收敛性。最后,对于一个人脸识别问题,与现有的几种算法相比,该算法取得了更好的分类性能。

1引言

降维在模式识别中起着重要的作用,已经得到了广泛的研究。几种DR方法被广泛研究,例如主成分分析(PCA)[6],线性判别分析(LDA)[1]等。其中,LDA是一种强大的特征提取工具,已被广泛研究,包括多模式DR[12],视听语音识别[8],以及图像表示的张量扩展[,11,13]. 在LDA中,维度从d日-维度空间到小时-维度空间(其中\(h<d \)). LDA试图通过最大化类间方差,同时最小化投影空间中的类内方差来找到最佳投影方向。

到目前为止,传统LDA有两个主要问题。首先,类内散射矩阵是奇异的,不能反转。虽然可以使用广义逆来代替,但由于缺乏观测值,估计值将非常不稳定。其次,高维性使得直接矩阵运算变得困难,从而阻碍了该方法的适用性。为了解决奇异性问题,作者[2]给出了一种正则化线性判别分析(RLDA),即添加单位矩阵的倍数γI类内散布矩阵\(\mathbf{宋体}_{w} \).

通过引入稍微有偏的协方差估计,不仅解决了奇异性问题,而且解决了样本协方差估计的稳定性问题。然而,高维矩阵直接运算带来的困难尚未得到解决。

在本文中[2]和[5],我们将LDA转化为一个光滑的凸微分优化问题,引入了一种新的带外推的凸微分算法,并证明了该算法的收敛性。此外,提出的新RLDA可以解决奇异性问题。更重要的是,该算法在计算时间和迭代次数方面具有很大的优势。最后,我们证明了该算法的收敛性,与其他人脸识别算法相比,新的RLDA算法取得了更好的分类性能。

文章结构如下。在Sect。 2,我们回顾了一些有用的符号和定义。在Sect。 给出了新的RLDA,并引入了一种新的带外推的差分-凸算法来求解新的RLDA。然后给出了生成的子序列的收敛性。第节给出了数值结果。 4最后,帮派。 5本文得出结论。

2符号和序言

我们现在定义本文中使用的符号。所有向量都是列向量。给定训练数据集\(T=\{(\mathbf{x}_{1} ,l_{1}),\ldots,(\mathbf{x}_{m} ,l{m})\}\),其中\(\mathbf{x}_{t} \in\mathbb{R}^{n}\)是输入和\(l_{t}\在\{1,\ldots,c\}\中)是相应的标签,\(t=1,\ldots,m\),我们组织矩阵输入\(\mathbf{X}=(\mathbf{x}_{1} ,\ldots,\mathbf{x}_{m} )\in\mathbb{R}^{n\times m}\)假设th类包含\(m{i}\)样品。然后\(sum{i=1}^{c}m{i}=m\).表示\(上划线{\mathbf{x}}{i}\)作为样本的平均值th级和\(上划线{\mathbf{x}}\)作为整个样本集的中心,即,\(\overline{\mathbf{x}}{i}=(1/m{i})\sum{j=1}^{m{i{}}\mathbf{x}_{ij}\)\(\overline{\mathbf{x}}=(1/m)\sum{l=1}^{m}\mathbf{x}_{l} \),其中\(x_{ij}\)j个中的第个元素第个类。基于此,以下矩阵可用于以下分析:

$$\开始{aligned}&\开始{arigned}\mathbf{宋体}_{b} =\frac{1}{m}\sum_{i=1}^{c}m{i}(上划线{\mathbf{x}}_{我}-\上划线()(上划线_{我}-\上划线{\mathbf{x}})^{\top},\end{aligned}\end{aligned}$$
(1)
$$\开始{aligned}&\开始{arigned}\mathbf{宋体}_{w} =\frac{1}{m}\sum_{i=1}^{c}\sum_{j=1}^}m{i}}(\mathbf{x}_{ij}-\上划线{\mathbf{x}}{i})(\mathbf{x}_{i j}-\overline{\mathbf{x}}_{i})^{\top}。\end{aligned}\end{alinged}$$
(2)

对于\(\mathbf{w}\in\mathbb{R}^{n}\)和一个样品\(\mathbf{x}\in\mathbb{R}^{n}\),\(\mathbf{w}^{\top}\mathbf{x}\)地图x个变成一个一维向量。一般来说,如果\(\mathbf{W}=(\mathbf{w}_{1} ,\ldot,\mathbf{w}_{d} )\in\mathbb{R}^{n\times d}\)具有\(d \leq n),那么\(\mathbf{W}^{\top}\mathbf{x}\)映射每个\(\mathbf{x}\in\mathbb{R}^{n}\)d日-维度空间。

作为一种有监督的降维方法,LDA的目标是找到最优的变换向量\(\mathbf{w}_{1} ,\ldots,\mathbf{w}_{d} \),\(数字c-1\)最大化瑞利系数

$$J_{\mathrm{LDA}}(\mathbf{w}_{h} )=\frac{\mathbf{w}_{h} ^{T}\mathbf{宋体}_{b} \马特布夫{w}_{h} }{\mathbf{w}_{h} ^{T}\mathbf{宋体}_{w} \数学BF{w}_{h} }$$
(3)

这样的话\(\mathbf{w}_{h} ^{T}\mathbf{宋体}_{w} \马特布夫{w}_{l} =0\),\(1 \leq l<h \leq d).事实证明()可以归结为以下特征值分解问题:

$$\mathbf美元{宋体}_{b} \马特布夫{w}_{h} =\lambda\mathbf{宋体}_{w} \马特布夫{w}_{h} $$
(4)

哪里\(\mathbf{宋体}_{w} \)是非奇异的,并且\(\lambda\neq 0\).自\(\mathbf{宋体}_{b} \)最多是\(c-1),提取的特征数量小于或等于\(c-1).

新形式RLDA的新DC算法

如前所述,经典LDA要求\({\mathbf{S}}_{w}\)是非奇异的。此外,高维性使得直接矩阵运算非常困难,因此阻碍了中提出的方法的适用性[2].

为了解决这个问题,RLDA添加了一个单位矩阵的倍数γI类内散布矩阵\(\mathbf{宋体}_{w} \)注意正则化参数γ大于零。相应的目标函数和特征值分解问题

$$J_{\mathrm{RLDA}}(\mathbf{w}_{h} )=\frac{\mathbf{w}_{h} ^{T}\mathbf{宋体}_{b} \马特布夫{w}_{h} }{\mathbf}{w}_{h} ^{T}(\mathbf{S}_{w} +\gamma\mathbf{I})\mathbf{w}_{h} }$$
(5)

$$(\mathbf{宋体}_{w} +\gamma\mathbf{I})^{-1}\mathbf{宋体}_{b} \马特布夫{w}_{h} =\lambda\mathbf{w}_{h} ●●●●$$
(6)

对于(5)将分数问题转化为微分-凸问题,提出了一种新的带外推的微分-凸算法,有效地解决了该问题。我们构造了一种新形式的RLDA,它带有一个减号运算符,如下所示。在本文中,我们只考虑二分类情况,即。,\(d=1).公式如下:

$$\mathbf{w}^{*}=\underset{\mathbf{w}}{\arg\min}f{宋体}_{b} \mathbf{w}+\lambda\mathbf{w}^{top}\mathbv{宋体}_{w} \mathbf{w}+\gamma\mathbf{w}^{\top}\mathbf1{w}$$
(7)

哪里λ是一个正的调谐参数,并且γ是正正则化参数。

问题的几何解释(7)很清楚。优化的第一项(7)意味着最大化类之间的散布,这迫使来自不同类的数据点尽可能远;而最小化第二项(7)使类内散布尽可能小。第三项是正规化项目,如果\({\mathbf{S}}_{w}\)是非奇异的。

很明显(7)是凸优化问题的光滑差分。针对这个问题,我们提出了一种新的外推DC算法。

继续前进,让

$$g(\mathbf{w})=λ\mathbf{w}^{\top}\mathbf{宋体}_{w} \mathbf{w}+\gamma\mathbf{w}^{\top}\mathbf1{w},\qquad h{宋体}_{b} \mathbf{w}$$

然后\(f({\mathbf{w}})=g({\mathbf{w}}.

显然,\(g(\mathbf{w})\)\(h({\mathbf{w}})\)是光滑凸函数。动机[4,7],我们引入了一种新的带外推的DC算法来寻找光滑问题的驻点\(f({\mathbf{w}})\).

我们注意到

$$\mathbf{w}^{t+1}=\underset{\overline{\mathbf2{w}}{\arg\min}\biggl\{\lambda\overline{\mathbf{w{}^{\top}\mathbf{宋体}_{w} 上划线{\mathbf{w}}+\gamma\下划线{\mathbf{w}}^{\top}\上划线{\ mathbf}w}}-\bigl\langle2\mathbf{宋体}_{b} {上划线{\mathbf{w}}}^{t},上划线{\tabf{w{}}\bigr\rangle+\frac{L}{2}\bigl\Vert\上划线}-\overline{\tabf{w}{t}\biger\Vert^{2}\biggr\}$$
(8)

那个\(\mathbf{w}^{t+1}\)是强凸函数的全局极小值。

在这个算法中[7],我们设置

$$\beta_{t}=\frac{theta_{t-1}-1}{2\theta{t}}\quad\text{with}\theta_{t+1}=\frac{1+\sqrt{1+4\theta_a{t}^{2}}{2},\theta_1}=\theta_0}=1$$

在下文中,我们证明了算法1的全局子序列收敛结果,并将其应用于求解(7).

算法1
图a

一种新的外推DC算法(\(\mathrm){直流}_{e} \))的(7)

定理1

(全局后续收敛) \({{\mathbf{w}}^{t}\}\) 是DC算法生成的序列,通过外推进行求解(7).然后以下陈述成立.

(i)序列 \({{\mathbf{w}}^{t}\}\) 是有界的.

(ii)\(\lim_{t\rightarrow\infty}||{\mathbf{w}}^{t+1}-{\mathbf{w{}^{t}||=0\).

(iii)的聚集点 \({{mathbf{w}}^{t}\}\) 是一个静止点(7).

证明

首先我们证明(i)。我们注意到(8)那个\({\mathbf{w}}^{t+1}\)是强凸函数的全局极小值。使用此函数并比较此强凸函数在\({\mathbf{w}}^{t+1}\)\({\mathbf{w}}^{t}\),我们立即看到

$$\begin{aligned}&g\bigl({\mathbf{w}}^{t+1}\bigr)-\bigl\langle\nabla h\bigl(\overline{\mat血红蛋白{w}{t}\biger),{\mathbf{w{^{t+1}\bigr\rangle+\frac{L}{2}\bigl\ Vert{\mathbf{w}^{t+1}-\overline{\mat乙肝{w}^{t}\bigr\Vert^{2}\\&\quad\leq g\bigl,{\mathbf{w}}^{t}\bigr\rangle+\frac{L}{2}\bigl\Vert{\mathbf{w{}}^{t}(t)-\上划线{\mathbf{w}}^{t}\bigr\Vert^{2}-\frac{L}{2}\bigl\Vert{\mathbf{w}}^{t+1}-{\mat血红蛋白{w}{^{t}\bigr\Vert^{2}。\结束{对齐}$$
(9)

那么我们有

$$\开始{对齐}&f\bigl({\mathbf{w}}^{t+1}\bigr}}^{t+1}-\上划线{\mathbf{w}}^{t}\bigr\rangle\\&\quad\leq g\bigl\bigr)-\bigl\langle\nabla h\bigl(上划线{\mathbf{w}}^{t}\bigr^{t}(t)-\overline{\mathbf{w}}^{t}\bigr\rangle+\frac{L}{2}\bigl\Vert{\mathbf{w{}}^{t}(t)-\上划线{\mathbf{w}}^{t}\bigr\Vert^{2}-\压裂{L}{2}\bigl\Vert{\mathbf{w}}^{t+1}-{\mathbf{w{}^{t}\bigr\Vert^{2}\\&\quad\leq g\bigl^{t}(t)-\上划线{\mathbf{w}}^{t}\bigr\Vert^{2}-\frac{L}{2}\bigl\Vert{\mathbf{w}}^{t+1}-{\mathbf{w}}^{t}\bigr\Vert ^{2}\&&\quad\leq f\bigl({\mathbf{w}}^{t}\bigr)+L\bigl\Vert{\mathbf{w}}^{t}(t)-\上划线{\mathbf{w}}^{t}\bigr\Vert^{2}-\frac{L}{2}\bigl\Vert{\mathbf{w}}^{t+1}-{\mathbf{w}}^{t}\bigr\Vert ^{2},\end{aligned}$$
(10)

其中第一个不等式来自于\(h({\mathbf{w}})\),第二个不等式来自(9),第三个不等式来自以下事实小时Lipschitz连续,模量为\(L>0\)。现在,调用\(上划线{\mathbf{w}}\),我们进一步从(10)那个

$$f\bigl({\mathbf{w}}^{t+1}\bigr)\leqf\bigle^{t}(t)-{\mathbf{w}}^{t-1}\bigr\垂直^{2}-\frac{L}{2}\bigl\Vert{\mathbf{w}}^{t+1}-{\mathbf{w}}^{t}\bigr\Vert ^{2}$$
(11)

因此,根据重新安排的条款

$$\开始{aligned}L\biggl(\frac{1}{2}-\beta{t}^{2}\biggr)\bigl\Vert{\mathbf{w}}^{t}(t)-{\mathbf{w}}^{t-1}\bigr\Vert^{2}\leq{}&\biggl[f\bigl^{t}(t)-{\mathbf{w}}^{t-1}\bigr\Vert^{2}\biggr]\\&{}-\biggl[f\bigl({\mat血红蛋白{w}{^{t+1}\biger)+\frac{L}{2}\bigl\Vert{\mathbf{w{}^{t+1}-\mathbf{w}}^{t}\biger\Vert#2}\biggr]。\结束{对齐}$$
(12)

\({\beta_{t}\}\subset[0,\frac{1}{2}),我们根据(12)序列

$$\biggl\{f\bigl({\mathbf{w}}^{t}\bigr)+\frac{L}{2}\bigl\Vert{\mat血红蛋白{w}^{t}(t)-{\mathbf{w}}^{t-1}\bigr\Vert^{2}\biggr\}$$

没有增加。这与事实\({\mathbf{w}}^{0}={\ mathbf}w}}^{-1}\)给予

$$f\bigl({\mathbf{w}}^{t}\bigr)\leqf\bigle^{t}(t)-{\mathbf{w}}^{t-1}\bigr\Vert^{2}\leqf\bigl({\mat血红蛋白{w}{0}\biger)$$

为所有人\(t\geq 0\),这表明\({{\mathbf{w}}^{t}\}\)是有界的。这证明了(i)。

接下来我们证明(ii)。求两边的总和(12)来自\(t=0)到∞,我们得到

$$\开始{对齐}&L\sum_{t=0}^{\infty}\biggl(\frac{1}{2}-\beta{t}^{2}\biggr)\bigl\Vert{\mathbf{w}}^{t}(t)-{\mathbf{w}}^{t-1}\bigr\Vert^{2}\\&\quad\leqf\bigl hbf{w}}^{t}\bigr\Vert^{2}\biggr]\\&\quad\leq f\bigl({\mathbf{w}}^{0}\biger)-v<\infty。\结束{对齐}$$

\(\sup{\beta{t}}<\frac{1}{2}\),我们立即从上述关系中推断出

$$\lim_{t\rightarrow\infty}\bigl\Vert{\mathbf{w}}^{t+1}-{\mat血红蛋白{w}{^{t}\bigr\Vert=0$$

这证明了(ii)。

最后,让\({\mathbf{w}}^{*}\)是…的积累点\({{mathbf{w}}^{t}\}\)然后让\({{\mathbf{w}}^{t{i}})是这样的子序列\(\lim_{i\rightarrow\infty}{\mathbf{w}}^{t{i}}={mathbf}w}}^{*}\)然后,从子问题的一阶最优性条件出发(8),我们有

$$-L\bigl({\mathbf{w}}^{t_{i}+1}-\overline{\mathbf{w{}}^}{t_{i}}\bigr)=\nabla g\bigle$$

结合以下事实\(上划线{\mathbf{w}}^{t{i}}={\mathbf{w{}}^}{t{i}}+\beta{t{i}}_{i} -1个} )\),我们进一步得到

$$-L\bigl[\bigl({\mathbf{w}}^{t_{i}+1}-{\mathbf{w{}}^}{t{i}}\bigr)-\beta_{t_{i}}\bigl_{i} -1个}\biger)\bigr]=\nabla g\bigl({\mathbf{w}}^{t{i}+1}\bigr)-\nabla-h\bigle(\overline{\mathbf{w{}}^{t{i}}\bicr)$$
(13)

此外,\(\Vert{\mathbf{w}}^{t_{i}+1}-{\mathbf{w{}^{t_{i}}\Vert\rightarrow0\)(ii)以及和,共小时,我们在达到极限时(13)那个

$$0=\nabla g\bigl({\mathbf{w}}^{*}\bigr)-\nabla-h\bigl$$

这就完成了证明。□

4数值示例

在本节中,给出了实验结果以评估所提方法的性能。几种相关的DR方法,包括RLDA、RSLDA[5]和PDCA[7],被召回进行比较。对于RLDA和RSLDA[5],参数ρλ从中选择\(\{0.1, 0.5, 1, 5, 10\}\)\(\{0.1, 0.5, 1, 5, 10\}\)分别是。我们选择δ对于RSLDA,来自\(\{0.01, 0.05, 0.1, 0.5, 1, 5\}\).对于我们的方法,参数λγ从中选择\(\{0.1, 0.5, 1, 5, 10, 50, 100\}\)\(\{0.01, 0.05, 0.1, 0.5,0.6,0.7,0.8,0.9\}\)分别是。注意,所有方法的参数都是从它们自己的集合中最佳选择的。在Matlab R2018b中,使用Intel(R)、Core(TM)、CPU i7-8550U@1.80GHz和16 GB内存运行Microsoft Windows 10的笔记本电脑进行了数值实验。

为了证明所提方法的有效性,我们基于FERET和ORL中包含的人脸数据集对所提算法进行了测试。FERET数据集包括200张人脸图像,每个人脸有7张不同的图像。每个图像都是\(80乘以80)每像素256个灰度级。ORL数据集包括40张个人的人脸图像,每张脸有10张不同的图像。每个图像都是\(112乘以92)每像素256个灰度级。1和图2显示了FERET和ORL数据库的部分样本面。随机子集\(p(2,3,10))拍摄每个受试者的图像以形成训练集,而其余数据包括测试集。对于每个给定的,考虑了十次随机分裂的平均结果。1和图2显示FERET和ORL数据库中的部分采样面,如下所示。

图1
图1

费雷特

图2
图2

ORL公司

分类精度被用作测试方法性能的指标。表中列出了算法的相应数值结果12分别是。这里,“iter”表示迭代次数,时间以秒为单位,“tnr”表示分类精度。

表1 FERET数据的数值结果
表2 ORL数据的数值结果

从表中可以很容易地看到1和表2提出的算法1比RSLDA和RLDA需要更少的迭代次数和更少的计算时间才能获得更高的精度。此外,我们在图中显示了降维和分类精度之间的关系从图中,我们可以看到,对于所有方法,精度总体上都随着降维的增加而呈上升趋势。算法1更优越。

图3
图3

The trajectories of\(tnr\)关于不同简化维度的数据库

5结论

本文提出了一种新的RLDA。针对光滑DC问题,引入了一种新的外推DC算法,并给出了该算法的收敛性。数值结果表明,与现有的人脸识别算法相比,该算法具有更好的分类性能。将来,我们可以考虑RLDA在最优控制等方面的一些更实际的应用[9,10].

数据和材料的可用性

用于支持本研究结果的数据可向相应作者索取。

工具书类

  1. Fukunaga,K.:《统计模式识别导论》,第2版。纽约学术出版社(1991)

    数学 谷歌学者 

  2. Guo,Y.,Hastie,T.,Tibshirani,R.:正则化判别分析及其在微阵列中的应用。模式识别。8(1), 86–100 (2003)

    数学 谷歌学者 

  3. Huang,R.,Liu,C.,Zhou,J.:联合判别分析\(L_{2,1}\)-用于图像分类的保范数稀疏张量嵌入。J.视觉。Commun公司。图像表示。47, 10–22 (2017)

    第条 谷歌学者 

  4. Le Thi,H.A.,Pham Dinh,T.,Muu,L.D.:利用D.C.优化算法对有效集进行优化的数值解。操作。Res.Lett公司。19(3), 117–128 (1996)

    第条 数学科学网 数学 谷歌学者 

  5. Li,C.N.,Shao,Y.H.,Yin,W.,Liu,M.Z.:通过交替方向乘数法进行稳健和稀疏线性判别分析。IEEE传输。神经网络。学习。系统。31(3), 915–926 (2019)

    第条 谷歌学者 

  6. Turk,M.,Pentland,A.:识别特征脸。J.认知。神经科学。(1), 71–86 (1991)

    第条 谷歌学者 

  7. Wen,B.,Chen,X.,Pong,T.K.:带外推的近似凸差分算法。计算。优化。申请。69(2), 297–324 (2018)

    第条 数学科学网 数学 谷歌学者 

  8. Zeiler,S.、Nicheli,R.、Ma,N.、Brown,G.J.、Kolossa,D.:使用噪声自适应线性判别分析的稳健视听语音识别。In:程序。IEEE国际Conf.Acust。,语音信号处理,第2797–2801页(2016)

    谷歌学者 

  9. Zhang,X.,Wang,T.:基于分布式流量监控的弹性可靠带宽预留。IEEE传输。平行配送系统。33(12), 4563–4580 (2022).https://doi.org/10.109/TPDS.2022.3196840

    第条 谷歌学者 

  10. Zhang,X.,Wang,Y.,Geng,G.,Yu,J.:软件定义网络中的延迟优化多播树打包。IEEE传输。服务。计算。16(1), 261–275 (2021).https://doi.org/10.109/TSC.2021.3106264

    第条 谷歌学者 

  11. Zhang,Z.,Chow,W.S.:张量局部线性判别分析。IEEE信号处理。莱特。18(11), 643–646 (2011)

    第条 谷歌学者 

  12. Zhang,Z.,Zhao,M.,Chow,T.W.S.:多模态降维的约束大边界局部投影算法和扩展。模式识别。45(12), 4466–4493 (2012)

    第条 数学 谷歌学者 

  13. Zhao,J.,Shi,L.,Zhu,J.:二维数据的两阶段正则化线性判别分析。IEEE传输。神经网络。学习。系统。26(8), 1669–1681 (2015)

    第条 数学科学网 谷歌学者 

下载参考资料

致谢

作者非常感谢审稿人提出的几点宝贵而有益的意见、建议和问题,这些都有助于将论文改进为目前的形式。

基金

本研究得到了中国自然科学基金(1207124912071250)和山东省杰出青年基金(ZR2021JQ01)的资助。

作者信息

作者和附属机构

作者

贡献

所有作者对这项工作的贡献都是平等的。所有作者都阅读并批准了最后的手稿。

通讯作者

与的通信王文杰.

道德声明

竞争性利益

作者声明没有相互竞争的利益。

其他信息

出版商备注

Springer Nature在公布的地图和机构关联中的管辖权主张方面保持中立。

权利和权限

开放式访问本文是根据Creative Commons Attribution 4.0国际许可证授权的,该许可证允许以任何媒体或格式使用、共享、改编、分发和复制,只要您对原始作者和来源给予适当的信任,提供指向Creative Commons许可证的链接,并指出是否进行了更改。本文中的图像或其他第三方材料包含在文章的Creative Commons许可证中,除非材料的信用额度中另有说明。如果文章的知识共享许可证中没有包含材料,并且您的预期用途不被法律法规允许或超出了允许的用途,则您需要直接获得版权所有者的许可。要查看此许可证的副本,请访问http://creativecommons.org/licenses/by/4.0/.

转载和许可

关于本文

检查更新。通过CrossMark验证货币和真实性

引用这篇文章

Wang,C.,Wang,W.&Li,M.通过一种新的凸差分算法进行正则化线性判别分析。J不平等申请 2023, 90 (2023). https://doi.org/10.1186/s13660-023-03001-4

下载引文

  • 收到:

  • 认可的:

  • 出版:

  • 内政部:https://doi.org/10.1186/s13660-023-03001-4

数学学科分类

关键词