如前所述,经典LDA要求\({\mathbf{S}}_{w}\)是非奇异的。此外,高维性使得直接矩阵运算非常困难,因此阻碍了中提出的方法的适用性[2].
为了解决这个问题,RLDA添加了一个单位矩阵的倍数γI类内散布矩阵\(\mathbf{宋体}_{w} \)注意正则化参数γ大于零。相应的目标函数和特征值分解问题
$$J_{\mathrm{RLDA}}(\mathbf{w}_{h} )=\frac{\mathbf{w}_{h} ^{T}\mathbf{宋体}_{b} \马特布夫{w}_{h} }{\mathbf}{w}_{h} ^{T}(\mathbf{S}_{w} +\gamma\mathbf{I})\mathbf{w}_{h} }$$
(5)
和
$$(\mathbf{宋体}_{w} +\gamma\mathbf{I})^{-1}\mathbf{宋体}_{b} \马特布夫{w}_{h} =\lambda\mathbf{w}_{h} ●●●●$$
(6)
对于(5)将分数问题转化为微分-凸问题,提出了一种新的带外推的微分-凸算法,有效地解决了该问题。我们构造了一种新形式的RLDA,它带有一个减号运算符,如下所示。在本文中,我们只考虑二分类情况,即。,\(d=1).公式如下:
$$\mathbf{w}^{*}=\underset{\mathbf{w}}{\arg\min}f{宋体}_{b} \mathbf{w}+\lambda\mathbf{w}^{top}\mathbv{宋体}_{w} \mathbf{w}+\gamma\mathbf{w}^{\top}\mathbf1{w}$$
(7)
哪里λ是一个正的调谐参数,并且γ是正正则化参数。
问题的几何解释(7)很清楚。优化的第一项(7)意味着最大化类之间的散布,这迫使来自不同类的数据点尽可能远;而最小化第二项(7)使类内散布尽可能小。第三项是正规化项目,如果\({\mathbf{S}}_{w}\)是非奇异的。
很明显(7)是凸优化问题的光滑差分。针对这个问题,我们提出了一种新的外推DC算法。
继续前进,让
$$g(\mathbf{w})=λ\mathbf{w}^{\top}\mathbf{宋体}_{w} \mathbf{w}+\gamma\mathbf{w}^{\top}\mathbf1{w},\qquad h{宋体}_{b} \mathbf{w}$$
然后\(f({\mathbf{w}})=g({\mathbf{w}}.
显然,\(g(\mathbf{w})\)和\(h({\mathbf{w}})\)是光滑凸函数。动机[4,7],我们引入了一种新的带外推的DC算法来寻找光滑问题的驻点\(f({\mathbf{w}})\).
我们注意到
$$\mathbf{w}^{t+1}=\underset{\overline{\mathbf2{w}}{\arg\min}\biggl\{\lambda\overline{\mathbf{w{}^{\top}\mathbf{宋体}_{w} 上划线{\mathbf{w}}+\gamma\下划线{\mathbf{w}}^{\top}\上划线{\ mathbf}w}}-\bigl\langle2\mathbf{宋体}_{b} {上划线{\mathbf{w}}}^{t},上划线{\tabf{w{}}\bigr\rangle+\frac{L}{2}\bigl\Vert\上划线}-\overline{\tabf{w}{t}\biger\Vert^{2}\biggr\}$$
(8)
那个\(\mathbf{w}^{t+1}\)是强凸函数的全局极小值。
在这个算法中[7],我们设置
$$\beta_{t}=\frac{theta_{t-1}-1}{2\theta{t}}\quad\text{with}\theta_{t+1}=\frac{1+\sqrt{1+4\theta_a{t}^{2}}{2},\theta_1}=\theta_0}=1$$
在下文中,我们证明了算法1的全局子序列收敛结果,并将其应用于求解(7).
定理1
(全局后续收敛)让 \({{\mathbf{w}}^{t}\}\) 是DC算法生成的序列,通过外推进行求解(7).然后以下陈述成立.
(i)序列 \({{\mathbf{w}}^{t}\}\) 是有界的.
(ii)\(\lim_{t\rightarrow\infty}||{\mathbf{w}}^{t+1}-{\mathbf{w{}^{t}||=0\).
(iii)的聚集点 \({{mathbf{w}}^{t}\}\) 是一个静止点(7).
证明
首先我们证明(i)。我们注意到(8)那个\({\mathbf{w}}^{t+1}\)是强凸函数的全局极小值。使用此函数并比较此强凸函数在\({\mathbf{w}}^{t+1}\)和\({\mathbf{w}}^{t}\),我们立即看到
$$\begin{aligned}&g\bigl({\mathbf{w}}^{t+1}\bigr)-\bigl\langle\nabla h\bigl(\overline{\mat血红蛋白{w}{t}\biger),{\mathbf{w{^{t+1}\bigr\rangle+\frac{L}{2}\bigl\ Vert{\mathbf{w}^{t+1}-\overline{\mat乙肝{w}^{t}\bigr\Vert^{2}\\&\quad\leq g\bigl,{\mathbf{w}}^{t}\bigr\rangle+\frac{L}{2}\bigl\Vert{\mathbf{w{}}^{t}(t)-\上划线{\mathbf{w}}^{t}\bigr\Vert^{2}-\frac{L}{2}\bigl\Vert{\mathbf{w}}^{t+1}-{\mat血红蛋白{w}{^{t}\bigr\Vert^{2}。\结束{对齐}$$
(9)
那么我们有
$$\开始{对齐}&f\bigl({\mathbf{w}}^{t+1}\bigr}}^{t+1}-\上划线{\mathbf{w}}^{t}\bigr\rangle\\&\quad\leq g\bigl\bigr)-\bigl\langle\nabla h\bigl(上划线{\mathbf{w}}^{t}\bigr^{t}(t)-\overline{\mathbf{w}}^{t}\bigr\rangle+\frac{L}{2}\bigl\Vert{\mathbf{w{}}^{t}(t)-\上划线{\mathbf{w}}^{t}\bigr\Vert^{2}-\压裂{L}{2}\bigl\Vert{\mathbf{w}}^{t+1}-{\mathbf{w{}^{t}\bigr\Vert^{2}\\&\quad\leq g\bigl^{t}(t)-\上划线{\mathbf{w}}^{t}\bigr\Vert^{2}-\frac{L}{2}\bigl\Vert{\mathbf{w}}^{t+1}-{\mathbf{w}}^{t}\bigr\Vert ^{2}\&&\quad\leq f\bigl({\mathbf{w}}^{t}\bigr)+L\bigl\Vert{\mathbf{w}}^{t}(t)-\上划线{\mathbf{w}}^{t}\bigr\Vert^{2}-\frac{L}{2}\bigl\Vert{\mathbf{w}}^{t+1}-{\mathbf{w}}^{t}\bigr\Vert ^{2},\end{aligned}$$
(10)
其中第一个不等式来自于\(h({\mathbf{w}})\),第二个不等式来自(9),第三个不等式来自以下事实∇小时Lipschitz连续,模量为\(L>0\)。现在,调用\(上划线{\mathbf{w}}\),我们进一步从(10)那个
$$f\bigl({\mathbf{w}}^{t+1}\bigr)\leqf\bigle^{t}(t)-{\mathbf{w}}^{t-1}\bigr\垂直^{2}-\frac{L}{2}\bigl\Vert{\mathbf{w}}^{t+1}-{\mathbf{w}}^{t}\bigr\Vert ^{2}$$
(11)
因此,根据重新安排的条款
$$\开始{aligned}L\biggl(\frac{1}{2}-\beta{t}^{2}\biggr)\bigl\Vert{\mathbf{w}}^{t}(t)-{\mathbf{w}}^{t-1}\bigr\Vert^{2}\leq{}&\biggl[f\bigl^{t}(t)-{\mathbf{w}}^{t-1}\bigr\Vert^{2}\biggr]\\&{}-\biggl[f\bigl({\mat血红蛋白{w}{^{t+1}\biger)+\frac{L}{2}\bigl\Vert{\mathbf{w{}^{t+1}-\mathbf{w}}^{t}\biger\Vert#2}\biggr]。\结束{对齐}$$
(12)
自\({\beta_{t}\}\subset[0,\frac{1}{2}),我们根据(12)序列
$$\biggl\{f\bigl({\mathbf{w}}^{t}\bigr)+\frac{L}{2}\bigl\Vert{\mat血红蛋白{w}^{t}(t)-{\mathbf{w}}^{t-1}\bigr\Vert^{2}\biggr\}$$
没有增加。这与事实\({\mathbf{w}}^{0}={\ mathbf}w}}^{-1}\)给予
$$f\bigl({\mathbf{w}}^{t}\bigr)\leqf\bigle^{t}(t)-{\mathbf{w}}^{t-1}\bigr\Vert^{2}\leqf\bigl({\mat血红蛋白{w}{0}\biger)$$
为所有人\(t\geq 0\),这表明\({{\mathbf{w}}^{t}\}\)是有界的。这证明了(i)。
接下来我们证明(ii)。求两边的总和(12)来自\(t=0)到∞,我们得到
$$\开始{对齐}&L\sum_{t=0}^{\infty}\biggl(\frac{1}{2}-\beta{t}^{2}\biggr)\bigl\Vert{\mathbf{w}}^{t}(t)-{\mathbf{w}}^{t-1}\bigr\Vert^{2}\\&\quad\leqf\bigl hbf{w}}^{t}\bigr\Vert^{2}\biggr]\\&\quad\leq f\bigl({\mathbf{w}}^{0}\biger)-v<\infty。\结束{对齐}$$
自\(\sup{\beta{t}}<\frac{1}{2}\),我们立即从上述关系中推断出
$$\lim_{t\rightarrow\infty}\bigl\Vert{\mathbf{w}}^{t+1}-{\mat血红蛋白{w}{^{t}\bigr\Vert=0$$
这证明了(ii)。
最后,让\({\mathbf{w}}^{*}\)是…的积累点\({{mathbf{w}}^{t}\}\)然后让\({{\mathbf{w}}^{t{i}})是这样的子序列\(\lim_{i\rightarrow\infty}{\mathbf{w}}^{t{i}}={mathbf}w}}^{*}\)然后,从子问题的一阶最优性条件出发(8),我们有
$$-L\bigl({\mathbf{w}}^{t_{i}+1}-\overline{\mathbf{w{}}^}{t_{i}}\bigr)=\nabla g\bigle$$
结合以下事实\(上划线{\mathbf{w}}^{t{i}}={\mathbf{w{}}^}{t{i}}+\beta{t{i}}_{i} -1个} )\),我们进一步得到
$$-L\bigl[\bigl({\mathbf{w}}^{t_{i}+1}-{\mathbf{w{}}^}{t{i}}\bigr)-\beta_{t_{i}}\bigl_{i} -1个}\biger)\bigr]=\nabla g\bigl({\mathbf{w}}^{t{i}+1}\bigr)-\nabla-h\bigle(\overline{\mathbf{w{}}^{t{i}}\bicr)$$
(13)
此外,\(\Vert{\mathbf{w}}^{t_{i}+1}-{\mathbf{w{}^{t_{i}}\Vert\rightarrow0\)(ii)以及∇克和,共∇小时,我们在达到极限时(13)那个
$$0=\nabla g\bigl({\mathbf{w}}^{*}\bigr)-\nabla-h\bigl$$
这就完成了证明。□