×

高维二进制分类的加权线性规划判别分析。 (英语) Zbl 07260691号

摘要:线性判别分析(LDA)被广泛用于各种二元分类问题。与LDA分别估计分类规则中的精度矩阵(Omega)和平均差向量(delta)不同,线性规划判别(LPD)规则直接通过约束矩阵估计乘积(Omegadelta){l} _1个\)最小化。LPD规则在许多高维二进制分类问题上具有很好的分类性能。然而,为了估计\(\beta^*=\Omega\delta \),LPD规则对约束\(\mathcal{l} _1个\)最小化。它可能无法提供最佳的估计值,因此估计的鉴别方向可能是次优的。为了获得更好的(beta^*)和判别方向的估计,我们可以在约束(mathcal){l} _1个\)如果我们怀疑第(j)个特征对分类是无用的,那么最小化;如果我们怀疑(j)这个特征是有用的,那么适度惩罚(beta{}j)。本文基于LPD规则和一些流行的特征筛选方法,针对高维二进制分类问题,提出了一种新的加权线性规划鉴别(WLPD)规则。边际双样本检验筛选、Kolmogorov-Smirnov滤波器和最大边际似然筛选中使用的筛选统计数据将用于灵活构建不同元素的适当权重。除了线性规划算法外,我们还开发了一种新的交替方向乘法器算法来求解高维约束矩阵{l} _1个\)有效地最小化问题。我们的数值研究表明,我们提出的WLPD规则性能优于LPD,是一种有效的二进制分类工具。

MSC公司:

62至XX 统计
68倍 计算机科学
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] M.Ahdesmäki、V.Zuber、S.Gibb和K.Strimmer。sda:收缩对于结肠癌数据,T-LPD提供低龄判别分析和cat评分变量选择。在使用最少的genespackage版本1.3.7(2015)时,估计错误分类率。(A-LPD方法除外)。T-LPD错误分类6个(共62个)
[2] M.Berkelaar,et al…lpsolve:lp_solve v.5.5的接口,用于解决测试样本,而LPD错误地分类了8个测试样本。线性/整数程序。R包版本5.6.152020。
[3] P.J.Bickel等人,Fisher线性判别式的一些理论·Zbl 1064.62073号
[4] S.Boyd等人,《分布式优化和统计学习》,通过交替方向乘数法,发现Log-LPD方法具有最佳的分类性能。趋势性能。这两个真实的数据例子进一步证明了马赫数。学习。3 (2011), 1-122. 我们提出的WLPD方法在
[5] 蔡涛、刘文华,稀疏线性高维二元分类的直接估计方法。判别分析,美国统计学会106(2011),1566-1577·Zbl 1233.62129号
[6] L.Clemmensen等人,《稀疏判别分析》,《技术计量学》第53期(2011年),第406-413页。
[7] J.Fan和Y.Fan,使用有限元分析进行高维分类·Zbl 1360.62327号
[8] J.Fan等人,《通过非参数和选择维度二进制分类进行特征增强》。高维分类中的提议(粉丝),J.Am.Stat.Assoc.WLPD方法纳入了var-111(2016),275-287中的筛选统计。构造灵活的ios特征筛选程序
[9] J.Fan,Y.Feng,and X.Tong,《在约束的1min高维空间中对不同特征进行权重分类的方法:正则化最优仿射判别法》,J.R.Stat.Soc.:Ser。B(Stat.Methodol.)74(2012年)·Zbl 1411.62167号
[10] J.Fan和J.Lv,超高dimenbias的确定独立筛查。因此,我们提出的WLPD方法可以传递特征空间,J.R.Stat.Soc.:Ser。(Stat.Methodol.)70更好的估计、分类和特征选择依据-(2008),849-911。性能优于LPD。建议的WLPD方法可以是·Zbl 1411.62187号
[11] J.Fan,R.Song,et al.,《线性规划和np维化线性模型有效地实现了一般的确定独立性筛选》,《Ann.Stat.38》(2010),第3567-3604页·Zbl 1206.68157号
[12] J.Friedman、T.Hastie和R.Tibshirani,通过坐标下降法实现广义线性模型的正则化路径,J.Stat.Softw。33 (2010), 1-22.
[13] J.弗里德曼。glmnet:拉索和弹性网正则化广义线性模型。R包版本3.0-22019。
[14] T.Hastie、R.Tibshirani和J.Friedman,《统计学习的要素:数据挖掘、推理和预测》,收录于《统计学中的斯普林格系列》,柏林斯普林格出版社,2009年·Zbl 1273.62005年
[15] J.Huang、S.Ma和C.-H.Zhang,稀疏高维回归模型的自适应套索,《统计》,中国科学院18(2008),1603-1618·Zbl 1255.62198号
[16] Q.Mai和H.Zou,高维二进制分类中用于变量筛选的kolmogorov过滤器,《生物特征100(1)》(2012),229-234·兹比尔1452.62456
[17] Q.Mai、H.Zou和M.Yuan,超高维稀疏判别分析的直接方法,Biometrika 99(1)(2012),29-42·Zbl 1437.62550号
[18] D.Singh等人,《基因表达与前列腺癌临床行为的相关性》,《癌细胞1》(2002),203-209。
[19] M.S.Srivastava和T.Kubokawa,高维数据判别方法的比较,《日本统计学会杂志》37(1)(2007),123-134·Zbl 1138.62361号
[20] R.Tibshirani,《通过套索进行回归收缩和选择》,《皇家统计学会期刊:B辑(方法学)》58(1)(1996),267-288·Zbl 0850.62538号
[21] B.Wang和H.Zou。sdwd:稀疏距离加权鉴别。R包版本1.0.32020。
[22] D.M.Witten和R.Tibshirani,使用Fisher线性判别法进行惩罚分类,J.R.Stat.Soc.:Ser。B(Stat.Methodol.)73(2011年),第753-772页·Zbl 1228.62079号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。