×

基于惩罚距离准则分类器的同时变量选择和类融合。 (英语) Zbl 1507.62154号

摘要:提出了两种新的方法来解决构造多类分类器的问题,即选择重要的分类变量,并在高维环境中同时确定每对类的相应判别变量。与现有的基于精度矩阵和平均向量单独估计的方法不同,本文提出的方法通过直接估计精度矩阵和均值向量的乘积或所有判别方向的乘积来构造分类器,并进行适当的惩罚。这导致使用距离标准,而不是现有文献中使用的对数似然。所提出的方法不仅能够一致地选择重要的分类变量,而且能够一致地确定每对类对应的判别变量。对于多类分类问题,用所提出的方法构造的分类器的条件误分类错误率在概率上收敛于Bayes规则的误分类错误速率,并获得了收敛速度。最后,仿真和实际数据分析很好地证明了所提出的方法与现有方法相比具有良好的性能。

MSC公司:

62-08 统计问题的计算方法
62H30型 分类和区分;聚类分析(统计方面)
2012年12月62日 参数估计量的渐近性质
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Bickel,P.J。;Levina,E.,fisher线性判别函数的一些理论,“朴素贝叶斯”,以及变量多于观测值时的一些替代方法,Bernoulli,10,6,989-1010(2004)·Zbl 1064.62073号
[2] Cai,T.T。;Liu,W.,稀疏线性判别分析的直接估计方法,J.Amer。统计师。协会,106,496,1566-1577(2011)·Zbl 1233.62129号
[3] 崔,H。;李,R。;Zhong,W.,超高维判别分析的无模型特征筛选,J.Amer。统计师。协会,110,510,630-641(2015)·兹比尔1373.62305
[4] 范,J。;Fan,Y.,使用特征退火独立规则的高维分类,Ann.Statist。,36, 6, 2605-2637 (2008) ·Zbl 1360.62327号
[5] 范,J。;Feng,Y。;Tong,X.,高维空间中的分类之路:正则化最优仿射判别式,J.R.Stat.Soc.Ser。B统计方法。,74, 4, 745-771 (2012) ·Zbl 1411.62167号
[6] 范,J。;Li,R.,通过非冲突惩罚似然进行变量选择及其预言性质,J.Amer。统计师。协会,96,456,1348-1360(2001)·Zbl 1073.62547号
[7] Guo,J.,高维线性判别分析的同时变量选择和类融合,生物统计学,11,4,599-608(2010)·Zbl 1437.62480号
[8] 郭杰。;Levina,E。;Michailidis,G。;Zhu,J.,基于高维模型聚类的成对变量选择,生物统计学,66,3,793-804(2010)·Zbl 1203.62190号
[9] 郝,N。;Dong,B。;Fan,J.,通过旋转稀疏化fisher线性判别式,J.R.Stat.Soc.Ser。B统计方法。,77, 4, 827-851 (2015) ·Zbl 1414.62244号
[10] Hoshida,Y。;布鲁内特,J。;Tamayo,P。;Golub,T.R。;Mesirov,J.P.,《子类映射:识别独立疾病数据集中的常见亚型》,《公共科学图书馆·综合》,第2期,第11期(2007年)
[11] 黄,J。;马,S。;谢浩。;Zhang,C.,变量选择的群桥方法,Biometrika,96,2,339-355(2009)·Zbl 1163.62050
[12] 卡拉克,M。;斯科托,L。;Marchi,E。;Amengual,J.E。;Seshan,V.E。;巴加特,G。;北乌拉汉南。;Leshchenko,V.V。;Temkin,A。;Parekh,S.、Hdac抑制剂和dectabine具有高度协同作用,并与dlbcl、Blood、118、20、5506-5516(2011)模型中的独特基因表达和表观遗传学特征相关
[13] Khan,J。;Wei,J.S.(魏建新)。;林格纳,M。;萨尔·L·H。;拉达尼,M。;韦斯特曼,F。;Berthold,F。;施瓦布,M。;Antonescu,C.R。;Peterson,C.,《利用基因表达谱和人工神经网络对癌症进行分类和诊断预测》,《自然医学》,7,6,673-679(2001)
[14] 李,R。;钟伟。;Zhu,L.,通过距离相关学习进行特征筛选,J.Amer。统计师。协会,1074991129-1139(2012)·Zbl 1443.62184号
[15] Mai,Q。;Yang,Y。;邹,H.,多类稀疏判别分析,统计学。中国科学院(2017)
[16] Mai,Q。;Zou,H.,融合kolmogorov滤波器:一种非参数无模型筛选方法,Ann.Statist。,43, 4, 1471-1497 (2015) ·Zbl 1431.62216号
[17] Mai,Q。;邹,H。;Yuan,M.,超高维稀疏判别分析的直接方法,Biometrika,99,1,29-42(2012)·Zbl 1437.62550号
[18] 蒙蒂,S。;Savage,K.J。;库托克,J.L。;Feuerhake,F。;Kurtin,P.J。;米姆,M.C。;吴,B。;Pasqualucci,L。;Neuberg,D。;Aguiar,R.C.T.,《弥漫性大b细胞淋巴瘤的分子剖析》,《血液》,105,5,1851-1861(2005)
[19] 潘,R。;Wang,H。;Li,R.,通过成对确定独立性筛选的超高维多类线性判别分析,J.Amer。统计师。协会,111,513,169-179(2016)
[20] 邵,J。;Wang,Y。;邓,X。;王珊,高维数据的阈值稀疏线性判别分析,Ann.Statist。,39, 2, 1241-1265 (2011) ·Zbl 1215.62062号
[21] Tibshirani,R。;哈斯蒂,T。;Narasimhan,B。;Chu,G.,通过基因表达的收缩质心诊断多种癌症,Proc。国家。阿卡德。科学。美国,99,10,6567-6572(2002)
[22] 筑屋,H。;Iseda,T。;Hino,O.,结合von hippel-lindau(vhl)抑癌基因产物的新蛋白(vbp-1)的鉴定,《癌症研究》,56,13,2881-2885(1996)
[23] Witten,D.M。;Tibshirani,R.,使用fisher线性判别法进行惩罚分类,J.R.Stat.Soc.Ser。B统计方法。,73, 5, 753-772 (2011) ·Zbl 1228.62079号
[24] 徐,P。;朱,J。;朱,L。;Li,Y.,协方差增强判别分析,Biometrika,102,1,33-45(2015)·Zbl 1345.62091号
[25] Zhang,C.,极小极大凹罚下的近似无偏变量选择,Ann.Statist。,38, 2, 894-942 (2010) ·Zbl 1183.62120号
[26] Zou,H.,《自适应套索及其预言属性》,J.Amer。统计师。协会,101,476,1418-1429(2006)·Zbl 1171.62326号
[27] 邹,H。;Hastie,T.,通过弹性网的正则化和变量选择,J.R.Stat.Soc.Seri。B统计方法。,67, 2, 301-320 (2005) ·Zbl 1069.62054号
此参考列表基于出版商或数字数学图书馆提供的信息。它的项目与zbMATH标识符启发式匹配,并且可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。