×

集成分位数分类器。 (英语) Zbl 1504.62081号

摘要:基于中位数的分类器和基于分位数的分类器都有助于区分具有重尾或倾斜输入的高维数据。但这些方法受到了限制,因为它们以不规则的方式为每个变量分配了相同的权重。集成分位数分类器是一种更灵活的正则化分类器,在处理高维数据、非对称数据或存在许多无关的外部输入时,可以提供更好的性能。仿真研究和文本分类应用证明了改进的性能。证明了在适当的一般模型假设下,集成分位数分类器的估计参数一致地估计了最小的种群损失。在非对称拉普拉斯分布输入的适当假设下,集成分位数分类器是Bayes最优的。

MSC公司:

62H30型 分类和区分;聚类分析(统计方面)
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Bickel,P.J。;Levina,E.,Fisher线性判别函数的一些理论,“朴素贝叶斯”,以及变量多于观测值时的一些替代方法,Bernoulli,10,6,989-1010(2004)·Zbl 1064.62073号
[2] Breiman,L.,叠加回归,马赫数。学习。,24, 1, 49-64 (1996) ·Zbl 0849.68104号
[3] Breiman,L.,《随机森林》,马赫。学习。,45, 1, 5-32 (2001) ·Zbl 1007.68152号
[4] Cardoso-Cachopo,A.,《改进单标签文本分类方法》(2007年),里斯本技术大学高级技术研究所(Pd.论文)
[5] 克利夫兰,W.S.,《可视化数据》(1993),霍巴特出版社
[6] 科尔特斯,C。;Vapnik,V.,支持向量网络,马赫。学习。,20, 3, 273-297 (1995) ·Zbl 0831.68098号
[7] Dietterich,T.G.,机器学习中的集成方法,(多分类器系统国际研讨会(2000),Springer),1-15
[8] Dudoit,S。;Fridlyand,J。;Speed,T.P.,《利用基因表达数据对肿瘤进行分类的鉴别方法比较》,J.Amer。统计师。协会,97,457,77-87(2002)·Zbl 1073.62576号
[9] 范,J。;Fan,Y.,使用特征退火独立规则的高维分类,Ann.Stat.,36,6(2008)·Zbl 1360.62327号
[10] Feinerer,I.,Hornik,K.,2017年。tm:文本挖掘包。https://CRAN.R-project.org/package=tm。R包版本0.7-3。
[11] 弗伦德,Y。;Schapire,R.E.,《在线学习的决策理论推广及其在助推中的应用》,J.Comput。系统。科学。,55,119-139(1997年)·Zbl 0880.68103号
[12] 弗里德曼,J。;哈斯蒂,T。;Tibshirani,R.,通过坐标下降广义线性模型的正则化路径,J.Stat.Softw。,33, 1, 1-22 (2010)
[13] 霍尔,P。;蒂特林顿,医学博士。;Xue,J.-H.,基于中值的高维数据分类器,J.Amer。统计师。协会,104,488,1597-1608(2009)·Zbl 1205.62078号
[14] 哈斯蒂,T。;Tibshirani,R。;Friedman,J.,《统计学习的要素》(2009),《统计学中的斯普林格系列》。Springer-Verlag:统计学中的Springer系列。纽约斯普林格·弗拉格·Zbl 1273.62005年
[15] Hennig,C。;Viroli,C.,基于分位数的分类器,Biometrika,103,2,435-446(2016)·Zbl 1499.62212号
[16] Hennig,C.,Viroli,C.,2016年b。分位数分类器。https://CRAN.R-project.org/package=quantileDA.R软件包版本1.1。
[17] 詹姆斯·G。;维滕,D。;哈斯蒂,T。;Tibshirani,R.,《统计学习导论》,《统计学中的斯普林格系列》(2013),斯普林格-弗拉格:纽约斯普林格出版社·Zbl 1281.62147号
[18] Joe,H.,基于部分相关性生成随机相关矩阵,J.多元分析。,97, 10, 2177-2189 (2006) ·Zbl 1112.62055号
[19] Koenker,R.,《分位数回归》,《计量经济学社会专题论文》(2005),剑桥大学出版社·Zbl 1111.62037号
[20] Koenker,R。;Bassett,G.,回归分位数,计量经济学,46,1,33-50(1978)·Zbl 0373.62038号
[21] 库恩,M。;Johnson,K.,应用预测模型(2013),Springer·Zbl 1306.62014年
[22] Lai,Y.,McLeod,A.I.,2018年。eqc:集合分位数分类器。https://github.com/CliffordLai/eqc。R软件包版本1.0-5。
[23] Lewis,D.,1997年。路透社-21578文本分类集合发布1.0。
[24] Lior,R.,《集成学习:使用集成方法进行模式分类》(2019年),世界科学出版社
[25] Mason,D.M.,加权多维经验分布的几乎必然界的一些特征和样本分位数的Glivenko-Cantelli定理,Z.Wahrscheinlichkeits理论。Verwandte Geb.公司。,59, 4, 505-513 (1982) ·Zbl 0482.60029号
[26] Meyer,D.,Dimitriadou,E.,Hornik,K.,Weingessel,A.,Leisch,F.,2018年。e1071:概率论小组统计系的杂项职能(原名:e1071),图温。https://CRAN.R-project.org/package=e1071。R包版本1.7-0。
[27] Newbold,P。;Granger,C.W.T.,预测单变量时间序列和预测组合的经验,J.Roy。统计师。Soc.序列号。A、 137、2、131-165(1974)
[28] 纽约州帕克。;Hastie,T.,检测基因相互作用的惩罚逻辑回归,生物统计学,9,1,30-50(2007)·Zbl 1274.62853号
[29] 邱,W.,Joe。,H.,2015年。clustergeneration:随机簇生成(具有指定的分离度)。R包版本1.3.4。
[30] 夏皮雷,R。;Freund,Y.,《Boosting:Foundations and Algorithms》(2012),麻省理工学院出版社·Zbl 1278.68021号
[31] Sebastiani,F.,自动文本分类中的机器学习,ACM计算。调查。,34, 1, 1-47 (2002)
[32] Silver,N.,《信号与噪音》(2012),企鹅出版集团
[33] Tibshirani,R。;哈斯蒂,T。;Narasimhan,B。;Chu,G.,通过最近收缩的质心进行分类预测,并应用于DNA微阵列,统计。科学。,18, 1, 104-117 (2003) ·Zbl 1048.62109号
[34] Ting,K.M。;Witten,I.H.,《叠加泛化问题》,J.Artif。智力。决议,10,271-289(1999)·Zbl 0915.68075号
[35] 韦纳布尔斯,W.N。;里普利,B.D.,《现代应用统计学与S》(2002),施普林格出版社:纽约施普林格·Zbl 1006.62003号
[36] Wolpert,D.H.,叠加泛化,神经网络。,5, 2, 241-259 (1992)
[37] Zhou,Z.-H.,《集成方法:基础和算法》(Ensemble methods:foundations and algorithms)(2012年),查普曼和霍尔/CRC
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。