×

用于高维低样本量分类的随机森林内核。 (英文) 兹比尔1523.62007

摘要:在机器学习的实际应用中,高维、低样本(HDLSS)问题数量众多。从医学图像到文本处理,传统的机器学习算法通常无法从这些数据中学习尽可能好的概念。在之前的工作中,我们提出了一种基于差异的多视图分类方法,即随机森林差异,该方法可以为此类问题提供最新的结果。在这项工作中,我们将该方法的核心原理转换为解决HDLSS分类问题,使用RF相似性度量作为学习的预计算SVM核(RFSVM)。我们表明,这种学习过的相似性度量特别适合于这种分类上下文,并且非常准确。在40个公共HDLSS分类数据集上进行的实验表明,在大多数HDLSS问题上,RFSVM方法优于现有方法,同时在低或非HDLSS的问题上仍具有很强的竞争力。

MSC公司:

62-08 统计问题的计算方法
62H30型 分类和区分;聚类分析(统计方面)
68T05型 人工智能中的学习和自适应系统
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Benavoli,A。;Corani,G。;德姆沙尔,J。;Zaffalon,M.,《改变的时间:通过贝叶斯分析比较多个分类器的教程》,J.Mach。学习。决议,18,77,1-36(2017)·Zbl 1440.62237号
[2] Bergstra,J.,Bardenet,R.,Bengio,Y.,Kégl,B.:超参数优化算法。摘自:第24届神经信息处理系统国际会议论文集。NIPS’11,第2546-2554页。Curran Associates Inc.,Red Hook(2011年)
[3] Bergstra,J.、Yamins,D.、Cox,D.D.:建立模型搜索科学:视觉架构的数百维超参数优化。摘自:第30届国际机器学习会议论文集。ICML'13,第28卷,第115-123页(2013)
[4] Breiman,L.,《随机森林》,马赫。学习。,45, 1, 5-32 (2001) ·Zbl 1007.68152号 ·doi:10.1023/a:1010933404324
[5] Cao,H.,Bernard,S.,Sabourin,R.,Heutte,L.:一种新的多视角学习随机森林差异性度量。摘自:2020年第25届模式识别国际会议(ICPR),第1344-1351页(2021年)。doi:10.1109/ICPR48806.2021.9412961
[6] 曹,H。;Bernard,S。;Heutte,L.公司。;萨博林,R。;Bai,X。;ER汉考克;Ho,TK;威尔逊,RC;比吉奥,B。;Robles-Kelly,A.,辐射学应用的多视图学习中的动态投票,结构、句法和统计模式识别,32-41(2018),Cham:Springer,Cham·数字对象标识代码:10.1007/978-3319-97785-04
[7] 曹,H。;Bernard,S。;Sabourin,R。;Heutte,L.,《辐射学应用中基于随机森林差异的多视图学习》,模式识别。,88, 185-197 (2019) ·doi:10.1016/j.patcog.2018.11.011
[8] Chen,T.,Guestrin,C.:XGBoost:一个可扩展的树木提升系统。摘自:第22届ACM SIGKDD知识发现和数据挖掘国际会议记录,第785-794页。ACM,纽约(2016)。doi:10.1145/2939672.29339785
[9] 科尔特斯,C。;Vapnik,V.,支持向量网络,马赫。学习。,20, 3, 273-297 (1995) ·Zbl 0831.68098号 ·doi:10.1007/bf00994018
[10] 德索托,M。;科斯塔,I。;Araujo,D。;Ludermir,T。;Schliep,A.,《聚类癌症基因表达数据:比较研究》,BMC Bioninform。(2008) ·doi:10.1186/1471-2105-9-497
[11] Deegalla,S.,Bostrom,H.:通过主成分分析与最近邻分类的随机投影来减少高维数据。摘自:2006年第五届机器学习与应用国际会议(ICMLA'06),第245-250页(2006)。doi:10.1109/CIMLA.2006.43
[12] Demšar,J.,多数据集上分类器的统计比较,J.Mach。学习。第7、1、1-30号决议(2006年)·Zbl 1222.68184号
[13] 迪亚兹·乌里亚特,R。;de Andrés,SA,基因选择和使用随机森林的微阵列数据分类,BMC生物信息。,7, 3, 1-13 (2006)
[14] 多梅尼科尼,C。;Peng,DGJ,大边距最近邻分类器,IEEE Trans。神经网络。,16, 4, 899-909 (2005) ·doi:10.1109/TNN.2005.849821
[15] Dua,D.,Graff,C.:UCI机器学习库(2017)。网址:http://archive.ics.uci.edu/ml
[16] 杜塔,S。;Ghosh,AK,关于最近邻分类的高维、低样本数据的一些转换,Mach。学习。,102, 57-83 (2016) ·Zbl 1352.62100号 ·doi:10.1007/s10994-015-5495-y
[17] 费尔南德斯·德尔加多,M。;Cernadas,E。;巴罗,S。;Amorim,D.,我们需要数百个分类器来解决现实世界的分类问题吗?,J.马赫。学习。研究,15,90,3133-3181(2014)·Zbl 1319.62005号
[18] 福尔曼,G。;Scholz,M.,交叉验证研究中的苹果对苹果:分类器性能测量中的缺陷,SIGKDD Explor。新闻。,12, 1, 49-57 (2010) ·doi:10.1145/1882471.1882479
[19] 弗朗索瓦,D。;维尔茨,V。;Verleysen,M.,分数距离的集中,IEEE Trans。知识。数据工程,19873-886(2007)·doi:10.1109/TKDE.2007.1037
[20] Friedman,JH,正则化判别分析,美国统计协会,84,405,165-175(1989)·doi:10.1080/01621459.1989.10478752
[21] B.加达。;Naoum-Sawaya,J.,《使用支持向量机进行高维数据分类和特征选择》,欧洲期刊Oper。第265、3、993-1004号决议(2018年)·Zbl 1381.62170号 ·doi:10.1016/j.ejor.2017.08.040
[22] Gunduz,N.,Fokoue,E.:高维低样本数据的稳健分类(2015)。arXiv:1501.00592[统计AP]
[23] 郭毅。;哈斯蒂,T。;Tibshirani,R.,正则化线性判别分析及其在微阵列中的应用,生物统计学,8,1,86-100(2006)·Zbl 1170.62382号 ·doi:10.1093/biostatistics/kxj035
[24] 霍夫曼,T。;Schölkopf,B。;Smola,AJ,《机器学习中的内核方法》,《Ann.Stat.》,36,3,1171-1220(2008)·兹比尔1151.3007 ·doi:10.1214/00905360000000677
[25] Kouiroukidis,N.,Evangelidis,G.:高维kNN搜索中维度诅咒的影响。2011年第15届泛希腊信息学会议,第41-45页(2011年)。doi:10.1109/PCI.2011.45
[26] Kuncheva,L.I.,Matthews,C.E.,Arnaiz-González,A.,Rodríguez,J.J.:样本量非常小的高维数据的特征选择:一个警示故事(2020年)。arXiv:2008.12025[cs.LG]
[27] 马,J。;Yuan,Y.,使用PCA对图像深层特征进行降维,J.Vis。Commun公司。图像表示。,63 (2019) ·doi:10.1016/j.jvcir.2019.102578
[28] 马龙,JS;托德,MJ;Ahn,J.,《距离加权歧视》,《美国法律总汇汇编》,1024801267-1271(2007)·Zbl 1332.62213号 ·doi:10.19198/0162114507000001120
[29] Y.Nakayama。;Yata,K。;Aoshima,M.,高维低样本设置下高斯核偏差校正支持向量机,Ann.Inst.Stat.Math。,72, 5, 1257-1286 (2019) ·Zbl 1465.62185号 ·doi:10.1007/s10463-019-00727-1
[30] 阿拉斯加州帕尔;蒙达尔,PK;Ghosh,AK,基于点间距平均绝对差的高维最近邻分类,模式识别。莱特。,74,C,1-8(2016)·doi:10.1016/j.patrec.2016.01.018
[31] 巴普,V。;Pardalos,PM;Aleskerov,F。;戈登戈林,B。;Pardalos,PM,《高维数据分类,聚类、顺序和树:方法和应用》,119-150(2014),纽约:Springer,纽约·Zbl 1365.68375号 ·doi:10.1007/978-14939-0742-78
[32] 佩德雷戈萨,F。;瓦罗佐,G。;Gramfort,A。;米歇尔,V。;蒂里昂,B。;O.格栅。;布隆德尔,M。;普雷滕霍弗,P。;Weiss,R。;杜堡,V。;范德普拉斯,J。;帕索斯,A。;库纳波,D。;布鲁彻,M。;佩罗,M。;Duchesnay,E.,Scikit-learn:Python中的机器学习,J.Mach。学习。第12号决议,2825-2830(2011年)·Zbl 1280.68189号
[33] Pekalska,E。;帕西克,P。;Duin,RPW,基于差异的分类的广义核方法,J.Mach。学习。第2号决议,175-211(2002)·兹比尔1037.68127
[34] Platt,J.:序列最小优化:用于训练支持向量机的快速算法(1998)。数字对象标识代码:10.1.1.43.4376
[35] Putatunda,S.,Rama,K.:超选择与XGBoost超参数优化的其他方法的比较分析。摘自:2018年信号处理和机器学习国际会议论文集。SPML’18,第6-10页。纽约计算机械协会(2018年)。doi:10.1145/3297067.3297080
[36] 乔,X。;张,HH;刘,Y。;托德,MJ;Marron,JS,加权距离加权判别及其渐近性质,美国统计协会,105,489,401-414(2010)·Zbl 1397.62227号 ·doi:10.1198/jasa.2010.tm08487
[37] Radovanovć,M.,Nanopoulos,A.,Ivanović,M:高维数据中的最近邻居:中心的出现和影响。摘自:第26届机器学习国际年会论文集。ICML’09,第865-872页。纽约计算机协会(2009年)。doi:10.1145/1553374.1553485
[38] 沈,L。;Yin,Q.,投影空间中用于高维低样本问题的数据最大分散分类器,Knowl。基于系统。,193 (2020) ·doi:10.1016/j.knosys.2019.105420
[39] 沈,L。;Er,MJ;Yin,Q.,高维低样本数据的分类,模式识别。,130 (2022) ·doi:10.1016/j.patcog.2022.108828
[40] Tomašev,N.,Radovanović,M.,Mladenić,D.,Ivanovć,M:用于高维k近邻分类的基于Hubness的模糊测度。摘自:第七届模式识别中的机器学习和数据挖掘国际会议论文集。MLDM’11,第16-30页。柏林施普林格出版社(2011)
[41] Vanschoren,J。;van Rijn,JN;Bischl,B。;Torgo,L.,OpenML:机器学习中的网络科学,SIGKDD Explor。,15, 2, 49-60 (2013) ·数字对象标识代码:10.1145/2641190.2641198
[42] Vert,J.P.,Tsuda,K.,Schölkopf,B.:内核方法入门。《计算生物学中的核心方法》,第35-70页。麻省理工学院出版社,剑桥(2004)。马克斯·普朗克学会
[43] KQ温伯格;Saul,LK,《大幅度最近邻分类的距离度量学习》,J.Mach。学习。决议,10207-244(2009)·Zbl 1235.68204号
[44] 尹,Q。;阿德利,E。;沈,L。;沈,D.,用于高维低样本问题的人口引导大边缘分类器,模式识别。,97 (2020) ·doi:10.1016/j.patcog.2019.107030
[45] 张,L。;Lin,X.,高维低样本数据分类的一些考虑,《统计方法医学研究》,22,5,537-550(2011)·doi:10.1177/0962280211428387
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。