王强;阮成东;Joshua Z.黄。;阮,Thuy Thi 一种用于高维数据分类的高效随机森林算法。 (英语) Zbl 1416.62366号 高级数据分析。分类。,ADAC公司 12,第4号,953-972(2018). 摘要:在本文中,我们提出了一种新的随机森林(RF)算法,用于处理高维数据,并使用子空间特征采样方法和特征值搜索进行分类。新的子空间采样方法保持了森林的多样性和随机性,并使人们能够生成具有较低预测误差的树。在森林中构建决策树时,使用贪婪技术处理基本分类特征以实现有效的节点分割。这使得树可以处理非常高的基数,同时减少构建RF模型的计算时间。对高维真实数据集(包括标准机器学习数据集和图像数据集)进行了广泛的实验。结果表明,所提出的学习RFs的方法在处理高维数据时显著降低了预测误差,并优于大多数现有的RFs。 引用于2文件 MSC公司: 62小时30分 分类和区分;聚类分析(统计方面) 68吨10 模式识别、语音识别 关键词:分类;图像分类;高维数据;随机森林;数据挖掘 软件:注册退休基金;全森林 PDF格式BibTeX公司 XML格式引用 \textit{Q.Wang}等人,高级数据分析。分类。,ADAC 12,第4号,953--972(2018;Zbl 1416.62366) 全文: DOI程序 参考文献: [1] 阿马拉通加,D。;Cabrera,J。;Lee,YS,《丰富的随机森林》,生物信息学,2010-2014年第24期,(2008年)·doi:10.1093/bioinformatics/btn356 [2] RE班菲尔德;霍尔,LO;鲍耶,KW;Kegelmeyer,WP,《决策树集成创建技术的比较》,IEEE Trans-Pattern Ana Mach Intell,29,173-180,(2007)·doi:10.1109/TPAMI.2007.250609 [3] Breiman,L.,《随机森林》,《马赫学习》,45,5-32,(2001)·Zbl 1007.68152号 ·doi:10.1023/A:1010933404324 [4] Breiman L、Friedman J、Stone CJ、Olshen RA(1984)分类和回归树。博卡拉顿CRC出版社·Zbl 0541.62042号 [5] Deng H(2013)rrf软件包中的引导随机森林。arXiv预打印arXiv:1306.0237 [6] 邓,H。;Runger,G.,引导正则随机森林的基因选择,模式识别,46,3483-3489,(2013)·doi:10.1016/j.patcog.2013.05.018 [7] Dietterich,TG,《构建决策树集合的三种方法的实验比较:装袋、增强和随机化》,《马赫学习》,40,139-157,(2000)·doi:10.1023/A:1007607513941 [8] Donoho DL等人(2000)《高维数据分析:维度的诅咒与祝福》。AMS数学挑战讲座,第1-32页 [9] Genuer,R。;吉咪·波吉;Tuleau-Malot,C.,使用随机森林的变量选择,模式识别快报,312225-2236,(2010)·doi:10.1016/j.patrec.2010.03.014 [10] 乔治亚德斯,AS;Belhumeur,PN;Kriegman,D.,《从少到多:可变光照和姿势下人脸识别的照明锥模型》,IEEE Trans-Pattern Ana Mach Intell,23643-660,(2001)·doi:10.1109/34.927464 [11] Ho,TK,构建决策森林的随机子空间方法,IEEE Trans-Pattern Ana Mach Intell,20832-844,(1998)·数字对象标识代码:10.1109/34.709601 [12] Lepetit,V。;Fua,P.,使用随机树进行关键点识别,IEEE Trans-Pattern Ana Mach Intell,281465-1479,(2006)·doi:10.10109/TPAMI.2006.188 [13] Liaw,A。;Wiener,M.,《随机森林分类与回归》,R News,2,18-22,(2002) [14] Louppe G,Wehenkel L,Sutera A,Geurts P(2013)了解随机树木森林中的变量重要性。主题:神经信息处理系统的进展,第431-439页 [15] Meinshausen N(2012)分位数森林:分位数回归森林。R包版本02-3 [16] Nguyen,TT;黄,J。;Nguyen,T.,《距离预测中偏差校正的二级分位数回归森林》,《马赫学习》,101325-343,(2015)·Zbl 1343.62022号 ·doi:10.1007/s10994-014-5452-1 [17] Samaria FS,Harter AC(1994)人脸识别随机模型的参数化。收录:第二届IEEE计算机视觉应用研讨会论文集。IEEE,第138-142页 [18] 特克,M。;Pentland,A.,识别特征脸,《认知神经科学杂志》,371-86,(1991)·doi:10.1162/jocn.1991.3.1.71 [19] Tuv,E。;鲍里索夫,A。;Runger,G。;Torkkola,K.,《用集合、人工变量和冗余消除进行特征选择》,J Mach Learn Res,101341-1366,(2009)·Zbl 1235.62003号 [20] 维斯瓦纳坦,V。;Sen,A。;Chakraborty,S.,《随机贪婪算法:基于学习的组合优化方法》,Int J Adv Softw,4,1-11,(2011) [21] 徐,B。;黄,JZ;威廉姆斯,G。;王,Q。;Ye,Y.,用小个子空间构建的随机森林对超高维数据进行分类,国际数据仓库Min,8,44-63,(2012)·doi:10.4018/jdwm.2012040103 [22] Ye,Y。;吴琼。;黄哲学,J。;Ng、MK;Li,X.,高维数据随机森林特征子空间选择的分层抽样,模式识别,46,769-787,(2013)·doi:10.1016/j.patcog.2012.09.005 [23] 张杰。;Marszałek,M。;拉泽布尼克,S。;Schmid,C.,纹理和对象类别分类的局部特征和核:一项综合研究,Int J Comput Vis,73213-238,(2007)·doi:10.1007/s11263-006-9794-4 此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。