×

有序树和随机森林:无记分递归分区和改进的集合。 (英语) Zbl 07577559号

摘要:现有的有序树和随机森林通常使用分配给有序类别的分数,这意味着使用了更高的尺度级别。提出了序数树的版本,该版本重视尺度层次,避免了人为评分的分配。构造原理基于对参数序数回归中隐含使用的二元模型的研究。这些构建块可以通过树进行拟合,并以类似于参数化模型的方式进行组合。获得的树仅使用序数标度级别。由于二叉树和随机森林是建议树的组成元素,因此可以利用已经开发的各种二叉树。另一个主题是随机森林的潜在较差性能,这在文献中似乎被忽视了。提出了包括参数模型的集合,以获得在广泛的设置中往往表现良好的预测方法。使用多个数据集对这些方法的性能进行了实证评估。

MSC公司:

62H30型 分类和区分;聚类分析(统计方面)
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Agresti,A.,有序分类数据分析(2010),威利:纽约,威利·Zbl 1263.62007年 ·数字对象标识代码:10.1002/9780470594001
[2] 安德森,JA,回归和有序分类变量,皇家统计学会杂志B,46,1-30(1984)·兹比尔0578.62064
[3] JA安德森;菲利普斯,RR,有序分类变量的回归、判别和测量模型,应用统计学,30,22-31(1981)·Zbl 0459.62045号 ·doi:10.2307/2346654
[4] Andrich,D.,消除任何“阈值障碍争议”的多体Rasch模型阈值结构的扩展推导,《教育与心理测量》,73,1,78-124(2013)·doi:10.1177/0013164412450877
[5] Archer,KJ,rpartordinal:一个R包,用于导出用于预测有序响应的分类树,《统计软件杂志》,34,7(2010)·doi:10.18637/jss.v034.i07
[6] Athey,S。;Tibshirani,J。;Wager,S.,广义随机森林,《统计年鉴》,47,2,1148-1178(2019)·Zbl 1418.62102号 ·doi:10.1214/18-AOS1709
[7] Bender,R。;Grouven,U.,《使用非比例优势序数数据的二元逻辑回归模型》,《临床流行病学杂志》,51809-816(1998)·doi:10.1016/S0895-4356(98)00066-3
[8] 比尔纳基,C。;Jacques,J.,基于模型的基于随机二进制搜索算法的多元有序数据聚类,《统计与计算》,26,5,929-943(2016)·Zbl 1505.62068号 ·doi:10.1007/s11222-015-9585-2
[9] Brant,R.,《序数逻辑回归比例优势模型中的相称性评估》,生物统计学,461171-1178(1990)·doi:10.2307/2532457
[10] Breiman,L.,打包预测,机器学习,24123-140(1996)·Zbl 0858.68080号
[11] Breiman,L.,《随机森林》,机器学习,45,5-32(2001)·Zbl 1007.68152号 ·doi:10.1023/A:1010933404324
[12] Bühlmann,P。;Yu,B.,分析装袋,《统计年鉴》,30,4,927-961(2002)·Zbl 1029.62037号 ·doi:10.1214/aos/1031689014
[13] Buri,M.和Hothorn,T.(2020年)。有序回归的基于模型的随机森林。《国际生物统计学杂志》第1期(首页)。
[14] KP伯纳姆;Anderson,DR,《模型选择和多模态推理:实用信息理论方法》(2002),纽约:Springer,纽约·Zbl 1005.62007号
[15] MK坎贝尔;Donner,AP,多项逻辑回归相对于序数逻辑回归的分类效率,美国统计协会杂志,84,406,587-591(1989)·doi:10.1080/01621459.1989.10478807
[16] MK坎贝尔;阿联酋唐纳;韦伯斯特,KM,序数模型对分类有用吗?,医学统计,10383-394(1991)·doi:10.1002/sim.4780100310
[17] 卡佩利,C。;西蒙,R。;Di Iorio F.,cubremot:构建有序响应的基于模型的树的工具,应用专家系统,124,39-49(2019)·doi:10.1016/j.eswa.2019.01.009
[18] 切尔诺朱科夫,V。;弗南德斯·瓦尔,I。;Melly,B.,《反事实分布推断》,计量经济学,81,62005-2268(2013)·Zbl 1326.62223号 ·doi:10.3982/ECTA10582
[19] 朱棣文。;Keerthi,SS,支持向量顺序回归,神经计算,19,3,792-815(2007)·Zbl 1127.68080号 ·doi:10.1162/neco.2007.19.3.792
[20] 科尔特斯,P。;Cerdeira,A。;阿尔梅达,F。;马托斯,T。;Reis,J.,通过物理化学性质的数据挖掘建模葡萄酒偏好,决策支持系统,47,4,547-553(2009)·doi:10.1016/j.dss.2009.05.016
[21] Cox,C.,《有序数据的位置尺度累积优势模型:广义非线性模型方法》,《医学统计学》,第14期,第1191-1203页(1995年)·doi:10.1002/sim.4780141105
[22] Deb,P。;Trivedi,PK,《老年人医疗保健需求:有限混合方法》,《应用计量经济学杂志》,12,3,313-336(1997)·doi:10.1002/(SICI)1099-1255(199705)12:3<313::AID-JAE440>3.0.CO;2-G型
[23] 费尔南德斯,D。;刘一。;Costilla,R.,《有序结果的一种方法:有序刻板印象模型》,《国际精神病学研究方法杂志》,28,e1801(2019)·doi:10.1002/mpr.1801
[24] Foresi,S。;Peracchi,F.,《超额收益的条件分布:实证分析》,《美国统计协会杂志》,90,430,451-466(1995)·网址:10.1080/01621459.1995.10476537
[25] Galinberti,G.、Soffriti,G.和Di Maso,M.(2012年)。r:rpartscore包中有序响应的分类树。统计软件杂志,47。
[26] Gneiting,T。;Raftery,A.,《严格正确的评分规则、预测和估计》,《美国统计协会杂志》,102477359-376(2007)·Zbl 1284.62093号 ·doi:10.1198/0162145000001437
[27] Goodman,LA,《有序类别交叉分类分析中的关联模型和典型相关性》,《美国统计协会杂志》,76,320-334(1981)
[28] Goodman,LA,有序类别列联表的关联模型和二元正态分布,Biometrika,68,347-355(1981)·Zbl 0477.62038号 ·doi:10.1093/biomet/68.2.347
[29] 格陵兰,S.,序数逻辑回归的替代模型,《医学统计学》,第13期,1665-1677页(1994年)·数字对象标识代码:10.1002/sim.4780131607
[30] 格雷戈鲁蒂,B。;米歇尔,B。;Saint-Pierre,P.,《随机森林中的相关性和变量重要性,统计与计算》,27,3,659-678(2017)·兹比尔1505.62167 ·doi:10.1007/s11222-016-9646-1
[31] Hapfelmeier,A。;Hothorn,T。;乌尔姆,K。;Strobl,C.,《缺少数据的随机森林的新变量重要性度量》,《统计与计算》,24,1,21-34(2014)·Zbl 1325.62011号 ·doi:10.1007/s11222-012-9349-1
[32] 哈里森,D。;Rubinfeld,DL,Hedonic房价与清洁空气需求,《环境经济学与管理杂志》,5,1,81-102(1978)·Zbl 0375.90023号 ·doi:10.1016/0095-0696(78)90006-2
[33] Hornung,R.,有序森林,分类杂志,37,4-17(2020)·Zbl 07223586号 ·数字对象标识代码:10.1007/s00357-018-9302-x
[34] Hothorn,T。;霍尼克,K。;Zeileis,A.,《无偏递归分区:条件推理框架》,《计算与图形统计杂志》,第15期,第651-674页(2006年)·doi:10.1198/106186006X133933
[35] Hothorn,T。;劳森,B。;A.本纳。;Radespiel-Tröger,M.,打包存活树,医学统计,23,1,77-91(2004)·数字对象标识代码:10.1002/sim.1593
[36] Hothorn,T。;Zeileis,A.,partykit:r中递归partyining的模块化工具包,机器学习研究杂志,16,1,3905-3909(2015)·Zbl 1351.62005年
[37] Iannario,M.、Piccolo,D.和Simone,R.(2020年)。CUB:一类有序数据的混合模型。R包版本1.1.4。http://cran.r-project.org/package=cub。
[38] 贾尼察,S。;Tutz,G。;Boulesteix,A-L,《有序反应的随机森林:预测和变量选择》,计算统计与数据分析,96,57-73(2016)·Zbl 1468.62089号 ·doi:10.1016/j.csda.2015.10.005
[39] Kateri,M.,《应急表分析》(2014),柏林:施普林格出版社,柏林·Zbl 1291.62012年 ·doi:10.1007/978-0-8176-4811-4
[40] Z.Khan。;居尔,A。;Perperoglou,A。;米夫塔赫丁,M。;O.马哈茂德。;阿德勒,W。;Lausen,B.,最优树集合,随机森林和随机投影集合分类,数据分析和分类进展,14,1,97-116(2020)·Zbl 1459.62115号 ·doi:10.1007/s11634-019-00364-9
[41] Kim,J-H,《评估比例优势假设的实际意义》,《统计学与概率字母》,65,3,233-239(2003)·Zbl 1116.62302号 ·doi:10.1016/j.spl.2003.07.017
[42] 克莱伯,C。;Zeileis,A.,《应用计量经济学与R》(2008),Springer:纽约,Springer·Zbl 1155.91004号 ·doi:10.1007/978-0-387-77318-6
[43] Liaw,A.、Wiener,M.、Breiman,L.和Cutler,A.(2015)。打包randomforest。
[44] 刘,我。;穆克吉,B。;苏西,T。;麻雀,D。;Park,SK,检查比例比值回归模型错误指定的图形诊断,医学统计学,28,34112-429(2009)·doi:10.1002/sim.3386
[45] Masters,GN,部分信用评分的Rasch模型,《心理测量学》,47,149-174(1982)·兹伯利0493.62094 ·doi:10.1007/BF02296272
[46] 硕士,GN;Wright,B.,《测量模型家族中的基本过程》,《心理测量学》,49,529-544(1984)·doi:10.1007/BF02302590
[47] McCullagh,P.,有序数据的回归模型(含讨论),《皇家统计学会杂志》B,42,109-127(1980)·Zbl 0483.62056号
[48] Meinshausen,N.,分位数回归森林,机器学习研究杂志,983-999年6月7日(2006)·Zbl 1222.68262号
[49] Muraki,E.(1997)。广义部分信用模型。现代项目反应理论手册,第153-164页。
[50] 彼得森,B。;Harrell,FE,有序反应变量的部分比例优势模型,应用统计学,39205-217(1990)·Zbl 0707.62154号 ·doi:10.2307/2347760
[51] Piccolo,D。;Simone,R.,《CUB模型的分类:统计基础、推断问题和经验证据》,《统计方法与应用》,28,3,389-435(2019)·Zbl 1435.62242号 ·doi:10.1007/s10260-019-00461-1
[52] Polikar,R.,合奏学习,学术媒体,4,1,2776(2009)·doi:10.4249/学术媒体2776
[53] Rattinger,H.、Roßteutscher,S.、Schmitt-beck,R.、We \223;els,B.和Wolf,C.(2014)。预选截面(GLES 2013)。GESIS数据档案,科隆ZA5700数据文件2.0.0版。
[54] SM鲁道夫;沃森,PC;Lesaffre,E.,序数模型对分类有用吗?修订分析,《统计计算模拟杂志》,52,2,105-132(1995)·Zbl 0842.62048号 ·doi:10.1080/00949659508811656
[55] Sciandra,M。;Plaia,A。;Capursi,V.,《多元有序反应的分类树:在学生评价教学中的应用》,《质量与数量》,51,641-655(2017)·doi:10.1007/s11135-016-0430-2
[56] Simone,R.和Tutz,G.(2020年)。有序数据的混合随机森林。在N.Salvati、A.Pollice和F.Schirripa Spagnolo(编辑)的短篇论文集SIS(第1171-1176页)中。
[57] 斯特罗布尔,C。;布列斯特,A-L;Kneib,T。;奥古斯丁,T。;Zeileis,A.,随机森林的条件变量重要性,BMC生物信息学,9,1,307(2008)·doi:10.186/1471-2105-9-307
[58] 斯特罗布尔,C。;布列斯特,A-L;Zeileis,A。;Hothorn,T.,《随机森林变量重要性度量中的偏差:插图、来源和解决方案》,BMC生物信息学,8,1,25(2007)·doi:10.1186/1471-2105-8-25
[59] Tutz,G.(2012)。分类数据的回归。剑桥大学出版社·Zbl 1304.62021号
[60] Tutz,G.(2020年)。顺序回归:模型的回顾和分类。威利跨学科评论:计算统计学,pp e1545。
[61] 乌西诺,M。;Gasparini,M.,《应用于胃肠疾病主观评估的有序纵向数据的新简约模型》,《医学研究中的统计方法》,27,5,1376-1393(2018)·doi:10.1177/0962280216661370
[62] Winham,SJ;频率,RR;Biernacka,JM,《改进预测性能的加权随机森林方法》,《统计分析和数据挖掘:ASA数据科学期刊》,6,6,496-505(2013)·Zbl 1281.62238号 ·doi:10.1002/sam.1196
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。