×

具有Hellinger距离决策树的离散生存森林。 (英语) 兹比尔1436.62480

摘要:随机生存森林(RSF)是一种强大的非参数方法,用于建立具有时间-事件结果的预测模型。RSF不依赖于比例危险假设,可以很容易地应用于低维和高维数据。然而,RSF的一个剩余限制是,该方法几乎完全集中于连续测量的事件时间。在以离散尺度(t=1,2,点)测量时间的研究中,这个问题可能会成为问题,指的是时间间隔([0,a_1),[a_1,a_2),\ldots\)。在这种情况下,如果忽略离散性,应用为连续时间到事件数据设计的方法可能会导致有偏估计和不准确的预测。为了解决这个问题,我们开发了一种RSF算法,该算法专为分析(可能是右偏的)而设计离散事件时间。该算法基于离散时间存活树的集合,该集合使用树方法进行二进制分类,对原始时间到事件数据的转换版本进行操作。由于这些树中的结果变量通常是高度不平衡的,我们的算法实现了基于Hellinger距离的节点分割策略,这是一种对经典分割标准(如基尼杂质)不敏感的选择。因此,新算法提供了针对特定离散风险和生存函数的灵活非参数预测。我们的数值结果表明,与基尼杂质相比,海林格距离的节点分裂提高了预测性能。此外,与在时间间隔较少的情况下将离散事件时间视为连续的RSF方法相比,离散时间RSF提高了预测精度。

MSC公司:

62号05 可靠性和寿命测试
62H30型 分类和区分;聚类分析(统计方面)
62C25型 统计决策理论中的复合决策问题
62G05型 非参数估计
62N01号 审查数据模型
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] 班纳吉,M。;Reyes-Gastelum,D。;Haymart,MR,分化型甲状腺癌患者的无治疗生存率,临床内分泌代谢杂志,103,2720-2727(2018)·doi:10.1210/jc.2018-00511
[2] 伯杰,M。;Schmid,M.,离散时间-事件数据的半参数回归,统计模型,18,322-345(2018)·Zbl 07289511号 ·doi:10.1177/1471082X17748084
[3] 伯杰,M。;施密德,M。;Welchowski,T。;Schmitz-Valckenberg,S。;Beyersmann,J.,离散时间竞争风险的亚分布风险模型,生物统计学(2018)·doi:10.1093/biostatistics/kxy069
[4] Bogaerts,K。;Komarek,A。;Lesaffre,E.,《间隔感知数据的生存分析:R、SAS和BUGS中的实例实用方法》(2017),纽约:查普曼和霍尔/CRC,纽约
[5] Bou-Hamad,I。;拉罗基,D。;Ben-Hameur,H。;马赛,LC;维塔罗,F。;Tremblay,RE,离散时间存活树,Can J Stat,37,17-32(2009)·Zbl 1170.62074号 ·doi:10.1002/cjs.10007
[6] Bou-Hamad,I。;拉罗基,D。;Ben-Ameur,H.,具有时变协变量的离散生存树和森林:破产数据的应用,统计模型,11429-446(2011)·Zbl 1420.62417号 ·doi:10.1177/1471082X1001100503
[7] Breiman,L.,《随机森林》,《马赫学习》,45,5-32(2001)·Zbl 1007.68152号 ·doi:10.1023/A:1010933404324
[8] 布雷曼,L。;JH弗里德曼;奥申,RA;Stone,CJ,《分类和回归树》(1984),贝尔蒙特:沃兹沃斯,贝尔蒙特·Zbl 0541.62042号
[9] 卡梅隆,AC;Trivedi,PK,《微观计量经济学:方法和应用》(2005),剑桥:剑桥大学出版社,剑桥
[10] Cieslak,DA;内华达州查拉;Daelemans,W。;Goethals,B。;Morik,K.,《非平衡数据的学习决策树》,数据库中机器学习和知识发现联合会议论文集:ECML PKDD 2008,比利时安特卫普,241-256(2008),柏林:斯普林格,柏林
[11] Cieslak,DA;Hoens,TR;内华达州肖拉;Kegelmeyer,WP,Hellinger距离决策树是稳健和偏敏感的,Data Min Knowl Discov,24,136-158(2012)·Zbl 1235.68141号 ·doi:10.1007/s10618-011-0222-1
[12] Croissant Y(2016)Ecdat:计量经济学数据集。R包版本0.3-1。http://cran.r-project.org/web/packages/Ecdat。2019年11月16日访问
[13] Dal Pozzolo A、Caelen O、Bontempi G(2015)《不平衡:不平衡方法选择的竞赛》。R包版本2.0。http://cran.r-project.org/web/packages/unbalanced。2019年11月16日访问
[14] Fantazini,D。;Figini,S.,《中小企业信用风险度量的随机生存森林模型》,Methodol Comput Appl Probab,11,29-45(2009)·Zbl 1293.62223号 ·doi:10.1007/s11009-008-9078-2
[15] 费林,R。;施耐德,M。;拉维耶,K。;罗德里格斯,D。;Pruszynski,J.,两种互联网支持的基于生育意识的计划生育方法的随机比较,避孕,88,24-30(2013)·doi:10.1016/j.contraception.2012.10.010
[16] 费尔南德斯,A。;加西亚,S。;Herrera,F。;内华达州Chawla,SMOTE,《从不平衡数据中学习:进步与挑战,纪念15周年》,J Artif Intell Res,61,863-905(2018)·兹比尔1443.68147 ·doi:10.1613/jair.1.11192
[17] Friedman J,Hastie T,Tibshirani R,Narasimhan B,Simon N(2019)glmnet:套索和弹性网正则化广义线性模型。R包版本3.0。http://cran.r-project.org/web/packages/glmnet。2019年11月16日访问
[18] Gneiting,T。;Raftery,A.,《严格正确的评分规则、预测和估计》,美国统计协会杂志,102359-378(2007)·Zbl 1284.62093号 ·doi:10.1198/0162145000001437
[19] Huinink,J。;布吕德尔,J。;诺克,B。;Walper,S。;卡斯蒂廖尼。;Feldhaus,M.,《亲密关系和家庭动力的小组分析:概念框架和设计》,《J Fam Res》,23,77-101(2011)
[20] Ingrisch,M。;舍普,F。;Paprottka,K。;法布里提乌斯,M。;频闪,FF;托尼,结束;伊尔汗,H。;托迪卡,A。;米歇尔,M。;Paprottka,PM,随机存活森林治疗前因素对90Y放射栓塞结果的预测,《核医学杂志》,59,769-773(2018)·doi:10.2967/jnumed.117.200758
[21] Ishwaran,H。;乌兰巴托州科加卢;爱荷华州黑石集团;Lauer,MS,随机生存森林,Ann Appl Stat,2841-860(2008)·Zbl 1149.62331号 ·doi:10.1214/08-AOAS169
[22] Ishwaran,H。;乌兰巴托州科加卢;戈洛德斯基,EZ;米恩,AJ;Lauer,MS,生存数据的高维变量选择,J Am Stat Assoc,105,205-217(2010)·兹比尔1397.62220 ·doi:10.1198/jasa.2009.tm08622
[23] Ishwaran,H。;乌兰巴托州科加卢;陈,X。;Minn,AJ,高维数据的随机生存森林,统计分析数据Min,4115-132(2011)·Zbl 07260271号 ·doi:10.1002/sam.10103
[24] 北卡罗来纳州科雷帕诺瓦。;Seibold,H。;斯特芬,V。;Hothorn,T.,《测试中的存活森林:比例风险假设对肌萎缩侧索硬化症存活预测森林的影响》,统计方法医学研究(2019年)·doi:10.1177/0962280219862586
[25] 勒布朗,M。;Crowley,J.,《分裂优度生存树》,J Am Stat Assoc,88,457-467(1993)·Zbl 0773.62071号 ·doi:10.1080/016214519993.10476296
[26] 英国石油公司麦考尔,《失业保险规则、失业和兼职》,《计量经济学》,第64期,第647-682页(1996年)·Zbl 0847.90039号 ·doi:10.307/2171865
[27] Menardi,G。;Torelli,N.,《使用不平衡数据训练和评估分类规则》,data Min Knowl Discov,28,92-122(2014)·Zbl 1281.68198号 ·doi:10.1007/s10618-012-0295-5
[28] 莫拉迪安,H。;拉罗基,D。;F.贝拉万斯\({五十} _1个\)存活森林中的分裂规则,《寿命数据分析》,23,671-691(2017)·Zbl 1468.62397号 ·doi:10.1007/s10985-016-9372-1
[29] 潘,Y。;张,H。;张,M。;朱,J。;余,J。;王,B。;邱,J。;Zhang,J.,结直肠癌高预后价值的五基因风险评分,Oncol-Lett,146724-6734(2017)
[30] Provost,F。;Domingos,P.,《基于概率排序的树归纳法》,《马赫学习》,52,199-215(2003)·Zbl 1039.68105号 ·doi:10.1023/A:1024099825458
[31] 谢克,TH;Keiting,N.,《妊娠时间的设计与分析》,《统计方法医学研究》,第15期,第127-140页(2006年)·Zbl 1122.62374号 ·doi:10.1191/0962280206sm435oa
[32] 施密德,M。;Küchenhoff,H。;Hoerauf,A。;Tutz,G.,临床和流行病学研究中离散事件时间分析的存活树方法,Stat Med,35734-751(2016)·数字对象标识代码:10.1002/sim.6729
[33] 施密德,M。;明尼苏达州赖特;Ziegler,A.,《关于利用Harrell’s C通过随机生存森林进行临床风险预测》,《专家系统应用》,63,450-459(2016)·doi:10.1016/j.eswa.2016.07.018
[34] 施密德,M。;Tutz,G。;Welchowski,T.,离散时间到事件预测的区分措施,《经济统计》,第7期,第153-164页(2018年)
[35] Tutz,G。;Schmid,M.,离散时间到事件数据建模(2016),纽约:Springer,纽约·兹比尔1338.62006
[36] TA Verschut;宾夕法尼亚州Hambäck,《随机存活森林》,《与寄主植物质量相比,天敌对叶甲存活率的重要性》,BMC Ecol,18,33(2018)·doi:10.1186/s12898-018-0187-7
[37] Welchowski T,Schmid M(2019)discSurv:离散时间生存分析。R包版本1.4.0。http://cran.r-project.org/web/packages/discSurv。2019年11月16日访问
[38] 明尼苏达州赖特;Ziegler,A.,《Ranger:C++和R中高维数据随机森林的快速实现》,J Stat Softw,77,1-17(2017)·doi:10.18637/jss.v077.i01
[39] 明尼苏达州赖特;Dankowski,T。;Ziegler,A.,《使用最大选择秩统计法对随机存活森林进行无偏分裂变量选择》,Stat Med,36,1272-1284(2017)·doi:10.1002/sim.7212
[40] 姚,W。;Frydman,H。;Simonoff,JS,间隔感应时间到事件数据的集合方法,生物统计学(2019)·doi:10.1093/biostatistics/kxz025
[41] Yao W,Frydman H,Simonoff JS(2019b)ICcforest:一种用于间隔感知生存数据的集成方法。R包版本0.5.0。http://cran.r-project.org/web/packages/ICcforest。2019年11月16日访问
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。