×

斜向随机存活森林。 (英语) Zbl 1433.62305号

小结:介绍并评价了斜向随机存活林(ORSF)。ORSF是一种右感知生存数据的集成方法,它使用输入变量的线性组合递归地划分一组训练数据。正则化Cox比例风险模型用于识别每个递归划分步骤中输入变量的线性组合。使用模拟数据和实际数据的基准结果表明,ORSF的预测风险函数与随机生存森林、条件推理森林、回归和增强相比具有较高的预测价值。在Jackson心脏研究数据的应用中,我们使用ORSF证明了可变和部分依赖性,并强调了其动脉粥样硬化性心血管疾病事件(ASCVD;中风,冠心病)十年预测风险函数的特征。我们根据ORSF、条件推理林和Pooled Cohort Risk方程提出了比较变量和部分效应估计的可视化方法。obliqueRSF R包可在综合R存档网络(CRAN)上使用,该包提供了适合ORSF的功能,并创建变量和部分相关图。

MSC公司:

62页第10页 统计学在生物学和医学中的应用;元分析
62H30型 分类和区分;聚类分析(统计方面)
62号02 生存分析和删失数据中的估计
62-08 统计学相关问题的计算方法
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Andersen,P.K.、Borgan,O.、Gill,R.D.和Keiting,N.(2012年)。基于计数过程的统计模型。柏林施普林格·Zbl 0824.60003号
[2] Bien,J.和Tibshirani,R.(2019)。protocluster:具有原型的层次聚类。R软件包版本1.6.3·Zbl 1229.62083号 ·doi:10.1198/jasa.2011.tm10183
[3] Binder,H.(2013)。CoxBoost:针对单个生存终点或竞争风险的基于可能性的提升的Cox模型。R软件包版本1.4,可从https://CRAN.R-project.org/package=CoxBoost。
[4] Blanche,P.、Kattan,M.W.和Gerds,T.A.(2019年)。c指数不适合评估t年预测风险。生物统计学20 347-357。
[5] Bou-Hamad,I.、Larocque,D.和Ben-Ameur,H.(2011)。存活树木综述。统计调查。5 44-71. ·Zbl 1274.62648号 ·doi:10.1214/09-SS047
[6] Breiman,L.(1984)。分类和回归树。阿宾顿,劳特利奇·Zbl 0541.62042号
[7] Breiman,L.(2001)。随机森林。机器。学习。45 5-32. ·Zbl 1007.68152号 ·doi:10.1023/A:1010933404324
[8] Breiman,L.和Cutler,A.(2003)。设置、使用和理解随机林4.0版。加州大学伯克利分校统计系。
[9] Brilleman,S.(2018年)。simsurv:模拟生存数据。R软件包版本0.2.2,可从https://CRAN.R-project.org/package=simsurv。
[10] Burnham,K.P.和Anderson,D.R.(2004)。多模型推理:理解模型选择中的AIC和BIC。社会学。方法研究33 261-304。
[11] Chen,T.和Guestrin,C.(2016)。Xgboost:一个可扩展的树增强系统。第22届ACM知识发现和数据挖掘国际会议论文集785-794。ACM公司。
[12] Chen,T.,He,T.、Benesty,M.、Khotilovich,V.、Tang,Y.、Cho,H.、Chen,K.、Mitchell,R.、Cano,I.等人(2019年)。xgboost:极限梯度增强。R软件包版本0.81.0.1,可从https://CRAN.R-project.org/package=xgboost。
[13] Cox,D.R.(1992)。回归模型和生命表。统计突破527-541。柏林施普林格。
[14] Demšar,J.(2006)。多个数据集上分类器的统计比较。J.马赫。学习。第7 1-30号决议·Zbl 1222.68184号
[15] Desmedt,C.、Di Leo,A.、de Azambuja,E.、Larsimont,D.、Haibe-Kains,B.、Selleslags,J.、Delaloge,S.、Duhem,C.、Kains、J.-P.等人(2011年)。预测蒽环类药物耐药性的多因素方法。临床杂志。昂科尔。29 1578-1586.
[16] Dheeru,D.和Karra Taniskidou,E.(2017)。UCI机器学习知识库。加州大学欧文分校。
[17] Efron,B.、Hastie,T.、Johnstone,I.和Tibshirani,R.(2004)。最小角度回归。安。统计师。32 407-499. ·Zbl 1091.62054号 ·doi:10.1214/009053604000000067
[18] Fleming,T.R.和Harrington,D.P.(2011年)。计数过程和生存分析169。纽约威利。
[19] Friedman,J.H.(2001)。贪婪函数近似:梯度增强机。安。统计师。29 1189-1232. ·Zbl 1043.62034号 ·doi:10.1214/aos/1013203451
[20] Friedman,J.、Hastie,T.和Tibshirani,R.(2010)。广义线性模型的坐标下降正则化路径。J.统计软件。33 1-22. 可在http://www.jstatsoft.org/v33/i01/。
[21] 弗里德曼(1937)。使用秩来避免方差分析中隐含的正态假设。J.Amer。统计师。协会32 675-701·JFM 63.1098.02号 ·doi:10.1080/01621459.1937.10503522
[22] Gerds,T.A.、Kattan,M.W.、Schumacher,M.和Yu,C.(2013)。使用协变量相关删失估计生存预测模型的时间相关一致性指数。Stat.Med.32 2173-2184。
[23] Geurts,P.、Ernst,D.和Wehenkel,L.(2006)。极度随机的树。机器。学习。63 3-42. ·Zbl 1110.68124号 ·doi:10.1007/s10994-006-6226-1
[24] Graf,E.、Schmoor,C.、Sauerbrei,W.和Schumacher,M.(1999)。生存数据预后分类方案的评估和比较。Stat.Med.18 2529-2545。
[25] Harrell,F.E.,Calif,R.M.,Pryor,D.B.,Lee,K.L.和Rosati,R..A.(1982年)。评估医学测试的结果。JAMA 247 2543-2546。
[26] Hastie,T.、Tibshirani,R.和Friedman,J.(2001)。统计学习的要素。数据挖掘、推断和预测。统计学中的斯普林格系列。纽约州施普林格·Zbl 0973.62007号
[27] Hatzis,C.、Pusztai,L.、Valero,V.、Booser,D.J.、Esserman,L.,Lluch,A.、Vidaurre,T.、Holmes,F.、Souchon,E.等人(2011年)。侵袭性乳腺癌紫杉醇-蒽环类化疗反应和生存率的基因组预测因子。JAMA 305 1873-1881。
[28] Heagerty,P.J.、Lumley,T.和Pepe,M.S.(2000)。截尾生存数据和诊断标记的时间依赖性ROC曲线。生物计量学56 337-344·Zbl 1060.62622号 ·文件编号:10.1111/j.0006-341X.2000.00337.x
[29] Heagerty,P.J.和Zheng,Y.(2005)。生存模型预测精度和ROC曲线。生物统计学61 92-105·Zbl 1077.62077号 ·doi:10.1111/j.0006-341X.2005.030814.x
[30] Hothorn,T.、Hornik,K.、Strobl,C.和Zeileis,A.(2019年)。聚会:递归聚会的实验室。R软件包版本1.3.3,可在https://CRAN.R-project.org/package=参与方。
[31] Hothorn,T.、Hornik,K.和Zeileis,A.(2006年)。《无偏递归分区:条件推理框架》,J.Compute。图表。统计师。15 651-674.
[32] Hothorn,T.和Lausen,B.(2003年)。双备份:通过引导聚合组合分类器。模式识别。36 1303-1309. ·Zbl 1028.68144号 ·doi:10.1016/S0031-3203(02)00169-3
[33] Hothorn,T.、Lausen,B.、Benner,A.和Radespiel-Tröger,M.(2004)。将幸存树木打包。统计医学23 77-91。
[34] Howard,V.J.、Cushman,M.、Pulley,L.、Gomez,C.R.、Go,R.C.、Prineas,R.J.,Graham,A.、Moy,C.S.和Howard(2005)。中风研究中地理和种族差异的原因:目标和设计。神经流行病学25 135-143。
[35] Iman,R.L.和Davenport,J.M.(1980)。Fbietkan统计量临界区域的近似值。通信统计。理论方法9 571-595·Zbl 0451.62061号 ·doi:10.1080/03610928008827904
[36] Ishwaran,H.和Kogalur,U.B.(2019年)。生存、退化和分类的随机森林(RF-SRC)。R软件包版本2.8.0,可从https://cran.r-project.org/package=randomForestSRC。
[37] Ishwaran,H.、Kogalur,U.B.、Blackstone,E.H.和Lauer,M.S.(2008)。随机生存森林。附录申请。统计数字2 841-860·Zbl 1149.62331号 ·doi:10.1214/08-AOAS169
[38] Jaeger,B.(2018年)。obliqueRSF:右感知时间到事件数据的倾斜随机森林。R软件包版本0.1.0,可从https://CRAN.R-project.org/package=obliqueRSF。
[39] Jaeger,B.C.、Long,L.D.、Long、D.M.、Sims,M.、Szychowski,J.M.、Min,Y.-I、Mcclure,L.A.、Howard,G.和Simon,N.(2019年)。《斜向随机存活森林》补充资料。DOI:10.1214/19-AOAS1261SUPP·Zbl 1433.62305号
[40] Kowarik,A.和Templ,M.(2016)。用R包VIM插补。J.统计软件。74 1-16.
[41] Levey,A.S.、Stevens,L.A.、Schmid,C.H.、Zhang,Y.L.、Castro,A.F.、Feldman,H.I.、Kusek,J.W.、Eggers,P.、Van Lente,F.等人(2009年)。估计肾小球滤过率的新方程。Ann.实习生。医学150 604-612。
[42] Lundberg,S.M.、Erion,G.G.和Lee,S.-I.(2018)。树系一致的个性化特征归因。arXiv预印本arXiv:1802.03888。
[43] McCall,M.N.、Bolstad,B.M.和Irizarry,R.A.(2010年)。冻结稳健多阵列分析(fRMA)。生物统计学11 242-253·Zbl 1437.62556号
[44] Mentch,L.和Hooker,G.(2016年)。通过置信区间和假设检验量化随机森林中的不确定性。J.马赫。学习。决议17第26、41号文件·Zbl 1360.62095号
[45] Menze,B.H.、Kelm,B.M.、Splitthoff,D.N.、Koethe,U和Hamprecht,F.A.(2011年)。在倾斜的随机森林上。在数据库机器学习和知识发现欧洲联合会议453-469。柏林施普林格。
[46] Mogensen,U.B.、Ishwaran,H.和Gerds,T.A.(2012年)。使用预测误差曲线评估随机森林的生存分析。J.统计软件。50 1.
[47] Morris,T.P.、White,I.R.和Crowther,M.J.(2019年)。使用模拟研究评估统计方法。统计医学38 2074-2102。
[48] Nasejje,J.B.、Mwambi,H.、Dheda,K.和Lesosky,M.(2017年)。基于模拟研究以及两个具有时间-事件数据的应用程序,将条件推理存活森林模型与随机存活森林进行了比较。BMC医学研究方法。17 115.
[49] Rainforth,T.和Wood,F.(2015)。典型相关林。arXiv预打印arXiv:1507.05444。
[50] Safford,M.M.、Brown,T.M.、Muntner,P.M.、Durant,R.W.、Glasser,S.、Halanych,J.H.、Shikany,J.M.、Prineas,R.J.、Samdarshi,T.等人(2012年)。种族和性别与急性冠心病事件风险的关系。JAMA 308 1768-1774年。
[51] 舒马赫(Schumacher,M.)、巴斯特(Bastert,G.)、博贾尔(Bojar,H.)、韦伯纳(Huebner,K.)、奥尔舍夫斯基(Olschewski,M。评估淋巴结阳性乳腺癌患者激素治疗和化疗持续时间的随机(2次2次)试验。临床杂志。昂科尔。12 2086-2093.
[52] Segal,M.R.(1988年)。审查数据的回归树。生物计量学44 35-47·Zbl 0707.62224号 ·doi:10.2307/2531894
[53] Shabalin,A.A.、Tjelmeland,H.、Fan,C.、Perou,C.M.和Nobel,A.B.(2008)。通过跨平台规范化合并两个基因表达研究。生物信息学24 1154-1160。
[54] Simon,N.、Friedman,J.、Hastie,T.和Tibshirani,R.(2011)。Cox比例风险模型通过坐标下降的正则化路径。J.统计软件。39 1-13。
[55] Strasser,H.和Weber,C.(1999年)。置换统计的渐近理论。数学。方法统计。8 220-250. 约翰·普范扎格尔(Johann Pfanzagl)在他70岁生日之际致辞·Zbl 1103.62346号
[56] Strobl,C.、Malley,J.和Tutz,G.(2009年)。递归分割简介:分类树、回归树、套袋和随机森林的原理、应用和特征。精神病。方法14 323-348。
[57] Strobl,C.、Boulesteix,A.-L.、Zeileis,A.和Hothorn,T.(2007年)。随机森林变量重要性度量中的偏差:插图、来源和解决方案。BMC生物信息。8 25.
[58] Taylor Jr.,H.A.、Wilson,J.G.、Jones,D.W.、Sarpong,D.F.、Srinivasan,A.、Garrison,R.J.、Nelson,C.和Wyatt,S.B.(2005)。解决非裔美国人心血管健康差异:杰克逊心脏研究的设计和方法。埃森。数字化信息系统。15 S6-4。
[59] Ternès,N.、Rotolo,F.、Heinze,G.和Michiels,s.(2017年)。在具有生存结果和高维空间的随机临床试验中识别生物标记物与治疗的相互作用。生物。期刊59 685-701·Zbl 1369.62306号 ·doi:10.1002/bimj.201500234
[60] Therneau,T.M.(2015)。生存分析软件包版本2.38,可在https://CRAN.R-project.org/package=生存。
[61] Tutz,G.和Binder,H.(2007年)。推进岭回归。计算。统计师。数据分析。51 6044-6059. ·Zbl 1330.62294号 ·doi:10.1016/j.csda.2006.11.041
[62] van Houwelingen,H.C.、Bruinsma,T.、Hart,A.A.M.、van T Veer,L.J.和Wessels,L.F.A.(2006)。微阵列基因表达数据的交叉验证Cox回归。统计医学25 3201-3216。
[63] Van t Veer,L.J.、Dai,H.、Van De Vijver,M.J.,He,Y.D.、Hart,A.A.、Mao,M.、Peterse,H.L.、Van-Der Kooy,K.、Marton,M.J等人(2002年)。基因表达谱预测乳腺癌的临床结局。自然415 530。
[64] Venables,W.N.和Ripley,B.D.(2002年)。《现代应用统计学与S》,第四版,施普林格出版社,纽约·Zbl 1006.62003号
[65] Whelton,P.K.、Carey,R.M.、Aronow,W.S.、Casey,D.E.、Collins,K.J.、Himmelfarb,C.D.、DePalma,S.M.、Gidding,S.、Jameson,K.A.等人(2018)。2017 ACC/AHA/APA/ABC/APM/AGS/APhA/ASH/ASPC/NMA/PCNA成人高血压预防、检测、评估和管理指南:美国心脏病学院/美国心脏协会临床实践指南工作组的报告。美国科罗拉多州。心脏病。71 e127-e248。
[66] 朱瑞(2013)。生存分析和高维数据的基于树的方法。论文(博士)-北卡罗来纳大学教堂山分校。ProQuest LLC,密歇根州安娜堡。
[67] Zhu,R.,Zeng,D.和Kosorok,M.R.(2015)。强化学习树。J.Amer。统计师。协会110 1770-1784·兹比尔1374.68466 ·doi:10.1080/01621459.2015.1036994
[68] Zou,H.和Hastie,T.(2005)。通过弹性网进行规则化和变量选择。J.R.统计社会服务。B.统计方法。67 301-320. ·Zbl 1069.62054号 ·数字对象标识代码:10.1111/j.1467-9868.2005.0050.x
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。