×

XGBoost中加速失效时间模型的生存回归。 (英语) Zbl 07633321号

摘要:生存回归用于估计时间-事件和特征变量之间的关系,在医学、市场营销、风险管理和销售管理等应用领域非常重要。在XGBoost、scikit-learn、LightGBM和CatBoost等库中实现的基于非线性树的机器学习算法在实践中通常比线性模型更准确。然而,基于树的模型的现有最新实现对生存回归的支持有限。在这项工作中,我们在XGBoost中实现了用于学习加速失效时间(AFT)模型的损失函数,以增加对不同类型标签截尾生存建模的支持,在两个方面:泛化性能和训练速度。此外,我们利用XGBoost对NVIDIA GPU的支持,在多核CPU上实现了显著的加速。据我们所知,我们的工作是首次使用NVIDIA GPU的处理能力实现AFT。从1.2.0版本开始,XGBoost软件包本机支持AFT模型。在XGBoost中添加AFT对开源社区产生了重大影响,一些统计数据包现在使用XGBoostAFT模型。本文的补充材料可在网上获得。

MSC公司:

62至XX 统计
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] 秋叶,T。;萨诺,S。;Yanase,T。;Ohta,T.等人。;Koyama,M.,《Optuna:下一代超参数优化框架》,2623-2631(2019),纽约:纽约计算机械协会,纽约·doi:10.1145/3292500.3330701
[2] Allison,P.D.,《使用SAS进行生存分析:实用指南》(2010年),北卡罗来纳州卡里:北卡罗来那州卡里SAS研究所
[3] Barabadi,A。;Barabady,J。;Markeset,T.,2244-2248(2010)
[4] Bühlmann,P。;Hothorn,T.,“推进算法:正则化、预测和模型拟合,统计科学,22477-505(2007)·Zbl 1246.62163号 ·doi:10.1214/07-STS242
[5] 粘合剂H。;Schumacher,M.,“在稀疏高维生存模型的增强估计中考虑强制协方差,BMC生物信息学,9,14(2008)·doi:10.1186/1471-2105-9-14
[6] Bishop,C.M.,《模式识别和机器学习(信息科学和统计)》(2006),柏林:施普林格-弗拉格出版社,柏林·Zbl 1107.68072号
[7] 布雷曼,L。;弗里德曼,J。;斯通,C.J。;Olshen,R.A.,分类和回归树(1984),佛罗里达州博卡拉顿:CRC出版社,佛罗里达州波卡拉顿·Zbl 0541.62042号
[8] Breslow,N.E.,“关于Cox教授论文的讨论”,英国皇家统计学会期刊,B辑,34202-220(1972)·doi:10.1111/j.2517-6161.1972.tb00900.x
[9] 巴克利,J。;James,I.,“剔除数据的线性回归,生物特征,66429-436(1979)·Zbl 0425.62051号 ·doi:10.1093/biomet/66.3.429
[10] Burges,C.J.C.,“Fom RankNet to LambdaRank to LambdaMART:概述”,技术报告MSR-TR-2010-82。可用时间(2010年)
[11] Chen,T。;Guestrin,C.,XGBoost:可扩展的树木增强系统,785-794(2016),纽约州纽约市:纽约州纽约州计算机械协会·doi:10.1145/2939672.29339785
[12] Chen,T。;辛格,S。;Taskar,B。;Guestrin,C。;黎巴嫩,G。;Vishwanathan,S.V.N.,《条件随机场的有效二阶梯度增强》,第十八届国际人工智能与统计会议论文集,147-155(2015),加利福尼亚州圣地亚哥:PMLR,加利福尼亚州圣迭戈
[13] Chiou,S。;康,S。;Yan,J.,“用R包aftgee拟合常规生存分析中的加速失效时间模型,统计软件杂志,61,1-23(2014)·doi:10.18637/jss.v061.i11
[14] Cox,D.R.,“回归模型和寿命表”,《皇家统计学会杂志》,B辑,34187-220(1972)·Zbl 0243.62041号 ·doi:10.1111/j.2517-6161.1972.tb00899.x
[15] Dirick,L。;Claeskens,G。;Baesens,B.,“使用生存分析进行信用评分的违约时间:基准研究”,《运筹学学会杂志》,68,652-665(2017)·doi:10.1057/s41274-016-0128-9
[16] Drouin,A。;霍金,T。;Laviolette,F。;盖恩,I。;乌克兰卢克斯堡。;Bengio,S。;瓦拉赫,H。;弗格斯,R。;Vishwanathan,S。;Garnett,R.,《神经信息处理系统的进展》,第30卷,最大裕度区间树,4947-4956(2017),Curran Associates,Inc
[17] Faruk,A.,“比例风险和加速失效时间模型在分析第一胎间隔存活数据中的比较”,《物理学杂志:会议系列》,974012008(2018)·doi:10.1088/1742-6596/974/1/012008
[18] 弗里德曼,J。;哈斯蒂,T。;Tibshirani,R.,“加性Logistic回归:提升的统计观点”(作者进行了讨论和重编),《统计年鉴》,28,337-407(2000)·Zbl 1106.62323号 ·doi:10.1214/aos/1016218223
[19] Friedman,J.H.,“贪婪函数近似:梯度推进机器”,《统计年鉴》,291189-1232(2001)·Zbl 1043.62034号 ·doi:10.1214/aos/1013203451
[20] 小F.E.哈雷尔。;加州R.M。;普赖尔,D.B。;Lee,K.L。;Rosati,R.A.,“评估医疗测试的结果,JAMA:美国医学协会杂志,2472543-2546(1982)·doi:10.1001/jama.1982.03320430047030
[21] 霍金,T.D。;Goerner-Potvin,P。;Morin,A。;邵,X。;Pastinen,T。;Bourque,G.,“使用视觉标签和监督机器学习优化ChIP-seq峰值检测器,生物信息学,33,491-499(2016)·doi:10.1093/bioinformatics/btw672
[22] Hothorn,T。;劳森,B。;A.本纳。;Radespiel-Tröger,M.,“打包生存树,医学统计,2377-91(2004)·数字对象标识代码:10.1002/sim.1593
[23] Ieee,“Ieee浮点运算标准,Ieee Std 754-2019(Ieee 754-2008修订版),1-84(2019)
[24] Ishwaran,H。;Kogalur,英国。;Blackstone,E.H。;Lauer,M.S.,“随机生存森林,应用统计年鉴,2841-860(2008)·Zbl 1149.62331号 ·doi:10.1214/08-AOAS169
[25] 卡普兰,E.L。;Meier,P.,“不完全观测的非参数估计,美国统计协会杂志,53,457-481(1958)·Zbl 0089.14801号 ·doi:10.1080/01621459.1958.10501452
[26] Ke,G。;孟,Q。;Finley,T。;Wang,T。;陈,W。;马伟(Ma,W.)。;Ye,Q。;Liu,T.-Y。;盖恩,I。;乌克兰卢克斯堡。;Bengio,S。;瓦拉赫,H。;弗格斯,R。;Vishwanathan,S。;Garnett,R.,《神经信息处理系统的进展》30,LightGBM:高效梯度提升决策树,3146-3154(2017),Curran Associates,Inc
[27] M.H.Khan。;Shaw,J.E.H.,“利用一类自适应弹性网技术、统计和计算对生存数据进行变量选择,26,725-741(2016)·Zbl 1505.62220号 ·doi:10.1007/s11222-015-9555-8
[28] 科瓦姆,H。;博根,Ø。;Scheel,I.,“利用神经网络和Cox回归进行时间到事件预测”,《机器学习研究杂志》,20,1-30(2019)·兹比尔1440.62354
[29] 朗,M。;粘合剂,M。;J.Richter。;Schratz,P。;普菲斯特勒,F。;库尔斯,S。;Au,Q。;卡萨利基奥,G。;Kotthoff,L。;Bischl,B.,“mlr3:R中的现代面向对象机器学习框架,开源软件杂志,41903(2019)·doi:10.21105/joss.01903
[30] 伦德伯格,S.M。;埃里昂,G.G。;Lee,S.-I.,“树集合的一致个性化特征归因”(2019)
[31] Miller,R.G.,“截尾数据最小二乘回归,生物特征,63,449-464(1976)·Zbl 0344.62058号 ·doi:10.1093/biomet/63.449
[32] Mimi,A。;Khan,M.H.R.,“使用修正的相关调整相关(mcar)得分对删失数据进行变量选择,医学统计学,405046-5064(2021)·doi:10.1002/sim.9110
[33] 米切尔,R。;Frank,E.,“使用GPU计算加速XGBoost算法”,PeerJ计算机科学,3,e127(2017)·doi:10.7717/peerj-cs.127
[34] Ou,R.,“核心外GPU梯度增强”(2020)
[35] 佩德雷戈萨,F。;瓦洛奎,G。;Gramfort,A。;米歇尔,V。;蒂里昂,B。;O.格栅。;布隆德尔,M。;普雷滕霍弗,P。;韦斯,R。;杜堡,V。;范德普拉斯,J。;帕索斯,A。;库纳波,D。;布鲁彻,M。;佩罗,M。;爱沙尼亚公爵夫人。,“Scikit-learn:Python中的机器学习,机器学习研究杂志,12825-2830(2011)·Zbl 1280.68189号
[36] Pölsterl,S.,“scikit-survival:基于scikit-learn构建的时间到事件分析库”,《机器学习研究杂志》,21,1-6(2020)
[37] 普罗霍伦科娃,L。;Gusev,G。;沃罗贝夫,A。;Dorogush,A.V。;古林,A。;本吉奥,S。;瓦拉赫,H。;拉罗谢尔,H。;Grauman,K。;塞萨·比安奇,N。;Garnett,R.,《神经信息处理系统的进展》31,CatBoost:无偏增强与分类特征,6638-6648(2018),Curran Associates,Inc
[38] Rigaill,G。;霍金,T。;垂直,J.-P。;巴赫,F.,172-180(2013)
[39] 施密德,M。;Hothorn,T.,“加速失效时间模型的灵活推进”,BMC生物信息学,9,269-269(2008)·doi:10.1186/1471-2105-9-269
[40] Susto,G.A。;Schiru,A。;Pampuri,S。;麦克卢恩,S。;Beghi,A.,“预测性维护的机器学习:多分类器方法”,IEEE工业信息学汇刊,11,812-820(2015)·doi:10.1109/TII.2014.2349359
[41] Therneau,T.M.(2015)
[42] Uno,H。;蔡,T。;Pencina,M.J。;达戈斯蒂诺,R.B。;Wei,L.-J.,“关于使用截尾生存数据评估风险预测程序总体充分性的C统计量,医学统计学,30,1105-1117(2011)·doi:10.1002/sim.4154
[43] 瓦伊德,A。;Somani,S。;Russak,A.J。;De Freitas,J.K。;乔杜里,F.F。;巴拉尼佩,I。;约翰逊,K.W。;Lee,S.J。;米奥托,R。;Richter,F。;赵,S。;北卡罗来纳州贝克曼。;奈克,北。;起亚,A。;Timsina,P。;拉拉,A。;Paranjpe,M。;Golden,E。;Danieletto,M。;辛格,M。;梅耶,D。;O'Reilly,P.F。;哈金斯,L。;科瓦奇,P。;Finkelstein,J。;弗里曼·R·M。;Argulian,E。;Kasarskis,A。;珀查,B。;Aberg,J.A。;Bagiella,E。;Horowitz,C.R。;B.墨菲。;内斯特勒,E.J。;Schadt,E.R。;Cho,J.H。;科尔登·卡多,C。;保险丝,V。;Charney,D.S。;Reich,D.L。;Bottinger,E.P。;莱文,硕士。;纳鲁拉,J。;法亚德,Z.A。;只是,A.C。;Charney,A.W。;纳德卡尼,G.N。;Glicksberg,B.S.,“纽约市新冠肺炎患者队列中预测死亡率和关键事件的机器学习:模型开发和验证,医学互联网研究杂志,22,e24018(2020)·数字对象标识代码:10.2196/24018
[44] Van den Poel,D。;Larivière,B.,“使用比例风险模型的金融服务客户流失分析”,《欧洲运筹学杂志》,157196-217(2004)·Zbl 1106.91318号 ·doi:10.1016/S0377-2217(03)00069-9
[45] 维埃拉,D。;Gimenez,G。;马默罗拉,G。;Estima,V.,“XGBoost生存嵌入:改进XGBoo斯特生存分析实现的统计特性”,(2021)
[46] 维冈欧,A。;多根,M。;白金汉,J。;布鲁拉,E。;Suarez-Almazor,M.E.,“晚期癌症患者的生存预测:医学文献的系统回顾,姑息医学,14363-374(2000)·doi:10.1191/026921600701536192
[47] 王,P。;李毅。;Reddy,C.K.,“生存分析的机器学习:一项调查,ACM计算调查,51,1-36(2019)·数字对象标识代码:10.1145/3214306
[48] Wei,L.-J.,“加速失效时间模型:生存分析中Cox回归模型的一个有用替代方案,医学统计学,118711871-1879(1992)·doi:10.1002/sim.4780111409
[49] 张,T。;Yu,B.,《关于推进程序的趋同》,904-911(2003),AAAI出版社
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。