×

使用神经网络和传统方法估计倾向得分:一项比较模拟研究。 (英语) Zbl 07773980号

摘要:神经网络是一种竞争性的数据挖掘程序,用于估计倾向得分,因为它对非正态残差分布具有鲁棒性,能够检测治疗和混杂变量之间的复杂非线性关系,非必要的模型规范,以及基于观察到的事件进行训练的兼容性。在本研究中,我们开发了人工神经网络架构来估计分类治疗的倾向得分。为了进行比较,我们使用更流行的技术估计了倾向得分:逻辑回归、多项式逻辑回归和使用回归树(GBM)的广义增强逻辑回归。之前的研究发现,与其他方法相比,GBM的预测误差更低,并且证明它不需要模型规范,但提到了几个过拟合的情况。我们使用蒙特卡罗模拟来处理样本系数、模型规格和固定样本大小,以比较经过训练的机器学习算法与从未见过的数据的泛化误差。神经网络在真实倾向得分和估计倾向得分之间产生了更高的相关性。此外,其他性能指标,如交叉熵值,表明人工神经网络可能比更流行的估计倾向得分的方法更准确。

MSC公司:

62至XX 统计
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Alam,S。;穆迪,E。;斯蒂芬斯,D.,倾向得分模型应该是超级的吗?集合程序对因果调整的效用,《医学统计》,38,9,1690-702(2019)·doi:10.1002/sim.8075
[2] Altman,D.G.,《医学研究的实用统计》(1990),佛罗里达州博卡拉顿:CRC出版社
[3] 阿皮诺,B。;Mealli,F.,《多层观察研究中倾向评分的规范》,计算统计与数据分析,55,4,1770-80(2011)·Zbl 1328.62019号 ·doi:10.1016/j.csda.2010.11.008
[4] Austin,P.C.,《使用基于集合的方法直接评估因果效应:基于树的G计算的调查》,《多元行为研究》,47,1,115-35(2012)·doi:10.1080/00273171.2012.640600
[5] O.本姆。;Van der Laan,M.J.,逆概率加权估计量截断水平的数据自适应选择(2008)
[6] 美人蕉。;Arpino,B.,《倾向得分匹配和加权的机器学习算法和协变量平衡度量的比较》,《生物医学杂志》(2019年)·Zbl 1429.62504号 ·doi:10.1002/bimj.201800132
[7] Choi,B。;王,C。;Michalek,J。;Gelfond,J.,倾向评分方法的功率比较,计算统计学,34,2,743-61(2019)·兹伯利1417.65031 ·doi:10.1007/s00180-018-0852-5
[8] 科利尔,Z.K。;Leite,W.L.,《倾向得分分析中的人工神经网络教程》,《实验教育杂志》(2020年)·doi:10.1080/00220973.2020.1854158
[9] 科利尔,Z.K。;Leite,W.L。;Karpyn,A.,估计连续治疗剂量的广义倾向得分的神经网络,评估综述。(2021) ·doi:10.1177/0193841X21992199
[10] Colombet,I。;Ruelland,A。;Chatellier,G。;Gueyffer,F。;Degoulet,P.公司。;Jaunter,M.C.,《预测心血管风险的模型:CART、多层感知器和logistic回归的比较》,156(2000),美国医学信息学会
[11] 核心团队,R.,R:统计计算的语言和环境(2017),奥地利维也纳:R统计计算基金会,奥地利维也纳
[12] Drake,C.,倾向评分的错误指定对治疗效果评估的影响,生物统计学,49,4,1231-6(1993)·doi:10.2307/2532266
[13] 北卡罗来纳州法拉。;顾,H。;穆罕默德,K。;Seyyedsalehi,S.A。;努里杰利亚尼,K。;Eshraghian,M.R.,《使用神经网络的非线性泊松回归:模拟研究》,神经计算与应用,18,8,939-43(2009)·doi:10.1007/s00521-009-0277-8
[14] 芬恩,P。;R·芬恩。;Auvinen,A。;胡塞拉,H。;Aro,J。;Määttänen,L。;Hakama,M。;兰尼科,S。;Tammela,T.L.J。;Stenman,U.-H.,通过多层感知器网络预测筛查阳性男性前列腺活检结果,泌尿外科,56,3,418-22(2000)·doi:10.1016/S0090-4295(00)00672-5
[15] 弗伦德,Y。;Schapire,R.,《在线学习的决策理论推广及其在助推中的应用》,《计算机与系统科学杂志》,55,1,119-39(1997)·Zbl 0880.68103号 ·doi:10.1006/jcss.1997.1504
[16] Friedman,J.H.,《贪婪函数近似:梯度提升机器》,《统计年鉴》,291189-232(2001)·Zbl 1043.62034号
[17] 弗里德曼,J.H。;哈斯蒂,T。;Tibshirani,R.,《加性逻辑回归:增长的统计观点》,《统计年鉴》,28,337-74(2000)·Zbl 1106.62323号
[18] Géron,A.,《使用科学基础知识、keras和张量流进行机器学习:构建智能系统的概念、工具和技术》(2019年),马萨诸塞州牛顿:奥莱利媒体
[19] 古德费罗,I。;Y.本吉奥。;A.Courville,《深度学习》(2016),马萨诸塞州剑桥:麻省理工学院出版社·Zbl 1373.68009号
[20] Gurel,S.2015年。处理多层次观察研究中的选择偏差:倾向评分和直接评估程序的评估(未发表的博士论文)。佛罗里达州盖恩斯维尔佛罗里达大学。
[21] Hasan,A.、Zhiyu,W.和Mahani,A.S.,2014年。多项式logit模型的快速估计:R包mnlogit。arXiv:1404.3177。
[22] 希尔,J.L。;韦斯,C。;翟,F.,高维环境下倾向得分匹配的挑战和潜在替代方案,多变量行为研究,46,3,477-513(2011)·doi:10.1080/00273171.2011.570161
[23] 辛顿,G.E。;Salakhutdinov,R.R.,《用神经网络降低数据的维数》,《科学》(纽约),3135786504-7(2006)·Zbl 1226.68083号 ·doi:10.1126/science.1127647
[24] Hirano,K。;Imbens,G.W.,《使用倾向评分权重估计因果效应:右心导管检查数据的应用,卫生服务和结果研究方法》,2,3-4,259-78(2001)·doi:10.1023/A:1020371312283
[25] Imai,K。;Van Dyk,D.A.,《一般治疗方案的因果推断》,《美国统计协会杂志》,99,467,854-66(2004)·Zbl 1117.62361号 ·doi:10.1198/0162145000001187
[26] Imbens,G.W.,倾向评分在估计剂量反应函数中的作用,生物统计学,87,3,706-10(2000)·Zbl 1120.62334号 ·doi:10.1093/biomet/87.3.706
[27] 英迪拉,V。;瓦桑塔库马里,R。;Jegadeeshwaran,R。;Sugumaran,V.,《利用功率分析确定汽车液压制动系统故障诊断的最小样本量》,《工程科学与技术:国际期刊》,18,1,59-69(2015)
[28] Jain,A。;南达库马尔,K。;Ross,A.,多模式生物特征识别系统中的分数标准化,模式识别,38,12,2270-85(2005)·doi:10.1016/j.patcog.2005.01.012
[29] Ju,C。;施瓦布,J。;van der Laan,M.J.,《因果推断中的自适应倾向得分截断》,医学研究统计方法,28,61741-60(2019)·doi:10.1177/0962280218774817
[30] Kim,J。;Seltzer,M.,《多层次环境中的因果推理,其中选择过程因学校而异》(2007年),加利福尼亚州洛杉矶:加利福尼亚州洛杉矶评估研究中心
[31] Krogh,A。;Vedelsby,J.,《神经网络集成、交叉验证和主动学习》,神经信息处理系统进展,231-238(1995)
[32] 科特,I。;特雷,M。;Kurum,A.T.,《logistic回归、分类和回归树以及神经网络预测冠心病的性能比较》,《专家系统与应用》,34,1,366-374(2008)·doi:10.1016/j.eswa.2006.09.004
[33] LeCun,Y。;博图,L。;Orr,G.B。;Müller,K.R.,《神经网络:贸易的诡计,高效支持》,9-48(2012),柏林,海德堡:施普林格,柏林,海德堡
[34] Lee,B.K。;Lessler,J。;Stuart,E.A.,《使用机器学习改进倾向得分权重》,《医学统计学》,29,3,337-346(2010)·doi:10.1002/sim.3782
[35] Leite,W.,《使用R(2017)的实用倾向评分方法》,千橡树,加利福尼亚州:SAGE Publications
[36] Leite,W.L。;希门尼斯,F。;Kaya,Y。;斯台普顿,L.M。;MacInnes,J.W。;Sandbach,R.,《基于倾向得分的加权方法评估,以减少多层观察性研究中的选择偏差》,《多元行为研究》,50,3,265-284(2015)·doi:10.1080/00273171.2014.991018
[37] 曼内尔,S。;威廉姆斯,H.C。;Ormerod,S.J.,《评估生态学中的存在-缺失模型:解释流行的必要性》,《应用生态学杂志》,38,5,921-931(2001)·网址:10.1046/j.1365-2664.2001.00647.x
[38] McCaffrey,D.F。;Griffin,B.A。;阿尔米拉尔,D。;屠宰,M.E。;Ramchand,R。;Burgette,L.F.,《使用广义增强模型对多种治疗进行倾向评分估计的教程》,《医学统计学》,32,19,3388-3414(2013)·数字对象标识代码:10.1002/sim.5753
[39] McCaffrey,D.F。;里奇韦,G。;Morral,A.R.,在观察性研究中评估因果效应的增强回归倾向评分估计,《心理学方法》,9,4,403-425(2004)·doi:10.1037/1082-989X.9.4.403
[40] 奥列尼克,S。;Algina,J.,《广义eta和omega平方统计:一些常见研究设计的效果大小度量》,《心理学方法》,8,4,434-447(2003)·doi:10.1037/1082-989X.8.4.434
[41] 佩德雷戈萨,F。;瓦洛奎,G。;Gramfort,A。;米歇尔,V。;Thirion,B.公司。;O.格栅。;Vanderplas,J.,《Scikit-learn:Python中的机器学习》,《机器学习研究杂志》,2011年10月12日,第2825-2830页·Zbl 1280.68189号
[42] 佩杜齐,P。;Concato,J。;Kemper,E。;霍尔福德,T.R。;Feinstein,A.R.,logistic回归分析中每个变量的事件数模拟研究,临床流行病学杂志,49,12,1373-1379(1996)·doi:10.1016/s0895-4356(96)00236-3
[43] 彼得森,M.L。;波特,K.E。;Gruber,S。;Wang,Y。;Van Der Laan,M.J.,《诊断和应对积极假设中的违规行为》,《医学研究中的统计方法》,第21、1、31-54页(2012年)·doi:10.1177/0962280210386207
[44] Pirrachio,R。;彼得森,M.L。;van der Laan,M.,使用超级学习器提高倾向得分估计器对模型错误指定的鲁棒性,美国流行病学杂志,181,2108-119(2015)·doi:10.1093/aje/kwu253
[45] 普朗基特,K。;Elman,J.L.,《反思天赋的练习:连接主义模拟手册》(1997),马萨诸塞州剑桥:麻省理工学院出版社
[46] 里奇韦,G.,《增长的状态》,《计算科学与统计》,31172-181(1999)
[47] 罗森鲍姆,P.R。;Rubin,D.B.,《倾向评分在因果效应观察性研究中的中心作用》,《生物统计学》,70,1,41-55(1983)·Zbl 0522.62091号 ·doi:10.1093/biomet/70.1.41
[48] 罗森鲍姆,P.R。;Rubin,D.B.,《利用倾向得分的亚类化减少观察性研究中的偏差》,《美国统计协会杂志》,79,387,516-524(1984)·doi:10.1080/01621459.1984.10478078
[49] Setoguchi,S。;Schneeweiss,S。;布鲁克哈特,文学硕士。;Glynn,R.J。;Cook,E.F.,《评估数据挖掘技术在倾向得分估计中的应用:一项模拟研究》,药物流行病学和药物安全,17,6,546-555(2008)·doi:10.1002/pds.1555
[50] Stuart,E.A.,《因果推理的匹配方法:回顾与展望》,《统计科学:数理统计研究所评论期刊》,25,1,1-21(2010)·Zbl 1328.62007号 ·doi:10.1214/09-STS313
[51] 苏巴西,A。;Ercelebi,E.,使用神经网络和逻辑回归对脑电图信号进行分类,生物医学中的计算机方法和程序,78,2,87-99(2005)·doi:10.1016/j.cmpb.2004.10.009
[52] 托马斯,F.J。;Kim,E.S.,《社会科学中倾向评分方法的系统综述》,《多元行为研究》,46,1,90-118(2011)·doi:10.1080/00273171.2011.540475
[53] Tu,C.,估计广义倾向得分的各种机器学习算法的比较,《统计计算与模拟杂志》,89,4,708-19(2019)·Zbl 07193748号 ·doi:10.1080/00949655.2019.1571059
[54] Tu,J.,使用人工神经网络与逻辑回归预测医疗结果的优缺点,《临床流行病学杂志》,49,11,1225-1231(1996)·doi:10.1016/S0895-4356(96)00002-9
[55] Van Rossum,G.和F.L.Drake Jr.,1995年。Python参考手册。阿姆斯特丹:Wiskunde en Informatica中心。
[56] 韦斯特里奇,D。;Lessler,J。;Funk,M.J.,《倾向性得分估计:神经网络、支持向量机、决策树(CART)和元分类器作为逻辑回归的替代方法》,《临床流行病学杂志》,63,8,826-833(2010)·doi:10.1016/j.jclinepi.2009.11.020
[57] Witten,I.H.,E.Frank,M.A.Hall,C.J.Pal和数据挖掘。2005.实用机器学习工具和技术。《数据挖掘》(第2卷,第4页)·Zbl 1076.68555号
[58] Yee,T.W.,分类数据分析的VGAm包,《统计软件杂志》,32,10,1-34(2010)·doi:10.18637/jss.v032.i10
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。