×

缺失协变量的Logistic回归——联合建模框架内的参数估计、模型选择和预测。 (英语) Zbl 1510.62322号

摘要:Logistic回归是监督学习中常用的分类方法。令人惊讶的是,对于协变量中缺失值的逻辑回归,几乎没有解决方案。为了对缺失值进行统计推断,提出了一种基于EM算法随机近似版本的完整方法,包括参数及其方差的估计、置信区间的推导以及模型选择过程。还解决了在缺失协变量数据的测试集上预测新观测值的问题。通过与以往方法进行比较的仿真研究,证明了该方法计算效率高,具有良好的覆盖和变量选择特性。然后,通过预测失血性休克的发生率,在巴黎医院的严重创伤患者数据集上说明了该方法,失血性震惊是严重创伤患者早期可预防死亡的主要原因。其目的是改进当前的红旗程序,这是一种识别严重出血高危患者的二进制警报。该方法在R包中实现米萨姆.

MSC公司:

62J12型 广义线性模型(逻辑模型)
62天10分 缺少数据
10层62层 点估计
62页第10页 统计学在生物学和医学中的应用;元分析
62-08 统计问题的计算方法
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Brier,G.W.,以概率表示的预测验证,周一。《天气评论》,78,1,1-3(1950)
[2] Chow,W.K.,《在存在缺失值的情况下物流模型中的各种估计方法》技术报告(1979),美国加州圣莫尼卡兰德公司
[3] Claeskens,G。;Consentino,F.,《不完全协变量数据的变量选择》,生物统计学,64,1062-1069(2008)·Zbl 1152.62388号
[4] Consentino,F。;Claeskens,G.,《逻辑回归、估计和分布选择中的缺失协变量》,统计模型。,11, 2, 159-183 (2011) ·Zbl 07256842号
[5] Delyon,B。;拉维耶,M。;Moulines,E.,EM算法随机近似版本的收敛性,Ann.Statist。,27, 1, 94-128 (1999) ·Zbl 0932.62094号
[6] Dempster,A.P。;莱尔德,新墨西哥州。;Rubin,D.B.,《通过EM算法从不完整数据中获得最大似然》,J.R.Stat.Soc.Ser。B统计方法。,39, 1, 1-38 (1977) ·Zbl 0364.62022号
[7] 吉尔克斯,W.R。;Wild,P.P.,吉布斯采样的自适应抑制采样,Appl。Stat.,41,2,337-348(1992)·Zbl 0825.62407号
[8] 很好,I.J.,理性决策,J.R.Stat.Soc.Ser。B统计方法。,107-114 (1952)
[9] 滨田,S.R。;高斯,T。;杜恰图,F.-X。;Truchot,J。;Harrois,A。;劳克斯,M。;杜兰托,J。;曼茨,J。;Paugam-Burtz,C.,《法国医师提供的紧急医疗服务在主要创伤患者分诊中的绩效评估》,《创伤急性护理外科杂志》,76,6,1476-1483(2014)
[10] 滨田,S.R。;高斯,T。;潘恩,J。;Dünser,M.W。;Léone,M。;Duranteau,J.,《欧洲创伤指南依从性评估:ETRAUSS研究》,Crit.Care,19423(2015)
[11] 滨田,S.R。;罗莎,A。;高斯,T。;Desclefs,J.-P。;劳克斯,M。;Harrois,A。;福林,A。;库克,F。;Boutonet,M。;阿提亚斯,A。;Ausset,S。;Dhonneur,G。;兰杰隆,O。;Paugam-Burtz,C。;Pirrachio,R。;里奥乌,B。;de St Maurice,G。;维古,B。;Rouquette,A。;Duranteau,J.,开发和验证院前“红旗”警报,以激活钝性创伤中的院内出血控制反应,Crit.Care,22,1132018
[12] Hay,S.I.,《1990-2016年195个国家和地区333种疾病和伤害的全球、区域和国家伤残调整生命年和健康预期寿命:2016年全球疾病负担研究的系统分析》,《柳叶刀》,390,10100,1260-1344(2017)
[13] Hentges,A.L。;Dunsmore,I.R.,《缺失数据的二进制模型中的预测分布》,Comm.Statist。模拟计算。,27, 3, 735-759 (1998) ·Zbl 0946.62028号
[14] 易卜拉欣,J.G。;陈先生。;Lipsitz,S.R.,参数回归模型中缺失协变量的蒙特卡罗EM,生物统计学,55591-596(1999)·Zbl 1059.62662号
[15] 易卜拉欣,J.G。;陈先生。;Lipsitz,S.R。;Herring,A.H.,《广义线性模型的Missing数据方法:比较综述》,J.Amer。统计师。协会,100,469,332-346(2005)·Zbl 1117.62360号
[16] Jiang,W.,misaem:缺失协变量的Logistic回归(2019),R包版本0.9.1
[17] Jiang,W.,“缺失协变量的Logistic回归——联合建模框架内的参数估计、模型选择和预测”的代码和实现(2019年)
[18] Jiang,W.,“缺失协变量的Logistic回归——联合建模框架内的参数估计、模型选择和预测”的补充材料(2019年)
[19] 姜杰。;Nguyen,T。;Rao,J.S.,《E-MS算法:不完全数据的模型选择》,J.Amer。统计师。协会,110,511,1136-1147(2015)·Zbl 1377.62078号
[20] Josse,J。;Husson,F.,missMDA:处理多元数据分析中缺失值的软件包,J.Stat.Softw。,70, 1, 1-31 (2016)
[21] Josse,J。;普罗斯特,N。;Scornet,E。;Varoquaux,G.,关于监督学习与缺失值的一致性(2019年),arXiv电子打印arXiv:1902.06931
[22] Lavielle,M.,《人口方法的混合效应模型:模型、任务、方法和工具》(2014),Chapman和Hall/CRC
[23] 利特尔,R.J。;Rubin,D.B.,《缺失数据的统计分析》(2002),John Wiley&Sons,Inc·Zbl 1011.62004号
[24] 刘,Y。;Wang,Y。;Feng,Y。;Wall,M.M.,《不完全高维数据的变量选择和预测》,Ann.Appl。统计,10,1,418-450(2016)·Zbl 1454.62028号
[25] Louis,T.A.,《使用EM算法时发现观测信息矩阵》,J.R.Stat.Soc.Ser。B统计方法。,44, 2, 226-233 (1982) ·Zbl 0488.62018号
[26] 麦克拉克伦,G。;Krishnan,T.,(EM算法和扩展。EM算法与扩展,概率统计中的Wiley级数(2008),Wiley:Wiley Hoboken,NJ)·兹比尔1165.62019
[27] 孟,X.-L。;Rubin,D.B.,使用EM获得渐近方差-方差矩阵:SEM算法,J.Amer。统计师。协会,86,416,899-909(1991)
[28] R核心团队,X.-L.,R:A Language and Environment for Statistical Computing(2017),R统计计算基金会:R统计计算基金会,奥地利维也纳
[29] Rubin,D.B.,《调查中无应答的多重插补》,第307卷(2009年),John Wiley&Sons
[30] Schafer,J.L。;Schenker,N.,《用插补条件平均数进行推断》,J.Amer。统计师。协会,95,449,144-154(2000)·Zbl 1014.62023号
[31] 希曼,S。;加拉蒂,J。;Jackson,D。;Carlin,J.,“随机失踪”是什么意思?,统计师。科学。,28, 2, 257-268 (2013) ·Zbl 1331.62036号
[32] 斯特霍芬,D.J。;Buehlmann,P.,MissForest–混合型数据的非参数缺失值插补,生物信息学,28,1,112-118(2012)
[33] van Buuren,S。;Groothuis-Oudshoorn,K.,《小鼠:通过R,J.Stat.Softw中的链式方程进行多元插补》。,45, 3, 1-67 (2011)
[34] 魏,G.C.G。;Tanner,M.A.,EM算法和穷人数据增强算法的蒙特卡罗实现,J.Amer。统计师。协会,85,411,699-704(1990)
[35] 伍德,A.M。;怀特,I.R。;Royston,P.,如何使用多重插补数据进行变量选择?,《统计医学》,27、17、3227-3246(2008)
[36] Yuen Fung,K。;Wrobel,B.A.,逻辑回归中缺失值的处理,生物。J.,31,35-47(1989)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。