×

模型错误下纵向数据分析中混合效应的机器学习预测。 (英语) Zbl 07719516号

摘要:我们在纵向研究中考虑预测,并研究众所周知的统计混合效应模型、分段线性混合效应模型和六种不同的流行机器学习方法:决策树、袋装、随机森林、boosting、支持向量机和神经网络。为了在机器学习中考虑相关数据,将随机效应结合到传统的树方法和随机森林中。我们的重点是统计建模和机器学习的性能,特别是在固定效应和随机效应的指定错误的情况下。已经进行了广泛的模拟研究,以使用一些标准评估性能。对纵向研究的两个实际数据集进行了分析,以证明我们的发现。R代码和数据集可在https://github.com/shuwen92/MEML网站.

MSC公司:

62至XX 统计
PDF格式BibTeX公司 XML格式引用
全文: DOI程序

参考文献:

[1] Albert,PS,在随机效应错位的情况下,从纵向数据预测二进制事件的线性混合模型,《统计医学》,31,2,143-154(2012)·doi:10.1002/sim.4405
[2] 伯杰,M。;Tutz,G.,固定效应模型中的树结构聚类,J Comput Graph Stat,27,2,380-392(2018)·Zbl 07498955号 ·doi:10.1080/10618600.2017.1371030
[3] 伯罗卡尔,VJ;关,Y。;Muyskens,A。;Wang,H。;雷奇,BJ;马萨诸塞州穆霍兰德;Chang,HH,《创建环境PM2.5浓度全国每日地图的统计和机器学习方法比较》,《大气环境》,222(2020)·doi:10.1016/j.atmosenv.2019.117130
[4] 布雷曼,L。;JH弗里德曼;奥申,RA;Stone,CJ,分类和回归树(1984年),蒙特雷:沃兹沃斯,蒙特雷·兹伯利0541.62042
[5] Breiman,L.,《随机森林》,《马赫学习》,45,5-32(2001)·Zbl 1007.68152号 ·doi:10.1023/A:1010933404324
[6] Crane-Droesch A(2017)使用神经网络的半参数面板数据模型。arXiv公司:1702.06512
[7] Diggle,PJ;Heagerty,PJ;Liang,K-Y;Zeger,SL,《纵向数据分析》(2002),纽约:牛津大学出版社,纽约·Zbl 1031.62002号
[8] Drikvandi,R。;韦贝克,G。;Molenberghs,G.,《诊断混合模型中随机效应分布的指定错误》,《生物统计学》,73,1,63-71(2017)·Zbl 1366.62213号 ·doi:10.1111/biom.12551
[9] Eo,S-H;Cho,H.,纵向数据的树结构混合效应回归建模,《计算图形统计杂志》,23,740-760(2014)·doi:10.1080/10618600.2013.794732
[10] 傅伟(Fu,W.)。;Simonoff,JS,《纵向和聚类数据的无偏回归树》,《计算统计数据分析》,88,53-74(2015)·Zbl 1468.62058号 ·doi:10.1016/j.csda.2015.02.004
[11] Fritsch S、Guenther F、Wright MN(2019)《神经网络训练》。R软件包版本1.44.2。https://CRAN.R-project.org/package=neuralnet
[12] Greenwell B、Boehmke B、Cunningham J、GBM Developers(2019)GBM:广义增强回归模型。R包版本2.1.5。https://CRAN.R-project.org/package=gbm
[13] 格里利,L。;Rampichini,C.,《多级模型中随机效应的规范:综述》,Qual Quant,49,3,967-976(2015)·doi:10.1007/s11135-014-0060-5
[14] 哈杰姆,A。;贝拉万斯,F。;Larocque,D.,聚类数据的混合效应回归树,Stat Prob Lett,81,4,451-459(2011)·Zbl 1207.62136号 ·doi:10.1016/j.spl.2010.12.003
[15] 哈杰姆,A。;贝拉万斯,F。;Larocque,D.,集群数据的混合效应随机森林,J Stat Compute Simul,84,1313-1328(2014)·Zbl 1453.62543号 ·doi:10.1080/00949655.2012.741599
[16] 哈杰姆,A。;贝拉万斯,F。;Larocque,D.,广义混合效应回归树,Stat Prob Lett,126,114-118(2017)·Zbl 1381.62172号 ·doi:10.1016/j.spl.2017.02.033
[17] 惠,FK;缪勒,S。;威尔士,AH,在线性混合模型中,随机效应错误指定会对随机效应推断产生严重后果,《国际统计评论》,89,1,186-206(2021)·Zbl 07777532号 ·doi:10.1111/insr.12378
[18] 詹姆斯·G。;维滕,D。;哈斯蒂,T。;Tibshirani,R.,《统计学习导论》(2013),海德堡:斯普林格·Zbl 1281.62147号 ·doi:10.1007/978-1-4614-7138-7
[19] 北科利。;阿拉巴马州沙利文;Sadeh,S。;Zopluoglu,C.,《学习障碍学生和非学习障碍学生的纵向数学发展:线性、二次和分段线性混合效应模型的比较》,J Sch Psychol,53,2,105-120(2015)·doi:10.1016/j.jsp.2014.12.002
[20] 科尔里,N。;佩拉尔塔,Y。;Zopluoglu,C。;Davison,ML,关于估计具有未知变化点的单类分段混合效应模型的注记,《国际行为发展方法计量学》,42,518-524(2018)
[21] MG昆都;Harezlak,J.,《纵向数据与基线协变量的回归树》,《生物统计流行病学》,3,1,1-22(2019年)·doi:10.1080/24709360.2018.1557797
[22] 新墨西哥州莱尔德;Ware,JH,纵向数据的随机效应模型,生物统计学,38,963-974(1982)·Zbl 0512.62107号 ·doi:10.2307/2529876
[23] 莱尔德,N。;兰格,N。;斯特拉姆,D.,《重复测量的最大似然计算:EM算法的应用》,美国统计学会杂志,82,97-105(1987)·Zbl 0613.62063号 ·doi:10.1080/01621459.1987.10478395
[24] 李,H。;Wu,X.,比较机器学习方法和线性混合模型与纵向数据预测的随机效应,Hans J data Min,5,39-45(2015)·doi:10.12677/HJDM.2015.53006
[25] Liaw,A。;Wiener,M.,《随机森林分类和回归》,R News,2,3,18-22(2002)
[26] Lindstrom,MJ公司;Bates,DM,Newton-Raphson和EM算法,用于重复测量数据的线性混合效应模型,美国统计协会,83,1014-1022(1988)·Zbl 0671.65119号
[27] 卢,W-Y;Zheng,W.,纵向和多响应数据的回归树,Ann Appl Stat,7495-522(2013)·兹比尔1454.62198 ·doi:10.1214/12-AOAS596
[28] Louis C(2020)LongituRF:纵向数据的随机森林。R包版本0.9。https://CRAN.R-project.org/package=LongituRF
[29] Mangino,Anthony A,Finch,WH(2021)混合效应模型预测:蒙特卡罗模拟研究。教育与心理测量0013164421992818
[30] CE McCulloch;Neuhaus,JM,模型错误指定下线性和广义线性模型中随机效应的预测,生物计量学,67,1270-279(2011)·Zbl 1216.62177号 ·文件编号:10.1111/j.1541-0420.2010.01435.x
[31] CE McCulloch;Neuhaus,JM,《错误指定随机效应分布的形状:为什么出错可能无关紧要》,《统计科学》,26,3,388-402(2011)·Zbl 1246.62169号 ·doi:10.1214/11-TS361
[32] Meyer D.Dimitriadou E、Hornik K、Weingessel A、Leisch F(2019)e1071:统计部门的杂项职能,概率理论小组(前身:e1071),TU Wien。R包版本1.7-3。https://CRAN.R-project.org/package=e1071
[33] 恩古弗,C。;Houten,高压;Caffo,理学学士;新泽西州沙阿;McCoy,RG,《混合效应机器学习:预测血红蛋白A1c纵向变化的框架》,《生物信息杂志》,89,56-67(2019)·doi:10.1016/j.jbi.2018.09.001
[34] Nunez-Anton V,Woodworth GG(1994),利用不等间距观测值和时间相关误差分析纵向数据。生物统计学445-456·Zbl 0825.62775号
[35] 佩拉加蒂,M。;马西,C。;伊娃·F。;Paganoni,AM,《广义混合效应随机森林:预测大学生辍学的灵活方法》,Stat Anal Data Min ASA Data Sci J,14,3,241-257(2021)·doi:10.1002/sam.11505
[36] 皮涅罗,JC;贝茨,DM,S和S-PLUS中的混合效应模型(2000),纽约:施普林格,纽约·Zbl 0953.62065号 ·doi:10.1007/978-1-4419-0318-1
[37] Pinheiro J,Bates D,DebRoy S,Sarkar D,R核心团队(2020)nlme:线性和非线性混合效应模型。R软件包版本3.1-148。https://CRAN.R-project.org/package=nlme
[38] Ripley B(2019)树:分类和回归树。R软件包版本1.0-40。https://CRAN.R-project.org/package=tree
[39] 肖尔科夫,B。;Smola,AJ,《使用内核学习:支持向量机、正则化、优化和超越》(2002),剑桥:麻省理工学院出版社,剑桥
[40] Segal,MR,纵向数据的树结构模型,美国统计协会杂志,87,407-418(1992)·doi:10.1080/01621459.1992.10475220
[41] 塞拉,RJ;Simonoff,JS,RE-EM树:纵向和集群数据的数据挖掘方法,《马赫学习》,86,169-207(2012)·Zbl 1238.68131号 ·doi:10.1007/s10994-011-5258-3
[42] Shin,S。;奥斯汀,PC;罗斯,HJ;阿卜杜勒·卡迪尔,H。;弗雷塔斯,C。;汤姆林森,G。;奇科·D·。;马亨德兰,M。;劳勒,公关;Billia,F。;Gramolini,A.,预测心力衰竭再入院和死亡率的机器学习与传统统计模型,ESC心力衰竭,8,1,106-115(2021)·doi:10.1002/ehf2.13073
[43] 歌手,JD;Willett,JB,《应用纵向数据分析:建模变化和事件发生》(2003),牛津:牛津大学出版社,牛津·doi:10.1093/acprof:oso/9780195152968.001.0001
[44] Song X,Mitnitski A,Cox J,Rockwood K(2004)机器学习技术与经典统计模型预测健康结果的比较。MEDINFO 2004,第736-740页)。IOS出版社
[45] 肯塔基州文卡特什;斯特劳斯,RA;Grotegut,C。;海涅,RP;北卡罗来纳州切舍尔;纵梁,JS;Stamilio,DM;梅纳德,MK;Jelovsek,JE,《预测产后出血的机器学习和统计模型》,《妇产科学》,135,4,935(2020)·doi:10.1097/AOG.000000000003759
[46] 王,YG;Carey,V.,《工作相关结构错误指定、估计和协变量设计:对广义估计方程性能的影响》,《生物统计学》,90,1,29-41(2003)·Zbl 1035.62074号 ·doi:10.1093/biomet/90.1.29
[47] Wang,Y-G;Lin,X.,纵向数据分析中变量功能错误指定的影响,生物统计学,61413-421(2005)·Zbl 1077.62058号 ·文件编号:10.1111/j.1541-0420.2005.00321.x
[48] 魏伟(Wei,W.)。;O.拉马略。;Malingre,L。;Sivanantham,S。;小JC;Mandin,C.,《预测室内空气质量的机器学习和统计模型》,《室内空气》,29,5,704-726(2019)·doi:10.1111/ina.12580
[49] Xiong Y,Kim HJ,Singh V(2019)混合效应神经网络(menet)及其在凝视估计中的应用。摘自:IEEE/CVF计算机视觉和模式识别会议记录,第7743-7752页
[50] Yang,L。;刘,S。;措卡,S。;Papageorgiou,LG,分段线性回归分析的数学规划,专家系统应用,44,156-167(2016)·doi:10.1016/j.eswa.2015.08.034
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。