胡舒文;王友根;克里斯托弗·德罗万迪;曹、陶云 模型错误下纵向数据分析中混合效应的机器学习预测。 (英语) Zbl 07719516号 统计方法应用。 32,编号2,681-711(2023). 摘要:我们在纵向研究中考虑预测,并研究众所周知的统计混合效应模型、分段线性混合效应模型和六种不同的流行机器学习方法:决策树、袋装、随机森林、boosting、支持向量机和神经网络。为了在机器学习中考虑相关数据,将随机效应结合到传统的树方法和随机森林中。我们的重点是统计建模和机器学习的性能,特别是在固定效应和随机效应的指定错误的情况下。已经进行了广泛的模拟研究,以使用一些标准评估性能。对纵向研究的两个实际数据集进行了分析,以证明我们的发现。R代码和数据集可在https://github.com/shuwen92/MEML网站. MSC公司: 62至XX 统计 关键词:纵向数据;错误说明;机器学习;混合效应模型;回归树;支持向量机;比较研究 软件:S-PLUS系统;MEMSS公司;e1071号;树;神经网状物;千兆字节;MEML公司;国家实验室 PDF格式BibTeX公司 XML格式引用 \textit{S.Hu}等人,《统计方法应用》。32,编号2,681--711(2023;Zbl 07719516) 全文: DOI程序 OA许可证 参考文献: [1] Albert,PS,在随机效应错位的情况下,从纵向数据预测二进制事件的线性混合模型,《统计医学》,31,2,143-154(2012)·doi:10.1002/sim.4405 [2] 伯杰,M。;Tutz,G.,固定效应模型中的树结构聚类,J Comput Graph Stat,27,2,380-392(2018)·Zbl 07498955号 ·doi:10.1080/10618600.2017.1371030 [3] 伯罗卡尔,VJ;关,Y。;Muyskens,A。;Wang,H。;雷奇,BJ;马萨诸塞州穆霍兰德;Chang,HH,《创建环境PM2.5浓度全国每日地图的统计和机器学习方法比较》,《大气环境》,222(2020)·doi:10.1016/j.atmosenv.2019.117130 [4] 布雷曼,L。;JH弗里德曼;奥申,RA;Stone,CJ,分类和回归树(1984年),蒙特雷:沃兹沃斯,蒙特雷·兹伯利0541.62042 [5] Breiman,L.,《随机森林》,《马赫学习》,45,5-32(2001)·Zbl 1007.68152号 ·doi:10.1023/A:1010933404324 [6] Crane-Droesch A(2017)使用神经网络的半参数面板数据模型。arXiv公司:1702.06512 [7] Diggle,PJ;Heagerty,PJ;Liang,K-Y;Zeger,SL,《纵向数据分析》(2002),纽约:牛津大学出版社,纽约·Zbl 1031.62002号 [8] Drikvandi,R。;韦贝克,G。;Molenberghs,G.,《诊断混合模型中随机效应分布的指定错误》,《生物统计学》,73,1,63-71(2017)·Zbl 1366.62213号 ·doi:10.1111/biom.12551 [9] Eo,S-H;Cho,H.,纵向数据的树结构混合效应回归建模,《计算图形统计杂志》,23,740-760(2014)·doi:10.1080/10618600.2013.794732 [10] 傅伟(Fu,W.)。;Simonoff,JS,《纵向和聚类数据的无偏回归树》,《计算统计数据分析》,88,53-74(2015)·Zbl 1468.62058号 ·doi:10.1016/j.csda.2015.02.004 [11] Fritsch S、Guenther F、Wright MN(2019)《神经网络训练》。R软件包版本1.44.2。https://CRAN.R-project.org/package=neuralnet [12] Greenwell B、Boehmke B、Cunningham J、GBM Developers(2019)GBM:广义增强回归模型。R包版本2.1.5。https://CRAN.R-project.org/package=gbm [13] 格里利,L。;Rampichini,C.,《多级模型中随机效应的规范:综述》,Qual Quant,49,3,967-976(2015)·doi:10.1007/s11135-014-0060-5 [14] 哈杰姆,A。;贝拉万斯,F。;Larocque,D.,聚类数据的混合效应回归树,Stat Prob Lett,81,4,451-459(2011)·Zbl 1207.62136号 ·doi:10.1016/j.spl.2010.12.003 [15] 哈杰姆,A。;贝拉万斯,F。;Larocque,D.,集群数据的混合效应随机森林,J Stat Compute Simul,84,1313-1328(2014)·Zbl 1453.62543号 ·doi:10.1080/00949655.2012.741599 [16] 哈杰姆,A。;贝拉万斯,F。;Larocque,D.,广义混合效应回归树,Stat Prob Lett,126,114-118(2017)·Zbl 1381.62172号 ·doi:10.1016/j.spl.2017.02.033 [17] 惠,FK;缪勒,S。;威尔士,AH,在线性混合模型中,随机效应错误指定会对随机效应推断产生严重后果,《国际统计评论》,89,1,186-206(2021)·Zbl 07777532号 ·doi:10.1111/insr.12378 [18] 詹姆斯·G。;维滕,D。;哈斯蒂,T。;Tibshirani,R.,《统计学习导论》(2013),海德堡:斯普林格·Zbl 1281.62147号 ·doi:10.1007/978-1-4614-7138-7 [19] 北科利。;阿拉巴马州沙利文;Sadeh,S。;Zopluoglu,C.,《学习障碍学生和非学习障碍学生的纵向数学发展:线性、二次和分段线性混合效应模型的比较》,J Sch Psychol,53,2,105-120(2015)·doi:10.1016/j.jsp.2014.12.002 [20] 科尔里,N。;佩拉尔塔,Y。;Zopluoglu,C。;Davison,ML,关于估计具有未知变化点的单类分段混合效应模型的注记,《国际行为发展方法计量学》,42,518-524(2018) [21] MG昆都;Harezlak,J.,《纵向数据与基线协变量的回归树》,《生物统计流行病学》,3,1,1-22(2019年)·doi:10.1080/24709360.2018.1557797 [22] 新墨西哥州莱尔德;Ware,JH,纵向数据的随机效应模型,生物统计学,38,963-974(1982)·Zbl 0512.62107号 ·doi:10.2307/2529876 [23] 莱尔德,N。;兰格,N。;斯特拉姆,D.,《重复测量的最大似然计算:EM算法的应用》,美国统计学会杂志,82,97-105(1987)·Zbl 0613.62063号 ·doi:10.1080/01621459.1987.10478395 [24] 李,H。;Wu,X.,比较机器学习方法和线性混合模型与纵向数据预测的随机效应,Hans J data Min,5,39-45(2015)·doi:10.12677/HJDM.2015.53006 [25] Liaw,A。;Wiener,M.,《随机森林分类和回归》,R News,2,3,18-22(2002) [26] Lindstrom,MJ公司;Bates,DM,Newton-Raphson和EM算法,用于重复测量数据的线性混合效应模型,美国统计协会,83,1014-1022(1988)·Zbl 0671.65119号 [27] 卢,W-Y;Zheng,W.,纵向和多响应数据的回归树,Ann Appl Stat,7495-522(2013)·兹比尔1454.62198 ·doi:10.1214/12-AOAS596 [28] Louis C(2020)LongituRF:纵向数据的随机森林。R包版本0.9。https://CRAN.R-project.org/package=LongituRF [29] Mangino,Anthony A,Finch,WH(2021)混合效应模型预测:蒙特卡罗模拟研究。教育与心理测量0013164421992818 [30] CE McCulloch;Neuhaus,JM,模型错误指定下线性和广义线性模型中随机效应的预测,生物计量学,67,1270-279(2011)·Zbl 1216.62177号 ·文件编号:10.1111/j.1541-0420.2010.01435.x [31] CE McCulloch;Neuhaus,JM,《错误指定随机效应分布的形状:为什么出错可能无关紧要》,《统计科学》,26,3,388-402(2011)·Zbl 1246.62169号 ·doi:10.1214/11-TS361 [32] Meyer D.Dimitriadou E、Hornik K、Weingessel A、Leisch F(2019)e1071:统计部门的杂项职能,概率理论小组(前身:e1071),TU Wien。R包版本1.7-3。https://CRAN.R-project.org/package=e1071 [33] 恩古弗,C。;Houten,高压;Caffo,理学学士;新泽西州沙阿;McCoy,RG,《混合效应机器学习:预测血红蛋白A1c纵向变化的框架》,《生物信息杂志》,89,56-67(2019)·doi:10.1016/j.jbi.2018.09.001 [34] Nunez-Anton V,Woodworth GG(1994),利用不等间距观测值和时间相关误差分析纵向数据。生物统计学445-456·Zbl 0825.62775号 [35] 佩拉加蒂,M。;马西,C。;伊娃·F。;Paganoni,AM,《广义混合效应随机森林:预测大学生辍学的灵活方法》,Stat Anal Data Min ASA Data Sci J,14,3,241-257(2021)·doi:10.1002/sam.11505 [36] 皮涅罗,JC;贝茨,DM,S和S-PLUS中的混合效应模型(2000),纽约:施普林格,纽约·Zbl 0953.62065号 ·doi:10.1007/978-1-4419-0318-1 [37] Pinheiro J,Bates D,DebRoy S,Sarkar D,R核心团队(2020)nlme:线性和非线性混合效应模型。R软件包版本3.1-148。https://CRAN.R-project.org/package=nlme [38] Ripley B(2019)树:分类和回归树。R软件包版本1.0-40。https://CRAN.R-project.org/package=tree [39] 肖尔科夫,B。;Smola,AJ,《使用内核学习:支持向量机、正则化、优化和超越》(2002),剑桥:麻省理工学院出版社,剑桥 [40] Segal,MR,纵向数据的树结构模型,美国统计协会杂志,87,407-418(1992)·doi:10.1080/01621459.1992.10475220 [41] 塞拉,RJ;Simonoff,JS,RE-EM树:纵向和集群数据的数据挖掘方法,《马赫学习》,86,169-207(2012)·Zbl 1238.68131号 ·doi:10.1007/s10994-011-5258-3 [42] Shin,S。;奥斯汀,PC;罗斯,HJ;阿卜杜勒·卡迪尔,H。;弗雷塔斯,C。;汤姆林森,G。;奇科·D·。;马亨德兰,M。;劳勒,公关;Billia,F。;Gramolini,A.,预测心力衰竭再入院和死亡率的机器学习与传统统计模型,ESC心力衰竭,8,1,106-115(2021)·doi:10.1002/ehf2.13073 [43] 歌手,JD;Willett,JB,《应用纵向数据分析:建模变化和事件发生》(2003),牛津:牛津大学出版社,牛津·doi:10.1093/acprof:oso/9780195152968.001.0001 [44] Song X,Mitnitski A,Cox J,Rockwood K(2004)机器学习技术与经典统计模型预测健康结果的比较。MEDINFO 2004,第736-740页)。IOS出版社 [45] 肯塔基州文卡特什;斯特劳斯,RA;Grotegut,C。;海涅,RP;北卡罗来纳州切舍尔;纵梁,JS;Stamilio,DM;梅纳德,MK;Jelovsek,JE,《预测产后出血的机器学习和统计模型》,《妇产科学》,135,4,935(2020)·doi:10.1097/AOG.000000000003759 [46] 王,YG;Carey,V.,《工作相关结构错误指定、估计和协变量设计:对广义估计方程性能的影响》,《生物统计学》,90,1,29-41(2003)·Zbl 1035.62074号 ·doi:10.1093/biomet/90.1.29 [47] Wang,Y-G;Lin,X.,纵向数据分析中变量功能错误指定的影响,生物统计学,61413-421(2005)·Zbl 1077.62058号 ·文件编号:10.1111/j.1541-0420.2005.00321.x [48] 魏伟(Wei,W.)。;O.拉马略。;Malingre,L。;Sivanantham,S。;小JC;Mandin,C.,《预测室内空气质量的机器学习和统计模型》,《室内空气》,29,5,704-726(2019)·doi:10.1111/ina.12580 [49] Xiong Y,Kim HJ,Singh V(2019)混合效应神经网络(menet)及其在凝视估计中的应用。摘自:IEEE/CVF计算机视觉和模式识别会议记录,第7743-7752页 [50] Yang,L。;刘,S。;措卡,S。;Papageorgiou,LG,分段线性回归分析的数学规划,专家系统应用,44,156-167(2016)·doi:10.1016/j.eswa.2015.08.034 此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。