×

线性混合模型中的模型选择。 (英语) Zbl 1331.62364号

概述:线性混合效应模型在处理广泛的数据类型方面非常灵活,因此在应用中得到了广泛应用。数据分析中的一个关键部分是模型选择,它通常旨在从可能非常大的一组候选统计模型中选择一个具有其他所需属性的简约模型。在过去的5-10年里,关于线性混合模型中模型选择的文献增长极为迅速。该问题比线性回归中的问题复杂得多,因为由于计算问题和协方差矩阵上的半正定约束引起的边界问题,协方差结构的选择并不简单。为了更好地理解可用的方法、它们的性质以及它们之间的关系,我们回顾了大量关于线性混合模型选择的文献。我们基于四种主要方法安排、实施、讨论和比较模型选择方法:信息标准(如AIC或BIC)、基于惩罚损失函数(如LASSO)的收缩方法、围栏程序和贝叶斯技术。

MSC公司:

62J12型 广义线性模型(逻辑模型)
62J05型 线性回归;混合模型
62J07型 山脊回归;收缩估计器(拉索)
2015年1月62日 贝叶斯推断
62甲12 多元分析中的估计
62-02 与统计有关的研究展览(专著、调查文章)

软件:

半标准杆
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Ahn,M.、Zhang,H.H.和Lu,W.(2012)。线性混合模型中随机效应选择的基于矩的方法。统计师。Sinica公元22年1539-1562年·Zbl 0968.31004号
[2] Aitkin,M.、Liu,C.C.和Chadwick,T.(2009)。用于小面积估计的贝叶斯模型比较和模型平均。附录申请。统计数据3 199-221·Zbl 1160.62021号 ·doi:10.1214/08-AOAS205
[3] Akaike,H.(1973)。信息论和最大似然原理的推广。第二届信息理论国际研讨会(Tsahkamphor,1971)(B.N.Petrov和F.Csaki编辑)267-281。布达佩斯阿卡德米亚·基奥·Zbl 0283.62006号
[4] Bondell,H.D.、Krishna,A.和Ghosh,S.K.(2010年)。线性混合效应模型中固定效应和随机效应的联合变量选择。生物识别66 1069-1077·Zbl 1233.62134号 ·文件编号:10.1111/j.1541-0420.2010.01391.x
[5] Bozdogan,H.(1987)。模型选择和Akaike信息准则(AIC):一般理论及其分析扩展。《心理测量学》52 345-370·Zbl 0627.62005号 ·doi:10.1007/BF02294361
[6] Bühlmann,P.和van de Geer,S.(2011)。高维数据统计:方法、理论和应用。海德堡施普林格·Zbl 1273.62015年 ·doi:10.1007/978-3-642-20192-9
[7] Burnham,K.P.和Anderson,D.R.(2002年)。模型选择和多模型推理:实用信息理论方法,第二版,Springer,纽约·Zbl 1005.62007号 ·数字对象标识代码:10.1007/b97636
[8] 伯纳姆,K.P.和怀特,G.C.(2002年)。评估适用于鸟鸣数据的一些随机效应方法。J.应用。统计数据29 245-266·Zbl 1346.62119号 ·doi:10.1080/02664760120108755
[9] Chen,Z.和Dunson,D.B.(2003)。线性混合模型中的随机效应选择。生物统计学59 762-769·Zbl 1214.62027号 ·doi:10.1111/j.0006-341X.2003.0089.x
[10] Chib,S.(1995)。吉布斯输出的边际可能性。J.Amer。统计师。协会90 1313-1321·Zbl 0868.62027号 ·doi:10.2307/2291521
[11] Claeskens,G.和Hjort,N.L.(2008)。模型选择和模型平均值。剑桥大学出版社,剑桥·Zbl 1166.62001号 ·doi:10.1017/CBO9780511790485
[12] Dimova,R.B.、Markatou,M.和Talal,A.H.(2011)。线性混合效应模型中模型选择的信息方法及其在HCV数据中的应用。计算。统计师。数据分析。55 2677-2697. ·Zbl 1465.62009号
[13] Efron,B.、Hastie,T.、Johnstone,I.和Tibshirani,R.(2004年)。最小角度回归。Ann.Statist公司。32 407-499. ·Zbl 1091.62054号 ·doi:10.1214/009053604000000067
[14] Fan,J.和Li,R.(2001)。通过非冲突惩罚似然及其oracle属性进行变量选择。J.Amer。统计师。协会96 1348-1360·Zbl 1073.62547号 ·doi:10.1198/016214501753382273
[15] Fan,Y.和Li,R.(2012)。线性混合效应模型中的变量选择。Ann.Statist公司。40 2043-2068. ·Zbl 1257.62077号 ·doi:10.1214/12-AOS1028
[16] Fan,J.和Lv,J.(2010)。高维特征空间中变量选择的选择性概述。统计师。Sinica 20 101-148号·Zbl 1180.62080号
[17] Fang,Y.(2011)。混合效应模型中交叉验证和Akaike信息准则之间的渐近等价性。数据科学杂志。9 15-21.
[18] Fay,R.E.III和Herriot,R.A.(1979年)。小地方收入估算:James-Stein程序在人口普查数据中的应用。J.Amer。统计师。协会74 269-277·doi:10.1080/01621459.1979.10482505
[19] Field,C.A.、Pang,Z和Welsh,A.H.(2010年)。集群数据的自举稳健估计。J.Amer。统计师。协会105 1606-1616·兹比尔1388.62072 ·doi:10.1198/jasa.2010.tm09541
[20] Field,C.A.和Welsh,A.H.(2007)。引导集群数据。J.R.统计社会服务。B统计方法。69 369-390. ·文件编号:10.1111/j.1467-9868.2007.00593.x
[21] Foster,S.D.、Verbyla,A.P.和Pitchford,W.S.(2007年)。将LASSO效应纳入定量性状位点检测的混合模型。《农业杂志》。生物与环境。《法律总汇》第12卷第300-314页·Zbl 1306.62275号 ·doi:10.1198/108571107X200396
[22] Friedman,J.、Hastie,T.、Höfling,H.和Tibshirani,R.(2007)。路径坐标优化。附录申请。统计数字1 302-332·Zbl 1378.90064号 ·doi:10.1214/07-AOAS131
[23] Gelman,A.、Robert,C.P.和Rousseau,J.(2010)。我们需要综合贝叶斯/似然推理吗?可从获取。arXiv:1012.2184v1
[24] Green,P.J.(1995)。可逆跳跃马尔可夫链蒙特卡罗计算和贝叶斯模型确定。生物特征82 711-732·Zbl 0861.62023号 ·doi:10.1093/biomet/82.4.711
[25] Greven,S.和Kneib,T.(2010年)。关于线性混合模型中边际和条件AIC的行为。生物特征97 773-789·Zbl 1204.62114号 ·doi:10.1093/biomet/asq042
[26] Han,C.和Carlin,B.P.(2001)。计算贝叶斯因子的马尔可夫链蒙特卡罗方法:比较综述。J.Amer。统计师。协会96 1122-1132。
[27] Hannan,E.J.和Quinn,B.G.(1979年)。确定自回归的顺序。J.罗伊。统计师。Soc.序列号。B 41 190-195年·Zbl 0408.62076号
[28] 亨德森·C·R(1950)。遗传参数估计。安。数学。统计师。21 309-310.
[29] Hodges,J.S.和Sargent,D.J.(2001年)。计算等级和其他丰富参数模型中的自由度。生物特征88 367-379·Zbl 0984.62045号 ·doi:10.1093/biomet/88.2.367
[30] Hoeting,J.A.、Davis,R.A.、Merton,A.A.和Thompson,S.E.(2006年)。地质统计模型的模型选择。生态日志。申请。16 87-98.
[31] Ibrahim,J.G.,Zhu,H.,Garcia,R.I.和Guo,R.(2011)。混合效应模型中的固定效应和随机效应选择。生物统计学67 495-503·Zbl 1217.62171号 ·文件编号:10.1111/j.1541-0420.2010.01463.x
[32] 江杰(2007)。线性和广义线性混合模型及其应用。纽约州施普林格·Zbl 1152.62040号 ·数字对象标识代码:10.1007/978-0-387-47946-0
[33] Jiang,J.,Luan,Y.和Wang,Y.-G.(2007)。迭代估计方程:线性收敛和渐近性质。Ann.Statist公司。35 2233-2260. ·Zbl 1126.62025号 ·doi:10.1214/009053607000000208
[34] Jiang,J.、Nguyen,T.和Rao,J.S.(2009年)。一种简化的自适应围栏程序。统计师。普罗巴伯。莱特。79 625-629. ·Zbl 1156.62340号 ·doi:10.1016/j.spl.2008.10.014
[35] Jiang,J.、Nguyen,T.和Rao,J.S.(2011年)。隐形栅栏方法和差异表达基因集的鉴定。统计接口4 403-415·Zbl 1245.62143号 ·doi:10.4310/SII.2011.v4.n3.a14
[36] Jiang,J.和Rao,J.S.(2003)。混合线性模型选择的一致程序。Sankhyá65 23-42·Zbl 1193.62112号
[37] Jiang,J.、Rao,J.S.、Gu,Z.和Nguyen,T.(2008)。混合模型选择的围栏方法。Ann.Statist公司。36 1669-1692年·Zbl 1142.62047号 ·doi:10.1214/07-AOS517
[38] Jones,R.H.(2011)。纵向和聚类数据的贝叶斯信息准则。统计医学30 3050-3056·doi:10.1002/sim.4323
[39] Kubokawa,T.(2011)。在线性混合模型中选择变量的条件和无条件方法。《多元分析杂志》。102 641-660. ·Zbl 1207.62144号 ·doi:10.1016/j.jmva.2010.11.007
[40] Laird,N.M.和Ware,J.H.(1982年)。纵向数据的随机效应模型。生物统计学38 963-974·Zbl 0512.62107号 ·doi:10.2307/2529876
[41] Liang,H.、Wu,H.和Zou,G.(2008)。关于线性混合效应模型的条件AIC的注记。生物特征95 773-778·Zbl 1437.62527号 ·doi:10.1093/biomet/asn023
[42] Liski,E.P.和Liski A.(2008年)。在线性混合模型中使用MDL准则进行模型选择,并将其应用于样条曲线平滑。《科学与工程信息理论方法第一次研讨会论文集》,芬兰坦佩雷,2008年8月18-20日(J.Heikkonen等人编辑)。
[43] McCulloch,C.E.(2003)。广义线性混合模型。NSF-CBMS概率与统计区域会议系列7。俄亥俄州比奇伍德IMS·Zbl 1041.62060号
[44] Meier,L.、van de Geer,S.和Bühlmann,P.(2008)。拉索组用于逻辑回归。J.R.统计社会服务。B统计方法。70 53-71. ·Zbl 1400.62276号 ·文件编号:10.1111/j.1467-9868.2007.00627.x
[45] Moody,J.E.(1992年)。有效参数数:非线性学习系统中泛化和正则化的分析。神经信息处理系统进展4(J.E.Moody、S.J.Hanson和R.P.Lippmann编辑)847-854。Morgan Kaufmann,圣马特奥。
[46] Müller,S.和Welsh,A.H.(2005)。线性回归中的异常稳健模型选择。J.Amer。统计师。协会100 1297-1310·Zbl 1117.62405号 ·doi:10.1198/01621450000000529
[47] Müller,S.和Welsh,A.H.(2009)。广义线性模型中的稳健模型选择。统计师。Sinica 19 1155-1170·Zbl 1166.62051号
[48] Müller,S.和Welsh,A.H.(2010)。在模型选择曲线上。国际。统计师。评论78 240-256。
[49] Murata,N.、Yoshizawa,S.和Amari,S.(1994年)。网络信息准则—确定人工神经网络模型的隐藏单元数。IEEE传输。神经系统。Netw公司。5 865-872.
[50] Nguyen,T.和Jiang,J.(2012)。纵向研究中协变量选择的限制栅栏法。生物统计学13 303-314。
[51] Ni,X.,Zhang,D.和Zhang、H.H.(2010)。纵向研究中半参数混合模型的变量选择。生物统计学66 79-88·兹比尔1187.62075 ·doi:10.1111/j.1541-0420.2009.01240.x
[52] Patterson,H.D.和Thompson,R.(1971)。块大小不相等时块间信息的恢复。生物特征58 545-554·Zbl 0228.62046号 ·doi:10.1093/biomet/583.545
[53] Pauler,D.K.(1998)。正态线性模型的Schwarz准则及相关方法。生物特征85 13-27·Zbl 1067.62550号 ·doi:10.1093/biomet/85.1.13
[54] Pauler,D.K.、Wakefield,J.C.和Kass,R.E.(1999)。方差分量模型的贝叶斯因子和近似。J.Amer。统计师。协会94 1242-1253·兹比尔0998.62017 ·doi:10.2307/2669938
[55] Peng,H.和Lu,Y.(2012)。线性混合效应模型中的模型选择。《多元分析杂志》。109 109-129. ·Zbl 1241.62105号 ·doi:10.1016/j.jmva.2012.02.05
[56] Pinheiro,J.C.和Bates,D.M.(2000)。S和Splus中的混合效应模型。纽约州施普林格·Zbl 0953.62065号 ·doi:10.1007/b98882
[57] Pourahmadi,M.(2011)。协方差估计:GLM和正则化的观点。统计师。科学。26 369-387. ·Zbl 1246.62139号 ·doi:10.1214/11-STS358
[58] Pu,W.和Niu,X.-F.(2006)。基于广义信息准则选择混合效应模型。《多元分析杂志》。97 733-758. ·Zbl 1085.62083号 ·doi:10.1016/j.jmva.2005.05.009
[59] Ripley,B.D.(1996)。模式识别和神经网络。剑桥大学出版社,剑桥·Zbl 0853.62046号
[60] Rissanen,J.(2007)。统计建模中的信息和复杂性。纽约州施普林格·Zbl 1156.62005年
[61] Ruppert,D.、Wand,M.P.和Carroll,R.J.(2003)。半参数回归。剑桥统计与概率数学系列12。剑桥大学出版社,剑桥·Zbl 1038.62042号
[62] Saville,B.R.和Herring,A.H.(2009年)。使用近似贝叶斯因子测试线性混合模型中的随机效应。生物统计学65 369-376·Zbl 1165.62085号 ·doi:10.1111/j.1541-0420.2008.01107.x
[63] Saville,B.R.、Herring,A.H.和Kaufman,J.S.(2011年)。使用近似贝叶斯因子评估多层线性模型中的方差分量:出生体重种族差异的个案研究。J.罗伊。统计师。Soc.序列号。A 174 785-804·doi:10.1111/j.1467-985X.2011.00685.x
[64] Schelldorfer,J.、Bühlmann,P.和van de Geer,S.(2011)。使用(ell_{1})惩罚的高维线性混合效应模型的估计。扫描。《美国联邦法律大全》第38卷第197-214页·Zbl 1246.62161号 ·doi:10.1111/j.1467-9469.2011.00740.x
[65] Schwarz,G.(1978年)。估算模型的维度。Ann.Statist公司。6 461-464. ·Zbl 0379.62005年 ·doi:10.1214/aos/1176344136
[66] Shang,J.和Cavanaugh,J.E.(2008)。混合模型选择的Akaike信息标准的引导变量。计算。统计师。数据分析。52 2004-2021. ·Zbl 1452.62512号
[67] Snijders,T.A.B.和Bosker,R.J.(1999)。多级分析:介绍基本和高级多级建模。Sage Publications,伦敦·Zbl 0953.62127号
[68] Spiegelhalter,D.J.、Best,N.G.、Carlin,B.P.和van der Linde,A.(2002)。模型复杂性和拟合的贝叶斯度量。J.R.统计社会服务。B统计方法。64 583-639. ·Zbl 1067.62010年 ·数字对象标识代码:10.1111/1467-9868.00353
[69] Srivastava,M.S.和Kubokawa,T.(2010)。线性混合模型中选择变量的条件信息准则。《多元分析杂志》。101 1970年至1980年·Zbl 1203.62121号 ·doi:10.1016/j.jmva.2010.05.007
[70] Stone,M.(1977年)。通过交叉验证和Akaike准则选择模型的渐近等价性。J.罗伊。统计师。Soc.序列号。B 39 44-47·Zbl 0355.6202号
[71] Sugiura,N.(1978年)。根据Akaike的信息准则和有限修正对数据进行进一步分析。通信统计。甲7 13-26·Zbl 0382.62060号 ·doi:10.1080/03610927808827599
[72] Takeuchi,K.(1976年)。信息统计的分布和模型拟合的标准。苏里·卡加库153 12-18。(日语)
[73] Tibshirani,R.(1996)。通过套索回归收缩和选择。J.罗伊。统计师。Soc.序列号。乙58 267-288·Zbl 0850.62538号
[74] Tibshirani,R.(2011)。回归收缩和套索选择:回顾。J.R.统计社会服务。B统计方法。73 273-282. ·doi:10.1111/j.1467-9868.2011.00771.x
[75] Vaida,F.和Blanchard,S.(2005年)。混合效应模型的条件Akaike信息。生物特征92 351-370·Zbl 1094.62077号 ·doi:10.1093/biomet/92.2.351
[76] Wang,D.、Eskridge,K.M.和Crossa,J.(2011年)。利用自适应混合LASSO鉴定结构植物种群中的QTL和上位性。《农业杂志》。生物与环境。《美国联邦法律大全》第16卷第170-184页·Zbl 1306.62358号 ·doi:10.1007/s13253-010-0046-2
[77] Wu,H.和Zhang,J.-T.(2002)。纵向数据的局部多项式混合效应模型。J.Amer。统计师。协会97 883-897·Zbl 1048.62048号 ·doi:10.1198/016214502388618672
[78] Ye,J.(1998)。关于测量和纠正数据挖掘和模型选择的影响。J.Amer。统计师。协会93 120-131·Zbl 0920.62056号 ·doi:10.2307/2669609
[79] Yuan,M.和Lin,Y.(2006)。分组变量回归中的模型选择和估计。J.R.统计社会服务。B统计方法。68 49-67. ·Zbl 1141.62030号 ·doi:10.1111/j.1467-9868.2005302.x
[80] Zou,H.(2006年)。自适应套索及其oracle属性。J.Amer。统计师。协会101 1418-1429·Zbl 1171.62326号 ·doi:10.1198/016214500000735
[81] 邹浩和李若明(2008)。非凹陷惩罚似然模型中的一步稀疏估计。Ann.Statist公司。36 1509-1533. ·Zbl 1142.62027号 ·doi:10.1214/0090536007000000802
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。