伊曼纽尔·德加尼;卢卡·梅斯特里尼;多罗塔·托奇德·奥斯卡;马特·旺德(Matt P.Wand)。 基于流线型变分贝叶斯的稀疏线性混合模型选择。 (英语) Zbl 07603106号 电子。J.统计。 16,编号2,5182-5225(2022). 概述:线性混合模型是一种通用的统计工具,用于研究数据,通过考虑来自多个变异来源的固定效应和随机效应。在许多情况下,有大量的候选固定效应可用,因此有必要从那些与预测响应变量有效相关的效应中选择一个节约型子集。变分近似有助于对各种统计模型(包括线性混合模型)的参数进行快速近似贝叶斯推断。然而,对于具有大量固定或随机效应的模型,由于模型设计矩阵的大小以及所需近似密度参数更新引起的稀疏矩阵问题的处理效率低下,简单应用标准变分推理原理并不会导致快速近似推理算法。我们说明了如何推广最近开发的流线型变分推理程序,以快速准确地推断具有嵌套随机效应和全局-局部先验的线性混合模型的参数,用于贝叶斯固定效应选择。我们的变分推理算法能够收敛到与标准实现相同的最优值,尽管计算量、内存使用量和时间都大大降低,特别是对于大量随机效应。使用模拟和实际数据示例,我们评估了无需调整超参数且仅依赖变分后验近似的固定效应选择自动程序的质量。此外,我们通过马尔可夫链蒙特卡罗抽样证明了变分近似对模型拟合的高精度。 MSC公司: 2015年1月62日 贝叶斯推断 62甲12 多元分析中的估计 62J05型 线性回归;混合模型 62J07型 岭回归;收缩估计器(拉索) 关键词:平均场变分贝叶斯;多级模型;纵向数据分析;固定效果选择;全局-局部收缩先验 软件:PRMLT公司;半标准杆;R(右);S-PLUS系统;内存管理系统;科恩平滑;RcppArmadillo公司;斯坦;业务风险管理系统;教学演示;EBayesThresh公司;推断。净值;犰狳 PDF格式BibTeX公司 XML格式引用 \textit{E.Degani}等人,《电子》。J.Stat.16,No.2,5182--5225(2022;Zbl 07603106) 全文: 内政部 arXiv公司 链接 参考文献: [1] ARMAGAN,A.和DUNSON,D.B.(2011年)。大数据集线性混合模型的稀疏变分分析。统计与概率信件81 1056-1062. ·Zbl 1219.62045号 [2] ARMAGAN,A.、DUNSON,D.B.和LEE,J.(2013)。广义双Pareto收缩。中国统计局23 119-143. ·Zbl 1259.62061号 [3] BALTAGI,B.H.(2021年)。面板数据的计量经济分析第六版《施普林格商会》·Zbl 1466.62002号 [4] BARBIERI,M.M.和BERGER,J.O.(2004)。最优预测模型选择。统计年鉴32 870-897. ·Zbl 1092.62033号 [5] BHADRA,A.、DATTA,J.、POLSON,N.G.和WILLARD,B.(2017年)。超稀疏信号的马蹄形+估计器。贝叶斯分析12 1105-1131. ·Zbl 1384.62079号 [6] BHADRA,A.、DATTA,J.、POLSON,N.G.和WILLARD,B.(2019年)。拉索遇到马蹄铁:一项调查。统计科学34 405-427. ·Zbl 1429.62308号 [7] BHATTACHARYA,A.、CHAKRABORTY,A.和MALLICK,B.K.(2016)。高维回归中高斯尺度混合先验的快速采样。生物特征103 985-991. [8] BHATTACHARYA,A.、PATI,D.、PILLAI,N.S.和DUNSON,D.B.(2015)。Dirichlet-Laplace优先考虑最佳收缩。美国统计协会杂志110 1479-1490. ·Zbl 1373.62368号 [9] Bishop,C.M.(2006年)。模式识别与机器学习.信息科学与统计纽约州施普林格·Zbl 1107.68072号 ·doi:10.1007/978-0-387-45528-0 [10] BLEI,D.M.、KUCUKELBIR,A.和MCAULIFFE,J.D.(2017)。变分推理:统计学家综述。美国统计协会杂志112 859-877. [11] BOGDAN,M.G.、CHAKRABARTI,A.、FROMMLET,F.和GHOSH,J.K.(2011年)。一些多重测试过程稀疏性下的渐近贝叶斯优化。统计年鉴39 1551-1579. ·Zbl 1221.62012年 [12] BONDELL,H.D.和REICH,B.J.(2012)。通过惩罚可信区域进行一致的高维贝叶斯变量选择。美国统计协会杂志107 1610-1624. ·Zbl 1258.62026号 [13] BOYD,S.和VANDENBERGHE,L.(2004)。凸优化剑桥大学出版社,剑桥·Zbl 1058.90049号 [14] BROWN,H.和PRESCOTT,R.(2015年)。医学中的应用混合模型第三版,John Wiley&Sons·Zbl 1304.92002号 [15] BüRKNER,P.-C.(2018年)。使用R包brms的高级贝叶斯多级建模。R杂志10 395-411. ·doi:10.32614/RJ-2018-017 [16] CARBONETTO,P.和STEPHENS,M.(2012年)。回归中贝叶斯变量选择的可缩放变分推理及其在遗传关联研究中的准确性。贝叶斯分析7 73-107. ·Zbl 1330.62089号 [17] 卡彭特,B.,盖尔曼,A.,霍夫曼,M.D.,李,D.,古德里奇,B.,贝当古,M.,布鲁贝克,M.、郭,J.,李,P.和里德尔,A.(2017)。斯坦:一种概率编程语言。统计软件杂志76 1-32. [18] CARVALHO,C.M.、POLSON,N.G.和SCOTT,J.G.(2009年)。通过马蹄处理稀疏。在第十二届国际人工智能与统计会议记录.机器学习研究进展5 73-80. PMLR,美国佛罗里达州克利尔沃特海滩希尔顿克利尔沃特海滩度假村。 [19] Carvalho,C.M.、Polson,N.G.和Scott,J.G.(2010年)。稀疏信号的马蹄形估计器。生物特征97 465-480. ·Zbl 1406.62021号 ·doi:10.1093/biomet/asq017 [20] 陈,Z.和邓森,D.B.(2003)。线性混合模型中的随机效应选择。生物计量学。国际生物识别学会杂志59 762-769. ·Zbl 1214.62027号 [21] DEGANI,E.、MAESTRINI,L.、TOC-4DŁOWSKA,D.和WAND,M.P.(2022)。补充“通过流线型变分贝叶斯选择稀疏线性混合模型”。DOI:10.1214/22-EJS2063供应。 [22] EDDELBUETTEL,D.和SANDERSON,C.(2014)。RcppArmadillo:使用高性能C++线性代数加速R。计算统计与数据分析71 1054-1063. ·Zbl 1471.62055号 [23] EFRON,B.(2008)。微阵列、经验贝叶斯和两组模型。统计科学23 1-22. ·Zbl 1327.62046号 [24] FAES,C.、ORMEROD,J.T.和WAND,M.P.(2011年)。缺失数据的参数和非参数回归的变分贝叶斯推断。美国统计协会杂志106 959-971·Zbl 1229.62028号 [25] FAN,Y.和LI,R.(2012)。线性混合效应模型中的变量选择。统计年鉴40 2043-2068. ·Zbl 1257.62077号 [26] FITZMAURICE,G.、DAVIDIAN,M.、VERBEKE,G.和MOLENBERGHS,G.(2008)。纵向数据分析CRC出版社。 [27] Frank,I.E.和Friedman,J.H.(1993年)。一些化学计量学回归工具的统计视图。技术计量学35 109-135. ·Zbl 0775.62288号 [28] GELMAN,A.(2006年)。层次模型中方差参数的先验分布(Browne和Draper的文章评论)。贝叶斯分析1 515-533. ·Zbl 1331.62139号 [29] 乔治,E.I.和麦考洛,R.E.(1997)。贝叶斯变量选择方法。中国统计局7 339-374. ·Zbl 0884.62031号 [30] GOLDSTEIN,H.(2010年)。多级统计模型第四版,John Wiley&Sons Inc。 [31] GRIFFIN,J.E.和BROWN,P.J.(2010)。回归问题中正态伽马先验分布的推断。贝叶斯分析5 171-188. ·Zbl 1330.62128号 [32] GRIFFIN,J.E.和BROWN,P.J.(2011年)。具有非凸惩罚的贝叶斯超律。澳大利亚和新西兰统计杂志53 423-442. ·Zbl 1335.62047号 [33] GROLL,A.和TUTZ,G.(2014年)。基于\[{L_1}\]-惩罚估计的广义线性混合模型变量选择。统计与计算24 137-154. ·Zbl 1325.62139号 [34] HAHN,P.R.和CARVALHO,C.M.(2015)。贝叶斯线性模型中的解耦收缩和选择:后验总结视角。美国统计协会杂志110 435-448. ·Zbl 1373.62036号 [35] Hoerl,A.E.和Kennard,R.W.(1970年)。岭回归:非正交问题的有偏估计。技术计量学12 55-67之间·Zbl 0202.17205号 ·网址:10.1080/00401706.1970.10488634 [36] HUANG,A.和WAND,M.P.(2013)。协方差矩阵的简单边缘非信息先验分布。贝叶斯分析8 439-451. ·Zbl 1329.62135号 [37] HUGHES,D.M.、GARCíA-FIñANA,M.和WAND,M.P.(2021年)。多元纵向数据的快速近似推断。生物统计学(年份和页码待定。)。 [38] HUI,F.K.C.、MüLLER,S.和WELSH,A.H.(2017)。基于正则化PQL的混合模型联合选择。美国统计协会杂志112 1323-1333. [39] ISHWARAN,H.和RAO,J.S.(2005年)。尖峰和平板变量选择:频率和贝叶斯策略。统计年鉴33 730-773. ·Zbl 1068.62079号 [40] JOHNSTONE,I.M.和SILVERMAN,B.W.(2005)。小波阈值的经验贝叶斯选择。统计年鉴33 1700-1752. ·Zbl 1078.62005号 [41] KINNEY,S.K.和DUNSON,D.B.(2007年)。线性和逻辑模型中的固定和随机效应选择。生物计量学。国际生物识别学会杂志63 690-698. ·Zbl 1147.62022号 [42] KLEBANOFF,M.A.(2009年)。合作围产期项目:50年回顾。儿科和围产期流行病学23 2-8. [43] KORTE,A.、VILHJáLMSSON,B.J.、SEGURA,V.、PLATT,A.、LONG,Q.和NORDBORG,M.(2012)。结构种群中相关性状的全基因组关联研究的混合模型方法。自然遗传学44 1066-1071. [44] LEE,C.Y.Y.和WAND,M.P.(2016)。用于纵向和多级数据分析的流线型平均场变分贝叶斯。生物医学杂志58 868-895. ·Zbl 1386.62005年 [45] LENG,C.、TRAN,M.-N.和NOTT,D.(2014)。贝叶斯自适应拉索。统计数学研究所年鉴66 221-244. ·Zbl 1334.62130号 [46] LI,H.和PATI,D.(2017)。使用收缩先验选择变量。计算统计与数据分析107 107至119·Zbl 1466.62135号 [47] LI,J.、WANG,Z.、LI,R.和WU,R.(2015)。贝叶斯群Lasso用于非参数变系数模型,并应用于全基因组功能关联研究。应用统计学年鉴9 640-664. ·Zbl 1397.62260号 [48] LI,Y.,WANG,S.,SONG,P.X.K.,WANG,N.,ZHOU,L.和ZHU,J.(2018)。高维纵向数据线性混合效应模型中的双重正则化估计和选择。统计及其界面11 721-737. ·Zbl 06944680号 [49] LINDNER,C.C.和RODGER,C.A.(2008)。设计理论,第二版。离散数学及其应用查普曼和霍尔/CRC,佛罗里达州博卡拉顿。 [50] LUTS,J.、BRODERICK,T.和WAND,M.P.(2014)。实时半参数回归。计算与图形统计杂志23 589-615之间。 [51] MAESTRINI,L.(2018)。《关于频繁和贝叶斯推理的变分逼近》,意大利帕多瓦大学博士论文。 [52] MAESTRINI,L.和WAND,M.P.(2018年)。歪斜(t)回归的变量消息传递。斯达7 e196,11。 [53] MAESTRINI,L.和WAND,M.P.(2021年)。逆G-Wishart分布和变分消息传递。澳大利亚和新西兰统计杂志63 517-541. ·Zbl 1521.62092号 [54] MCLEAN,M.W.和WAND,M.P.(2019年)。详细响应回归模型的变量消息传递。贝叶斯分析14 371-398. ·Zbl 1416.62221号 [55] MENICTAS,M.、CREDICO,G.D.和WAND,M.P.(2022年)。具有交叉随机效应的线性混合模型的流线化变分推理。计算与图形统计杂志.(卷和页码待定)。 [56] MENICTAS,M.、NOLAN,T.H.、SIMPSON,D.G.和WAND,M.P.(2021年)。高水平群体特定曲线模型的流线型变分推理。统计建模21 479-519之间·Zbl 07506791号 [57] MINKA,T.P.、WINN,J.M.、GUIVER,J.P.、ZAYKOV,Y.、FABIAN,D.和BRONSKILL,J.(2018)。推断。净额0.3。微软剑桥研究院。http://dotnet.github.io/infer。 [58] MITCHELL,T.J.和BEAUCHAMP,J.J.(1988)。线性回归中的贝叶斯变量选择。美国统计协会杂志83 1023-1036. ·Zbl 0673.62051号 [59] NEVILLE,S.E.、ORMEROD,J.T.和WAND,M.P.(2014)。连续稀疏信号收缩的平均场变分贝叶斯:缺陷和补救措施。电子统计学杂志8 1113-1151. ·Zbl 1298.62050号 [60] NOLAN,T.H.、MENICTAS,M.和WAND,M.P.(2020年)。具有高级随机效应的变分推理的流线型计算。机器学习研究杂志(JMLR)21第157、62号论文·Zbl 1527.62024号 [61] NOLAN,T.H.和WAND,M.P.(2017)。精确的逻辑变量信息传递:代数和数值细节。斯达6 102-112. [62] NOLAN,T.H.和WAND,M.P.(2020年)。多级稀疏矩阵问题的简化解决方案。澳大利亚和新西兰工业和应用数学杂志62 18-41. ·Zbl 1450.65030号 [63] O'HARA,R.B.和SILLANPÉõ,M.J.(2009年)。贝叶斯变量选择方法综述:内容、方式和内容。贝叶斯分析4 85-117. ·Zbl 1330.62291号 [64] 世界卫生组织(2006年)。世卫组织儿童生长标准:身高/身高-年龄、体重-年龄、重量-身高、体重-身高和体重指数-年龄:方法和发展。可在https://apps.who.int/iris/handle/10665/43413。 [65] ORMEROD,J.T.和WAND,M.P.(2010年)。解释变分近似。美国统计学家64 140-153. ·Zbl 1200.65007号 [66] ORMEROD,J.T.、YOU,C.和MüLLER,S.(2017年)。变量选择的变分贝叶斯方法。电子统计学杂志11 3549-3594. ·Zbl 1384.62240号 [67] PARK,T.和CASELLA,G.(2008)。贝叶斯拉索。美国统计协会杂志103 681-686. ·Zbl 1330.62292号 [68] Pinheiiro,J.C.和BATES,D.M.(2006)。S和S-Plus中的混合效应模型纽约州施普林格。 [69] POLSON,N.G.和SCOTT,J.G.(2011年)。全局收缩,局部行动:稀疏贝叶斯正则化和预测。在贝叶斯统计,9501-538. 牛津大学出版社,牛津。 [70] RAO,J.N.K.和MOLINA,I.(2015)。小面积估算,第二版。测量方法学中的威利级数。John Wiley&Sons,Inc.,新泽西州霍博肯·Zbl 1323.62002号 [71] RAY,P.和BHATTACHARYA,A.(2018年)。马蹄跑步机的信号自适应可变选择器。arXiv预打印arXiv:1810.09004. [72] Ruppert,D.、Wand,M.P.和Carroll,R.J.(2003)。半参数回归.剑桥统计与概率数学系列12.剑桥大学出版社,剑桥·Zbl 1038.62042号 [73] SANDERSON,C.和CURTIN,R.(2016)。Armadillo:一个基于模板的线性代数C++库。开源软件杂志1 [74] SCHELLDORFER,J.、BüHLMANN,P.和VAN DE GEER,S.(2011年)。使用\[{\ell_1}\]-惩罚估计高维线性混合效应模型。斯堪的纳维亚统计杂志。理论与应用38 197-214. ·Zbl 1246.62161号 [75] SIKORSKA,K.、RIVADENEIRA,F.、GROENEN,P.J.、HOFMAN,A.、UITTERLINDEN,A.G.、EILERS,P.H.和LESAFFRE,E.(2013)。使用纵向数据进行全基因组关联研究的快速线性混合模型计算。医学统计学32 165-180. [76] 斯诺,G.(2020)。教学演示:教学演示R包版本2.12。https://CRAN.R-project.org/package=教学演示。 [77] TANG,X.、GHOSH,M.、XU,X.和GHOSH(P.)(2018年)。基于全局-局部收缩先验的贝叶斯变量选择和估计。Sankhya A.印度统计杂志80 215-246. [78] 泰勒,P.M.(1980)。生命的第一年:国家神经和沟通障碍与中风研究所的合作围产期项目。美国医学会杂志244 1503-1503. [79] R核心团队(2020年)。R: 统计计算语言和环境R统计计算基金会,奥地利维也纳https://www.R-project.org/。 [80] TIBSHIRANI,R.(1996)。通过套索回归收缩和选择。英国皇家统计学会杂志。B系列(统计方法)58 267-288. ·兹比尔0850.62538 [81] TUNG,D.T.,TRAN,M.-N.和CUONG,T.M.(2019年)。用于高维广义线性混合模型中变量选择的具有变分贝叶斯的贝叶斯自适应套索。统计学中的传播。模拟和计算48 530-543. ·Zbl 07551450号 [82] VAN RIJSBERGEN,C.J.(2004)。信息检索的几何学剑桥大学出版社,剑桥·Zbl 1095.68030号 [83] VERBEKE,G.和MOLENBERGHS,G.(2000)。纵向数据的线性混合模型.统计学中的斯普林格系列纽约斯普林格·弗拉格·Zbl 0956.62055号 [84] VONESH,E.F.和CHINCHILLI,V.M.(1997)。重复测量分析的线性和非线性模型.统计:教科书和专著154.马赛尔·德克尔公司,纽约·Zbl 0893.62077号 [85] WAND,M.P.(2020年)。KernSmooth:内核平滑支持棒和琼斯(1995)R包版本2.23-18的功能。https://CRAN.R-project.org/package=KernSmooth。 [86] WAND,M.P.和JONES,M.C.(1995)。平滑化.统计学和应用概率专著60.伦敦查普曼霍尔有限公司·Zbl 0854.62043号 [87] WAND,M.P.、ORMEROD,J.T.、PADOAN,S.A.和FR u HRWIRTH,R.(2011)。精细分布的平均场变分贝叶斯。贝叶斯分析6 847-900. ·Zbl 1330.62158号 [88] WANG,S.S.J.和WAND,M.P.(2011年)。使用推断的统计计算和图形。NET用于统计分析。美国统计学家65 115-126. ·Zbl 06244069号 [89] YANG,M.(2013)。具有变量选择的贝叶斯非参数中心随机效应模型。生物医学杂志55 217-230. ·Zbl 1441.62541号 [90] YANG,M.、WANG,M.和DONG,G.(2020年)。具有收缩先验的混合效应模型的贝叶斯变量选择。计算统计学35 227-243. ·Zbl 1505.62430号 [91] ZHANG,Y.和BONDELL,H.D.(2018)。通过具有Dirichlet-Laplace全局-局部收缩先验的惩罚可信区域进行变量选择。贝叶斯分析13 823-844. ·Zbl 1407.62272号 [92] ZHAO,Y.、STAUDENMAYER,J.、COULL,B.A.和WAND,M.P.(2006)。一般设计贝叶斯广义线性混合模型。统计科学21 35-51. ·Zbl 1129.62063号 [93] 邹华(2006)。自适应套索及其Oracle属性。美国统计协会杂志101 1418-1429. ·Zbl 1171.62326号 [94] ZOU,H.和HASTIE,T.(2005)。通过弹性网进行正则化和变量选择。英国皇家统计学会杂志。B系列(统计方法)67 301-320. ·Zbl 1069.62054号 此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。