×

广义线性模型中基于置信分布的分布式同时推理。 (英语) 兹比尔1436.62357

摘要:在广义线性模型框架下,我们提出了一种分布式方法,用于对样本量远大于协变量数的数据集进行同时推理,或者,当数据集已经存储在分布式数据库系统中时,分合策略是可伸缩性的选择方法。由于划分,子数据集样本大小可能不均匀,有些可能接近\(p\),这需要正则化技术来提高数值稳定性。然而,缺乏明确的理论依据和实用指南来组合从单独的正则化估值器获得的结果,特别是当最终目标是同时推断一组回归参数时。在本文中,我们开发了一种策略,通过使用置信分布来组合偏差校正的Lasso型估计。我们表明,得到的组合估计器与使用集中数据的最大似然估计器具有相同的估计效率。如模拟和实际数据示例所示,我们的分合方法产生了与集中式基准几乎相同的推理。

MSC公司:

62J12型 广义线性模型(逻辑模型)
2007年6月62日 岭回归;收缩估计器(拉索)
62兰特 大数据和数据科学的统计方面
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] 阿霍,A.V。;Hopcroft,J.E.,《计算机算法的设计与分析》(1974),培生教育印度·Zbl 0326.68005号
[2] Battey,H。;范,J。;刘,H。;卢,J。;朱忠,稀疏高维模型下的分布式测试与估计,Ann.Statist。,46, 3, 1352-1382 (2018) ·Zbl 1392.62060号
[3] Bühlmann,P。;van de Geer,S.,《高维数据统计:方法、理论和应用》(2011),施普林格科学与商业媒体·Zbl 1273.62015年
[4] 陈,X。;谢,M.,《分析超大数据的分而治之方法》,《统计学》。Sinica,24,4,1655-1684(2014)·Zbl 1480.62258号
[5] 迪安·J。;Ghemawat,S.,MapReduce:大型集群上的简化数据处理,Commun。ACM,51,1,107-113(2008)
[6] Diemert,E。;Meynet,J。;加兰德,P。;Lefortier,D.,归因建模提高了展示广告的竞标效率,(《AdKDD和TargetAd研讨会论文集》,KDD,2017年8月14日(2017),ACM:ACM Halifax,NS,Canada),第2页
[7] 多诺霍,D.L。;Johnstone,J.M.,《小波收缩的理想空间自适应》,《生物统计学》,第81、3、425-455页(1994年)·兹比尔0815.62019
[8] Efron,B.,基于置信区间的贝叶斯和似然计算,Biometrika,80,1,3-26(1993)·Zbl 0773.62021号
[9] 范,J。;Han,F。;Liu,H.,大数据分析的挑战,Natl。科学。修订版,1,2293-314(2014)
[10] 范,J。;Li,R.,通过非冲突惩罚似然进行变量选择及其预言性质,J.Amer。统计师。协会,96,456,1348-1360(2001)·Zbl 1073.62547号
[11] Fisher,R.A.,《统计方法和科学推断》(1956),哈夫纳出版公司:哈夫纳出版社,英国牛津·Zbl 0070.36903号
[12] 弗里德曼,J。;哈斯蒂,T。;Tibshirani,R.,通过坐标下降广义线性模型的正则化路径,J.Stat.Softw。,33, 1, 1 (2010)
[13] van de Geer,S。;Bühlmann,P。;Ritov,Y。;Dezeure,R.,《关于高维模型的渐近最优置信域和检验》,《统计年鉴》。,42, 3, 1166-1202 (2014) ·Zbl 1305.62259号
[14] 对冲,L.V。;Olkin,I.,《荟萃分析的统计方法》(2014),学术出版社
[15] 约翰逊·R·A。;Wichern,D.W.,应用多元统计分析(2002),普伦蒂塞·霍尔:普伦蒂塞·霍尔伦敦
[16] 凯鹏华盈,A。;Talwalkar,A。;Sarkar,P。;Jordan,M.I.,《海量数据的可扩展引导》,J.R.Stat.Soc.Ser。B统计方法。,76, 4, 795-816 (2014) ·Zbl 07555464号
[17] Lee,J.D。;刘,Q。;孙,Y。;Taylor,J.E.,通信效率稀疏回归,J.Mach。学习。第18、5、1-30号决议(2017年)·Zbl 1434.62157号
[18] 李,F。;摩根·K·L。;Zaslavsky,A.M.,《通过倾向得分加权平衡协变量》,J.Amer。统计师。协会,113,521,390-400(2018)·Zbl 1398.62075号
[19] Lin,N。;Xi,R.,聚合估计方程估计,统计界面,4,1,73-83(2011)·Zbl 1245.62026号
[20] Lin,D。;Zeng,D.,关于在荟萃分析中使用汇总统计数据与个体水平数据的相对效率,Biometrika,97,2,321-332(2010)·兹比尔1205.62174
[21] 刘,D。;Liu,R.Y。;Xie,M.,《仅使用汇总统计的异质性研究的多元荟萃分析:效率和稳健性》,J.Amer。统计师。协会,110509326-340(2015)·Zbl 1373.62135号
[22] Mackey,L.W。;M.I.乔丹。;Talwalkar,A.,分治矩阵分解,(神经信息处理系统进展(2011)),1134-1142
[23] 麦卡拉,P。;Nelder,J.A.,《广义线性模型》(1989),查普曼和霍尔出版社·Zbl 0744.62098号
[24] Serfling,R.J.,《数理统计近似定理》,第162卷(2009年),John Wiley&Sons
[25] 邵,J。;Deng,X.,具有确定性设计矩阵的高维线性模型估计,Ann.Statist。,40, 2, 812-831 (2012) ·Zbl 1273.62177号
[26] 辛格,K。;谢,M。;斯特劳德曼,W.E.,通过置信分布结合独立来源的信息,《统计年鉴》。,33, 1, 159-183 (2005) ·Zbl 1064.62003年
[27] Song,P.X.-K.,《相关数据分析:建模、分析和应用》(2007),Springer:Springer New York·Zbl 1132.62002号
[28] 斯坦格尔,D。;Berry,D.A.,《医疗卫生政策的元分析》(2000年),CRC出版社
[29] 萨顿,A.J。;Higgins,J.,《荟萃分析的最新发展》,《统计医学》,27,5,625-650(2008)
[30] Tang,L。;Song,P.X.,回归系数聚类中的融合套索方法:数据集成中的学习参数异质性,J.Mach。学习。Res.,17,13915-3937(2016年)·Zbl 1368.62209号
[31] Tibshirani,R.,《通过套索进行回归收缩和选择》,J.R.Stat.Soc.Ser。B统计方法。,267-288 (1996) ·Zbl 0850.62538号
[32] 托利斯,P。;Airoldi,E.M.,《基于随机近似的可缩放估计策略:经典结果和新见解》,《统计计算》。,25, 4, 781-795 (2015) ·Zbl 1332.62291号
[33] 王,Y。;北卡罗来纳州帕尔默。;Di,Q。;施瓦茨,J。;Kohane,I。;Cai,T.,快速分治稀疏cox回归,生物统计学(2019)
[34] Wang,F。;宋,P.X.-K。;Wang,L.,将多个纵向研究与研究特定缺失协变量合并:联合估计函数方法,生物统计学,71,4,929-940(2015)·Zbl 1419.62469号
[35] Wang,F。;王,L。;Song,P.X.-K.,将套索与参数排序的适应性结合起来,将多个研究与重复测量相结合,生物统计学,72,4,1184-1193(2016)·兹比尔1390.62315
[36] 谢,M。;Singh,K.,置信分布,参数的频率分布估计:综述,国际。统计师。修订版,81、1、3-39(2013)·Zbl 1416.62170号
[37] 谢,M。;辛格,K。;Strawderman,W.E.,置信度分布和荟萃分析的统一框架,J.Amer。统计师。协会,106,493,320-333(2011)·Zbl 1396.62051号
[38] Zaharia,M。;乔杜里,M。;富兰克林,M.J。;申克,S。;Stoica,I.,Spark:使用工作集的集群计算,HotCloud,10,10-10,95(2010)
[39] Zhang,Y。;杜奇,J。;Wainwright,M.,《分治核岭回归:一种具有极大极小最优速率的分布式算法》,J.Mach。学习。研究,16,3299-3340(2015)·Zbl 1351.62142号
[40] 张,C.-H。;Zhang,S.S.,高维线性模型中低维参数的置信区间,J.R.Stat.Soc.Ser。B统计方法。,76, 1, 217-242 (2014) ·Zbl 1411.62196号
[41] Zou,H.,《自适应套索及其预言属性》,J.Amer。统计师。协会,101,476,1418-1429(2006)·兹比尔1171.62326
[42] 邹,H。;Hastie,T.,《通过弹性网进行正则化和变量选择》,J.R.Stat.Soc.Ser。B统计方法。,67, 2, 301-320 (2005) ·Zbl 1069.62054号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。