×

具有发散协变量数的广义线性模型的通信效率分布估计。 (英语) Zbl 1510.62325号

摘要:如今,跨大量客户端分布存储大规模数据集的情况越来越普遍。本研究的目的是在“大\(n \),发散\(p_n \)”框架下,在对客户端数量的弱假设下,为广义线性模型(GLM)开发一个分布式估计器。当维数以\(o(\sqrt{n})\)的速率发散时,建立了GLM的全局最大似然估计量(MLE)、一步MLE和聚合估计方程(AEE)估计量的渐近效率。然后提出了一种新的分布式估计器,该估计器具有两轮通信。它与\(p_n=o(\sqrt{n})\)下的全局MLE具有相同的渐近效率。与AEE估计器相比,对客户数量的假设更为宽松,因此所提出的方法对于实际应用更为实用。仿真和实例研究表明,该估计器具有令人满意的有限样本性能。

MSC公司:

62J12型 广义线性模型(逻辑模型)
10层62层 点估计
2012年12月62日 参数估计量的渐近性质
62-08 统计问题的计算方法
68T05型 人工智能中的学习和自适应系统
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Bai,Z.D。;Wu,Y.,高维线性模型回归系数M-估计的极限行为I.尺度相关情况,J.多元分析。,51, 2, 211-239 (1994) ·Zbl 0816.62025号
[2] 巴尔迪,P。;萨多夫斯基,P。;怀特森,D.,《通过深度学习在高能物理中寻找奇异粒子》,《自然通讯》。,5, 4308 (2014)
[3] Chen,K。;胡一。;Ying,Z.,固定和自适应设计广义线性模型中最大拟似然估计的强相合性,Ann.Statist。,27, 4, 1155-1163 (1999) ·Zbl 0957.62056号
[4] 陈,X。;Xie,M.-g,《分析超大数据的分而治之方法》,《统计学》。Sinica,24,4,1655-1684(2014)·Zbl 1480.62258号
[5] El Karoui,N.,核随机矩阵的谱,Ann.Statist。,38, 1, 1-50 (2010) ·Zbl 1181.62078号
[6] 风扇,T.H。;Lin,D.K.J。;Cheng,K.F.,海量数据集的回归分析,Data Knowl。工程师,61,3,554-562(2007)
[7] 范,J。;Peng,H.,参数个数发散的非冲突惩罚似然,Ann.Statist。,32, 3, 928-961 (2004) ·Zbl 1092.62031号
[8] 范,J。;Song,R.,具有NP维的广义线性模型中的确定独立筛选,Ann.Statist。,38, 6, 3567-3604 (2010) ·Zbl 1206.68157号
[9] 格拉玛,A。;古普塔,A。;Karypis,G。;Kumar,V.,《并行计算导论》,147-185(2003),Benjamin/Cummings出版公司:Benjamin/Cummings出版公司,美国加利福尼亚州
[10] 郭,B。;Chen,S.X.,高维广义线性模型的检验,J.R.Stat.Soc.系列。B统计方法。,78, 5, 1079-1102 (2016) ·Zbl 1414.62328号
[11] 何,X。;邵琦,《关于增加维度的参数》,《多元分析杂志》。,73, 1, 120-135 (2000) ·Zbl 0948.62013.中
[12] Heuser,H.,Lehrbuch der Analysis,Teil,第2卷,278(1981),Teubner:Teubner Stuttgart·Zbl 0453.26001号
[13] 黄,C。;霍,X.,分布式一步估计量,数学。程序。,174, 41-76 (2019) ·Zbl 1416.62151号
[14] Huber,P.J.,《稳健回归:渐近、猜想和蒙特卡罗》,《统计年鉴》。,1, 5, 799-821 (1973) ·兹标0289.62033
[15] 贾吉,M。;V·史密斯。;塔卡奇,M。;Terhorst,J。;克里希南,S。;霍夫曼,T。;Jordan,M.I.,《通信效率高的分布式双坐标上升》(Ghahramani,Z.;Welling,M.;Cortes,C.;Lawrence,N.D.;Weinberger,K.Q.,《神经信息处理系统的进展》,第27卷(2014)),3068-3076,URLhttp://papers.nips.cc/paper/5599-communication-efficiency-distributed-dual-coordinate-ascent.pdf
[16] M.I.乔丹。;Lee,法学博士。;杨毅,通信效率分布式统计推断,J.Amer。统计师。协会,114,526,668-681(2019)·Zbl 1420.62097号
[17] Liang,T。;Rakhlin,A.,Just interpolate:核“无脊”回归可以推广,Ann.Statist。,48, 3, 1329-1347 (2020) ·Zbl 1453.68155号
[18] Lin,N。;Xi,R.,聚合估计方程估计,统计界面,4,1,73-83(2011)·Zbl 1245.62026号
[19] Portnoy,S.,(p^2/n)大时回归参数M-估计的渐近性;二、。正态近似,Ann.Statist。,13, 4, 1403-1417 (1985) ·Zbl 0601.62026号
[20] 邵,J.,《数理统计》,295-296(2003),施普林格出版社:纽约施普林格·Zbl 1018.62001号
[21] V·史密斯。;福特,S。;马,C。;塔卡奇,M。;M.I.乔丹。;Jaggi,M.,Cocoa:通信效率分布式优化的通用框架,J.Mach。学习。第18、230、1-49号决议(2018年)·Zbl 1473.68167号
[22] 王,L.,协变量发散数的聚类二元数据的GEE分析,Ann.Statist。,39, 1, 389-417 (2011) ·Zbl 1209.62138号
[23] 王洪勇。;朱,R。;Ma,P.,大样本逻辑回归的最优二次抽样,J.Amer。统计师。协会,113,522,829-844(2018)·兹比尔1398.62196
[24] Walsh,A.H.,《关于M过程和M估计》,Ann.Statist。,17, 1, 337-361 (1989) ·Zbl 0701.62074号
[25] 尹,C。;赵,L。;Wei,C.,广义线性模型中最大拟似然估计的渐近正态性和强相合性,Sci。中国Ser。A、 49、2、145-157(2006)·Zbl 1112.62070号
[26] Zhang,Y。;杜奇,J.C。;Wainwright,M.J.,《统计优化的通信高效算法》,J.Mach。学习。研究,14,68,3321-3363(2013)·Zbl 1318.62016号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。