×

通信效率高的分布式(M\)估计与缺失数据。 (英语) Zbl 07422750号

摘要:在大数据时代,实际应用中经常会遇到不完整的数据。当前的分布式方法忽略了缺失,可能会导致估计不一致。基于此,开发了一种分布式算法,用于缺失数据的(M)估计。该算法具有通信效率,仅将梯度信息传输到中央机器。感兴趣的参数和干扰参数同时更新。从理论上讲,该算法在经过适当的迭代次数后达到了全样本性能。研究了干扰参数对分布M估计的影响。通过合成数据进行的仿真验证了该算法的有效性。最后,将该算法应用于实际数据集。

MSC公司:

62至XX 统计
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Azur,M.J。;斯图亚特,E.A。;弗朗加基斯,C。;Leaf,P.J.,《连锁方程多重插补:它是什么以及它是如何工作的?》?,国际精神病学杂志。第20、1、40-49号决议(2011年)
[2] Battey,H。;范,J。;刘,H。;卢,J。;Zhu,Z.,《具有统计保证的分布式估计和推断》(2015),电子版
[3] 博伊德,S。;Vandenberghe,L.,《凸优化》(2004),剑桥大学出版社:美国剑桥大学出版社·Zbl 1058.90049号
[4] Chang,X。;林,S.-B。;周德兴,带核岭回归的分布式半监督学习,J.Mach。学习。第18、46、1-22号决议(2017年)·Zbl 1431.68106号
[5] 陈,X。;刘伟。;Zhang,Y.,记忆约束下的分位数回归,Ann.Stat.,47,6,3244-3273(2019)·Zbl 1436.62134号
[6] 柯林斯,L.M。;Schafer,J.L。;Kam,C.-M.,《现代缺失数据程序中包容性和限制性策略的比较》,《心理学》。方法,6,4,330(2001)
[7] N.R.理事会,《临床试验中缺失数据的预防和治疗》(2010年),国家学术出版社
[8] Duan,R。;宁,Y。;Chen,Y.,了解异质性和有效沟通的分布式统计推断(2019年),电子打印
[9] Elgabli,A。;Park,J。;Bedi,A.S。;Bennis,M。;Aggarwal,V.,Gadmm:分布式机器学习的快速高效通信框架,J.Mach。学习。第21、76、1-39号决议(2020年)·Zbl 1498.68234号
[10] 范,J。;郭毅。;Wang,K.,通信效率精确统计估计(2019),电子打印
[11] 范,J。;王,D。;王凯。;Zhu,Z.,主本征空间的分布式估计,Ann.Stat.,47,6,3009-3031(2019)·Zbl 1450.62067号
[12] Han,P。;Kong,L。;赵,J。;周,X.,《不完全数据分位数估计的一般框架》,J.R.Stat.Soc.,Ser。B、 统计方法。,81, 2, 305-333 (2019) ·Zbl 1420.62173号
[13] 赫克托,E.C。;Song,P.X.-K.,高维相关数据分析的分布式和集成矩方法,美国统计协会,1-36(2020)
[14] 新泽西州霍顿。;Laird,N.M.,缺失协变量广义线性模型的最大似然分析,统计方法医学研究,8,1,37-50(1999)
[15] 霍维茨,D。;汤普森,D.,《有限宇宙中无替换抽样的推广》,《美国统计协会期刊》,第47、260、663-685页(1952年)·Zbl 0047.38301号
[16] 易卜拉欣,J.G。;Chen,M.-H.,回归模型的幂先验分布,统计科学。,15, 1, 46-60 (2000)
[17] 易卜拉欣,J.G。;陈先生。;Lipsitz,S.R.,协变量随机缺失广义线性模型的贝叶斯方法,加拿大。《统计杂志》,30,1,55-78(2002)·Zbl 0999.62021号
[18] 约旦医学院。;Lee,J.D。;Yang,Y.,通信效率分布式统计推断,美国统计协会,114,526,668-681(2019)·Zbl 1420.62097号
[19] Lin,T.I。;Ho,H.J。;Chen,C.L.,《不完全数据的多元偏正态模型分析》,J.Multivar。分析。,100, 10, 2337-2351 (2009) ·Zbl 1175.62054号
[20] 利特尔·R。;鲁宾,D.,《缺失数据的统计分析》,《概率与数理统计中的威利级数》。概率与数理统计(2002),威利·Zbl 1011.62004号
[21] 马,X。;Wang,J.,使用逆概率加权的稳健推断,美国统计协会,115,532,1-10(2019)
[22] Mackey,L。;Talwalkar,A。;Jordan,M.I.,分布式矩阵完成和稳健因子分解,J.Mach。学习。第16、28、913-960号决议(2015年)·Zbl 1337.68225号
[23] 马丁·R·P。;瓦达特,A.M。;卡勒,D.E。;Anderson,T.E.,集群体系结构中通信延迟、开销和带宽的影响,SIGARCH Compute。阿基特。新闻,25,2,85-97(1997)
[24] 罗宾斯,J.M。;Rotnitzky,A.,《缺失数据多元回归模型的半参数效率》,美国统计协会,90,429,122-129(1995)·Zbl 0818.62043号
[25] Rubin,D.B.,《18岁以上的多重插补》,《美国统计协会杂志》,第91、434、473-489页(1996年)·Zbl 0869.62014年
[26] Sartori,N.,具有地层扰动参数的模型中的修正剖面可能性,Biometrika,90,33533-549(2003)·Zbl 1436.62086号
[27] Schafer,J.L.,《多重插补:引物》,《统计学方法医学研究》,8,1,3-15(1999)
[28] 希曼,S.R。;White,I.R.,《处理缺失数据的逆概率加权综述》,《统计学方法医学研究》,22,32778-295(2013)
[29] Shi,C。;卢·W。;Song,R.,《立方速率m-估计量的海量数据框架》,美国统计协会,113,524,1698-1709(2018)·Zbl 1409.62105号
[30] Szabó,B。;van Zanten,H.,分布式非参数方法的渐近分析,J.Mach。学习。第20、87、1-30号决议(2019年)·Zbl 1434.68457号
[31] van der Vaart,A.W.,《渐近统计》,《剑桥统计与概率数学丛书》(1998),剑桥大学出版社·Zbl 0910.62001号
[32] 沃尔古舍夫,S。;Chao,S.-K。;Cheng,G.,分位数回归过程的分布式推断,《美国统计年鉴》,47,3,1634-1662(2019)·Zbl 1418.62174号
[33] Wang,J。;科拉尔,M。;斯雷布罗,N。;Zhang,T.,高效的稀疏分布式学习,(Precup,D.;Teh,Y.W.,《第34届机器学习国际会议论文集》,第34届国际机器学习会议论文集,《机器学习研究论文集》第70卷(2017),国际会议中心:澳大利亚悉尼国际会议中心),3636-3645
[34] 王,X。;杨,Z。;陈,X。;Liu,W.,线性支持向量机的分布式推理,J.Mach。学习。第20、113、1-41号决议(2019年)·Zbl 1434.68468号
[35] Wooldridge,J.M.,《一般缺失数据问题的逆概率加权估计》,J.Econom。,141, 2, 1281-1301 (2007) ·Zbl 1418.62545号
[36] Zhang,Y。;杜奇,J.C。;Wainwright,M.J.,《统计优化的通信高效算法》,J.Mach。学习。研究,14,68,3321-3363(2013)·Zbl 1318.62016号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。