史建伟;秦国友;朱慧晨;朱忠义 通信效率高的分布式(M\)估计与缺失数据。 (英语) Zbl 07422750号 计算。统计数据分析。 161,文章ID 107251,21 p.(2021). 摘要:在大数据时代,实际应用中经常会遇到不完整的数据。当前的分布式方法忽略了缺失,可能会导致估计不一致。基于此,开发了一种分布式算法,用于缺失数据的(M)估计。该算法具有通信效率,仅将梯度信息传输到中央机器。感兴趣的参数和干扰参数同时更新。从理论上讲,该算法在经过适当的迭代次数后达到了全样本性能。研究了干扰参数对分布M估计的影响。通过合成数据进行的仿真验证了该算法的有效性。最后,将该算法应用于实际数据集。 引用于2文件 MSC公司: 62至XX 统计 关键词:分布估计;M-估计;缺少数据;逆概率加权 PDF格式BibTeX公司 XML格式引用 \textit{J.Shi}等人,计算。统计数据分析。161,文章ID 107251,21 p.(2021;Zbl 07422750) 全文: 内政部 参考文献: [1] Azur,M.J。;斯图亚特,E.A。;弗朗加基斯,C。;Leaf,P.J.,《连锁方程多重插补:它是什么以及它是如何工作的?》?,国际精神病学杂志。第20、1、40-49号决议(2011年) [2] Battey,H。;范,J。;刘,H。;卢,J。;Zhu,Z.,《具有统计保证的分布式估计和推断》(2015),电子版 [3] 博伊德,S。;Vandenberghe,L.,《凸优化》(2004),剑桥大学出版社:美国剑桥大学出版社·Zbl 1058.90049号 [4] Chang,X。;林,S.-B。;周德兴,带核岭回归的分布式半监督学习,J.Mach。学习。第18、46、1-22号决议(2017年)·Zbl 1431.68106号 [5] 陈,X。;刘伟。;Zhang,Y.,记忆约束下的分位数回归,Ann.Stat.,47,6,3244-3273(2019)·Zbl 1436.62134号 [6] 柯林斯,L.M。;Schafer,J.L。;Kam,C.-M.,《现代缺失数据程序中包容性和限制性策略的比较》,《心理学》。方法,6,4,330(2001) [7] N.R.理事会,《临床试验中缺失数据的预防和治疗》(2010年),国家学术出版社 [8] Duan,R。;宁,Y。;Chen,Y.,了解异质性和有效沟通的分布式统计推断(2019年),电子打印 [9] Elgabli,A。;Park,J。;Bedi,A.S。;Bennis,M。;Aggarwal,V.,Gadmm:分布式机器学习的快速高效通信框架,J.Mach。学习。第21、76、1-39号决议(2020年)·Zbl 1498.68234号 [10] 范,J。;郭毅。;Wang,K.,通信效率精确统计估计(2019),电子打印 [11] 范,J。;王,D。;王凯。;Zhu,Z.,主本征空间的分布式估计,Ann.Stat.,47,6,3009-3031(2019)·Zbl 1450.62067号 [12] Han,P。;Kong,L。;赵,J。;周,X.,《不完全数据分位数估计的一般框架》,J.R.Stat.Soc.,Ser。B、 统计方法。,81, 2, 305-333 (2019) ·Zbl 1420.62173号 [13] 赫克托,E.C。;Song,P.X.-K.,高维相关数据分析的分布式和集成矩方法,美国统计协会,1-36(2020) [14] 新泽西州霍顿。;Laird,N.M.,缺失协变量广义线性模型的最大似然分析,统计方法医学研究,8,1,37-50(1999) [15] 霍维茨,D。;汤普森,D.,《有限宇宙中无替换抽样的推广》,《美国统计协会期刊》,第47、260、663-685页(1952年)·Zbl 0047.38301号 [16] 易卜拉欣,J.G。;Chen,M.-H.,回归模型的幂先验分布,统计科学。,15, 1, 46-60 (2000) [17] 易卜拉欣,J.G。;陈先生。;Lipsitz,S.R.,协变量随机缺失广义线性模型的贝叶斯方法,加拿大。《统计杂志》,30,1,55-78(2002)·Zbl 0999.62021号 [18] 约旦医学院。;Lee,J.D。;Yang,Y.,通信效率分布式统计推断,美国统计协会,114,526,668-681(2019)·Zbl 1420.62097号 [19] Lin,T.I。;Ho,H.J。;Chen,C.L.,《不完全数据的多元偏正态模型分析》,J.Multivar。分析。,100, 10, 2337-2351 (2009) ·Zbl 1175.62054号 [20] 利特尔·R。;鲁宾,D.,《缺失数据的统计分析》,《概率与数理统计中的威利级数》。概率与数理统计(2002),威利·Zbl 1011.62004号 [21] 马,X。;Wang,J.,使用逆概率加权的稳健推断,美国统计协会,115,532,1-10(2019) [22] Mackey,L。;Talwalkar,A。;Jordan,M.I.,分布式矩阵完成和稳健因子分解,J.Mach。学习。第16、28、913-960号决议(2015年)·Zbl 1337.68225号 [23] 马丁·R·P。;瓦达特,A.M。;卡勒,D.E。;Anderson,T.E.,集群体系结构中通信延迟、开销和带宽的影响,SIGARCH Compute。阿基特。新闻,25,2,85-97(1997) [24] 罗宾斯,J.M。;Rotnitzky,A.,《缺失数据多元回归模型的半参数效率》,美国统计协会,90,429,122-129(1995)·Zbl 0818.62043号 [25] Rubin,D.B.,《18岁以上的多重插补》,《美国统计协会杂志》,第91、434、473-489页(1996年)·Zbl 0869.62014年 [26] Sartori,N.,具有地层扰动参数的模型中的修正剖面可能性,Biometrika,90,33533-549(2003)·Zbl 1436.62086号 [27] Schafer,J.L.,《多重插补:引物》,《统计学方法医学研究》,8,1,3-15(1999) [28] 希曼,S.R。;White,I.R.,《处理缺失数据的逆概率加权综述》,《统计学方法医学研究》,22,32778-295(2013) [29] Shi,C。;卢·W。;Song,R.,《立方速率m-估计量的海量数据框架》,美国统计协会,113,524,1698-1709(2018)·Zbl 1409.62105号 [30] Szabó,B。;van Zanten,H.,分布式非参数方法的渐近分析,J.Mach。学习。第20、87、1-30号决议(2019年)·Zbl 1434.68457号 [31] van der Vaart,A.W.,《渐近统计》,《剑桥统计与概率数学丛书》(1998),剑桥大学出版社·Zbl 0910.62001号 [32] 沃尔古舍夫,S。;Chao,S.-K。;Cheng,G.,分位数回归过程的分布式推断,《美国统计年鉴》,47,3,1634-1662(2019)·Zbl 1418.62174号 [33] Wang,J。;科拉尔,M。;斯雷布罗,N。;Zhang,T.,高效的稀疏分布式学习,(Precup,D.;Teh,Y.W.,《第34届机器学习国际会议论文集》,第34届国际机器学习会议论文集,《机器学习研究论文集》第70卷(2017),国际会议中心:澳大利亚悉尼国际会议中心),3636-3645 [34] 王,X。;杨,Z。;陈,X。;Liu,W.,线性支持向量机的分布式推理,J.Mach。学习。第20、113、1-41号决议(2019年)·Zbl 1434.68468号 [35] Wooldridge,J.M.,《一般缺失数据问题的逆概率加权估计》,J.Econom。,141, 2, 1281-1301 (2007) ·Zbl 1418.62545号 [36] Zhang,Y。;杜奇,J.C。;Wainwright,M.J.,《统计优化的通信高效算法》,J.Mach。学习。研究,14,68,3321-3363(2013)·Zbl 1318.62016号 此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。