×

大规模网络空间自回归模型的分布式估计和推理。 (英语) Zbl 07803967号

摘要:在线网络平台的快速增长产生了大规模网络数据,这对使用空间自回归(SAR)模型进行统计分析提出了巨大挑战。在这项工作中,我们为分布式系统上的SAR模型开发了一个新的分布式估计和统计推断框架。我们首先提出了一种分布式网络最小二乘近似(DNLSA)方法。这使我们能够通过对每个工人的局部估计值进行加权平均来获得一步估计值。然后,设计了一种改进的两步估计,以进一步减小估计偏差。对于统计推断,我们使用随机投影方法来减少昂贵的通信成本。理论上,我们证明了一步和两步估计量的一致性和渐近正态性。此外,我们还为分布式统计推断过程提供了理论保证。在Spark系统上进行的几个数值模拟验证了理论发现和计算优势。最后,在Yelp数据集上的实验进一步说明了所提方法的有用性。

MSC公司:

62至XX 统计
91至XX 博弈论、经济学、金融和其他社会和行为科学

软件:

MapReduce;;火花
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Achlioptas,D.,2001年。数据库友好型随机投影。摘自:第二十届ACM SIGMOD-SIGACT-SIGART数据库系统原理研讨会论文集。第274-281页。
[2] Anselin,L.,《空间计量经济学:方法和模型》,第4卷(1988年),Springer Science&Business Media
[3] Baltagi,B.H。;Bresson,G.,《具有空间滞后和空间误差的面板看似无关回归的最大似然估计和拉格朗日乘数检验:在巴黎享乐房价中的应用》,《城市经济学杂志》。,1, 24-42 (2011)
[4] Baltagi,B.H。;Deng,Y.,具有随机效应的空间自回归方程联立系统的EC3SLS估计。《计量经济学评论》,6-10,659-694(2015)·兹比尔1491.62177
[5] Barabási,A.-L。;Albert,R.,《随机网络中尺度的出现》。《科学》,5439509-512(1999)·Zbl 1226.05223号
[6] Battey,H。;范,J。;刘,H。;Lu,J。;Zhu,Z.,稀疏高维模型下的分布式测试和估计。安.统计师。,3, 1352 (2018) ·Zbl 1392.62060号
[7] Becchetti,L.、Bury,M.、Cohen-Addad,V.、Grandoni,F.、Schwiegelshohn,C.,2019年。k-means的不经意降维:超越子空间和Johnson-Lindenstraus引理。摘自:第51届ACM SIGACT计算机理论年会论文集。第1039-1050页·Zbl 1433.68324号
[8] Bingham,E.,Mannila,H.,2001年。降维中的随机投影:图像和文本数据的应用。摘自:第七届ACM SIGKDD知识发现和数据挖掘国际会议论文集。第245-250页。
[9] 蔡,T。;刘,M。;Xia,Y.,个体数据保护了高维异质数据的综合回归分析。J.艾默。统计师。协会,540,2105-2119(2022)·Zbl 1514.68271号
[10] Chang,X。;林,S.-B。;Wang,Y.,划分并征服局部平均回归。电子。J.Stat.,11326-1350(2017)·Zbl 1362.62085号
[11] 陈,X。;陈,Y。;Xiao,P.,抽样和网络拓扑对社会相关性估计的影响。J.Mar Res.,195-110(2013)
[12] 陈,X。;刘伟。;毛,X。;Yang,Z.,分位数损失函数下的分布式高维回归。J.马赫。学习。研究,17432-7474(2020)
[13] 克劳塞特,A。;沙利兹,C.R。;Newman,M.E.,经验数据中的幂律分布。SIAM版本,4661-703(2009)·Zbl 1176.62001号
[14] 科恩·科尔,E。;刘,X。;Zenou,Y.,社会互动的多元选择和识别。J.应用。计量经济学,2165-178(2018)
[15] 达斯,D。;克勒坚,H.H。;Prucha,I.R.,具有自回归扰动的空间自回归模型估计量的有限样本性质。巴普。注册科学。,1-26 (2003)
[16] 达斯古普塔,S。;Gupta,A.,johnson和lindenstrauss定理的初等证明。随机结构。算法,1,60-65(2003)·Zbl 1018.51010号
[17] 迪安·J。;Ghemawat,S.,MapReduce:大型集群上的简化数据处理。Commun公司。ACM,1107-113(2008)
[18] 范,J。;郭毅。;Wang,K.,通信高效准确的统计估计。J.艾默。统计师。协会,5421000-1010(2023)·Zbl 07707218号
[19] 范,J。;王,D。;王凯。;Zhu,Z.,主特征空间的分布估计。安.统计师。,6, 3009-3031 (2019) ·Zbl 1450.62067号
[20] Glaeser,E.L。;Sacerdote,B。;Scheinkman,J.A.,《犯罪与社会互动》。Q.J.经济。,2, 507-548 (1996)
[21] 哈德勒,W.K。;Wang,W。;Yu,L.,TENET:尾事件驱动的网络风险。《计量经济学杂志》,2499-513(2016)·Zbl 1420.62443号
[22] 黄,D。;Lan,W。;张,H.H。;Wang,H.,大型社交网络空间自回归模型的最小二乘估计。电子。J.Stat.,11135-1165(2019)·Zbl 1418.62553号
[23] Johnson,W.B.,Lipschitz映射到Hilbert空间的扩展。康斯坦普。数学。,189-206 (1984) ·Zbl 0539.46017号
[24] M.I.乔丹。;Lee,J.D。;Yang,Y.,通信高效分布式统计推断。J.艾默。统计师。协会,52668-681(2019)·Zbl 1420.62097号
[25] 科莱詹,H.H。;Prucha,I.R.,估计具有自回归扰动的空间自回归模型的广义空间二级最小二乘法。J.房地产财务。经济。,99-121 (1998)
[26] 科莱詹,H.H。;Prucha,I.R.,空间相关横截面方程联立系统的估计。计量经济学杂志,1,27-50(2004)·Zbl 1033.62050
[27] 科莱詹,H.H。;Prucha,I.R.,具有自回归和异方差扰动的空间自回归模型的规范和估计。《计量经济学杂志》,153-67(2010)·Zbl 1431.62636号
[28] Lee,L.-f.,带自回归扰动的空间自回归模型的最佳空间两阶段最小二乘估计。《计量经济学评论》,4307-335(2003)·Zbl 1030.62069号
[29] Lee,L.-F.,空间自回归模型拟极大似然估计量的渐近分布。《计量经济学》,1899-1925年6月(2004年)·Zbl 1142.62312号
[30] Lee,J.D。;刘,Q。;孙,Y。;Taylor,J.E.,《通信效率稀疏回归》。J.马赫。学习。第115-144号决议(2017年)
[31] Lee,L.-f。;Yu,J.,《空间非平稳性和伪回归:行规范化空间权重矩阵的情况》,《空间经济》。分析。,3, 301-327 (2009)
[32] Lee,L.-f。;Yu,J.,具有固定效应的空间自回归面板数据模型的估计。《计量经济学杂志》,2165-185(2010)·Zbl 1431.62643号
[33] LeSage,J.P.,《空间经济学的理论与实践》,1-39(1999),托莱多大学:俄亥俄州托莱多大学
[34] 李,P。;哈斯蒂·T·J。;Church,K.W.,极稀疏随机投影,287-296
[35] 李,X。;李,R。;夏,Z。;Xu,C.,通过组件化去噪进行分布式特征筛选。J.马赫。学习。研究,24,1-32(2020年)·Zbl 1498.68286号
[36] 林,X。;Lee,L.-f.,未知异方差空间自回归模型的GMM估计。《计量经济学杂志》,134-52(2010)·Zbl 1431.62399号
[37] 刘,Q。;Ihler,A.T.,分布式估计,信息损失和指数族
[38] 刘,X。;Patacchini,E。;Rainone,E.,《青少年就寝决策中的同伴效应:一个具有抽样数据的社交网络模型》。经济。J.,3,S103-S125(2017)·兹伯利07565924
[39] 刘,X。;Saraiva,P.,异方差联立方程组中空间自回归模型的GMM估计。《计量经济学评论》,4359-385(2019)·Zbl 1490.62463号
[40] 梅斯特,M。;Sarlos,T。;Woodruff,D.,绘制低阶多项式核的紧降维
[41] Negahban,S.N。;拉维库马尔,P。;Wainwright,M.J。;Yu,B.,带可分解正则化子的高维估计量分析的统一框架。统计师。科学。,4, 538-557 (2012) ·Zbl 1331.62350号
[42] 内加班,S。;Wainwright,M.J.,带噪声和高维缩放的(近)低秩矩阵估计。安.统计师。,2, 1069-1097 (2011) ·Zbl 1216.62090号
[43] Newman,M.E.,《网络中的模块化和社区结构》。程序。国家。阿卡德。科学。,23, 8577-8582 (2006)
[44] 诺维基,K。;Snijders,T.A.B.,《随机块体结构的估算和预测》。J.艾默。统计师。协会,4551077-1087(2001)·Zbl 1072.62542号
[45] Ord,K.,空间相互作用模型的估算方法。J.艾默。统计师。协会,349,120-126(1975)·Zbl 0313.62063号
[46] Shi,W。;Lee,L.-f.,具有交互固定效应的空间动态面板数据模型。《计量经济学杂志》,2323-347(2017)·Zbl 1422.62290号
[47] V·史密斯。;福特,S。;陈欣,M。;塔卡奇,M。;M.I.乔丹。;Jaggi,M.,Cocoa:通信效率分布式优化的通用框架。J.马赫。学习。决议,230(2018)·兹比尔1473.68167
[48] Sojourner,A.,《利用缺失的同伴数据识别同伴效应:来自STAR项目的证据》。经济学。J.,569,574-605(2013)
[49] 陶,J。;Yu,J.,面板数据模型中的空间时间滞后。经济。莱特。,3, 544-547 (2012) ·Zbl 1283.91145号
[50] 王义杰。;Wong,G.Y.,有向图的随机块模型。J.艾默。统计师。协会,397,8-19(1987)·Zbl 0613.62146号
[51] Wu,Y。;Lan,W。;邹,T。;Tsai,C.-L.,内外部网络影响分析。J.总线。经济。统计人员。,4, 1617-1628 (2022)
[52] 杨,Z。;Yu,J。;Liu,S.F.,固定效应空间面板数据模型的偏差校正和精细推断。注册科学。城市经济。,52-72 (2016)
[53] Zaharia,M.、Chowdhury,M.,Franklin,M.J.、Shenker,S.、Stoica,I.,2010年。Spark:使用工作集的集群计算。参见:第二届USENIX云计算热点研讨会。热云10。
[54] Zhang,Y。;杜奇,J.C。;Wainwright,M.J.,《统计优化的通信高效算法》。J.马赫。学习。研究,1,3321-3363(2013)·Zbl 1318.62016号
[55] 周,J。;Tu,Y。;陈,Y。;Wang,H.,用采样网络数据估计空间自相关。J.总线。经济。统计人员。,1, 130-138 (2017)
[56] 朱,X。;蔡,Z。;Ma,Y.,网络泛函变系数模型。J.艾默。统计师。协会,5402074-2085(2022)·Zbl 1515.62092号
[57] 朱,X。;黄,D。;潘,R。;Wang,H.,大型社交网络的多元空间自回归模型。《计量经济学杂志》,2591-606(2020)·Zbl 1456.62229号
[58] 朱,X。;李,F。;Wang,H.,分布式系统的最小二乘近似。J.计算。图表。统计人员。,4, 1004-1018 (2021) ·Zbl 07499933号
[59] 朱,X。;潘,R。;李·G。;刘,Y。;Wang,H.,网络向量自回归。安.统计师。,3, 1096-1123 (2017) ·兹比尔1381.62256
[60] 邹,T。;Lan,W。;Wang,H。;Tsai,C.-L.,协方差回归分析。J.艾默。统计师。协会,517,266-281(2017)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。