×

关于网络建模中的有效样本量问题:一个渐进的研究。 (英语) 兹比尔1332.62036

摘要:近年来,网络和网络数据的建模和分析引起了人们的极大兴趣,并代表了统计领域潜在增长的一个令人兴奋的方向。尽管各学科的研究人员迄今为止在这一领域已经做了大量工作,但仍有许多具有决定性基础性质的问题尚未提出,这些问题是在更经典的统计领域已经提出和解决的标准问题的自然类比,更不用说了。在这里,我们提出并考虑一个与网络建模相关的问题。具体来说,我们会问,“给定一个观察到的网络,样本大小是多少?”使用指数随机图模型类中的简单示例,我们表明,随着网络中顶点(n_{V})数量的增加,这个问题的答案在很大程度上取决于模型下预期网络的基本属性。特别地,采用最大似然参数估计方差的(渐近)标度作为有效样本量(n_{mathrm{eff}})的概念,我们表明,在建模总体联系倾向和相互联系倾向时,在该模型下,网络是否稀疏(即每个顶点的联系数分别为常数或增加)足以产生从(O(n_{V})到(O(n)的量级差异^{2}_{五} )\)。此外,我们报告的模拟研究结果表明,三元(朋友的朋友)效应的模型具有类似的特性。然后,我们利用印尼拉马拉的模拟和食物共享数据,探讨了这一结果的一些实际意义。

MSC公司:

62D05型 抽样理论、抽样调查
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Airoldi,E.M.、Blei,D.M.、Fienberg,S.E.和Xing,E.P.(2009)。统计网络模型调查。找到。趋势马赫数。学习。2 129-233. ·Zbl 1184.68030号
[2] Barndorff Nielsen,O.(1978年)。统计理论中的信息和指数族。奇切斯特威利·Zbl 0387.62011号
[3] Besag,J.(1974年)。空间相互作用和晶格系统的统计分析。J.R.统计社会服务。B统计方法。36 192-236. ·Zbl 0327.60067号
[4] Bickel,P.J.和Chen,A.(2009年)。网络模型和Newman-Girvan及其他模块的非参数视图。程序。国家。阿卡德。科学。美国106 21068-21073·Zbl 1359.62411号
[5] Brown,L.D.、Cai,T.T.和Das Gupta,A.(2001)。二项式比例的区间估计。统计师。科学。16 101-133. ·Zbl 1059.62533号 ·doi:10.1214/ss/1009213286
[6] Brown,L.D.、Cai,T.T.和Das Gupta,A.(2002)。二项式比例的置信区间和渐近展开式。安。统计师。30 160-201. ·兹比尔1012.62026 ·doi:10.1214操作系统/1015362189
[7] Celisse,A.、Daudin,J.-J.和Pierre,L.(2012)。随机块模型中最大似然估计和变分估计的一致性。电子。《美国联邦法律大全》第6卷,1847-1899年·Zbl 1295.62028号 ·doi:10.1214/12-EJS729
[8] Chatterjee,S.和Diaconis,P.(2013)。估计和理解指数随机图模型。安。统计师。41 2428-2461. ·Zbl 1293.62046号 ·doi:10.1214/13-AOS1155
[9] Chatterjee,S.、Diaconis,P.和Sly,A.(2011年)。具有给定度序列的随机图。附录申请。普罗巴伯。21 1400-1435. ·Zbl 1234.05206号 ·doi:10.1214/10-AP728
[10] Choi,D.S.、Wolfe,P.J.和Airoldi,E.M.(2012)。具有越来越多类的随机块模型。生物特征99 273-284·Zbl 1318.62207号 ·doi:10.1093/biomet/asr053
[11] Chung,K.L.(2001)。概率论课程,第三版,学术出版社,加利福尼亚州圣地亚哥。
[12] Frank,O.和Snijders,T.A.B.(1994)。使用滚雪球采样估计隐藏种群的大小。J.官方统计10 53-67。
[13] Frank,O.和Strauss,D.(1986年)。马尔可夫图。J.Amer。统计师。协会81 832-842·Zbl 0607.05057号 ·doi:10.2307/2289017
[14] 哈伯曼·S·J(1981)。有向图概率分布的指数族:注释。J.Amer。统计师。协会76 60-61。
[15] Handcock,M.S.(2003)。评估社交网络统计模型中的简并性。华盛顿大学统计与社会科学中心第39号技术报告,西雅图。
[16] Handcock,M.S.、Hunter,D.R.、Butts,C.T.、Goodreau,S.M.、Krivitsky,P.N.和Morris,M.(2014)。ergm:拟合、模拟和诊断网络的指数族模型。Statnet项目。可从获取。R包版本3.1.2。
[17] Hanneke,S.、Fu,W.和Xing,E.P.(2010年)。社交网络的离散时间模型。电子。《美国联邦法律大全》第4卷第585-605页·Zbl 1329.91113号 ·doi:10.1214/09-EJS548
[18] Holland,P.W.和Leinhardt,S.(1981b)。有向图的概率分布的指数族。J.Amer。统计师。协会76 33-65·Zbl 0457.62090号 ·doi:10.2307/2287037
[19] Hunter,D.R.和Handcock,M.S.(2006年)。网络弯曲指数族模型中的推断。J.计算。图表。统计师。15 565-583.
[20] Hunter,D.R.、Handcock,M.S.、Butts,C.T.、Goodreau,S.M.和Morris,M.(2008)。ergm:一个用于拟合、模拟和诊断网络指数族模型的软件包。J.Stat.软件。24 1-29.
[21] Jackson,M.O.(2008)。社会和经济网络。普林斯顿大学出版社,新泽西州普林斯顿·Zbl 1149.91051号
[22] Kolaczyk,E.D.(2009年)。网络数据的统计分析。方法和模型。纽约州施普林格·Zbl 1277.62021号 ·doi:10.1007/978-0-387-88146-1
[23] Krivitsky,P.N.和Handcock,M.S.(2014)。动态网络的可分离模型。J.R.统计社会服务。B统计方法。76 29-46.
[24] Krivitsky,P.N.、Handcock,M.S.和Morris,M.(2011)。指数族随机图模型中网络大小和组成效应的调整。《统计方法》。8 319-339. ·Zbl 1215.91069号 ·doi:10.1016/j.stamet.2011.01.005
[25] Krivitsky,P.N.和Kolaczyk,E.D.(2014)。补充“关于网络建模中有效样本大小的问题:一个渐进的调查”·Zbl 1332.62036号 ·doi:10.1214/14-STS502
[26] Lavrakas,P.J.(2008年)。调查研究方法百科全书。SAGE出版物,千橡,加利福尼亚州。
[27] Morris,M.、Handcock,M.S.和Hunter,D.R.(2008)。指数族随机图模型的规范:术语和计算方面。J.Stat.软件。24 1-24.
[28] Newman,M.E.J.(2010年)。网络。导言。牛津大学出版社,牛津·Zbl 1195.94003号 ·doi:10.1093/acprof:oso/9780199206650.001.0001
[29] Nolin,D.A.(2010年)。印尼拉马拉的食物共享网络:互惠、亲属关系和距离。嗯,《自然》21 243-268。
[30] Pu,W.、Choi,J.、Amir,E.和Espelage,D.L.(2013年)。学习指数随机图模型。未发表的手稿。可从获取。
[31] R核心团队(2013)。R: 统计计算语言和环境。R统计计算基金会,奥地利维也纳。
[32] Rinaldo,A.、Petrović,S.和Fienberg,S.E.(2013)。(β)模型中的最大似然估计。安。统计师。41 1085-1110. ·Zbl 1292.62052号 ·doi:10.1214/12-AOS1078
[33] Robins,G.、Snijders,T.A.B.、Wang,P.、Handcock,M.S.和Pattison,P.(2007)。社交网络指数随机图(p^{*})模型的最新发展。Soc.Networks 29 192-215。
[34] Rohe,K.、Chatterjee,S.和Yu,B.(2011年)。谱聚类和高维随机块模型。安。统计师。39 1878-1915. ·Zbl 1227.62042号 ·doi:10.1214/11-AOS887
[35] Schweinberger,M.(2011)。离散指数族的不稳定性、敏感性和简并性。J.Amer。统计师。协会106 1361-1370·Zbl 1233.62020年 ·doi:10.1198/jasa.2011.tm10747
[36] Shalizi,C.R.和Rinaldo,A.(2013)。指数随机图模型抽样下的一致性。安。统计师。41 508-535·兹比尔1269.91066 ·doi:10.1214/12-AOS1044
[37] Snijders,T.A.B.和Borgatti,S.P.(1999)。网络统计的非参数标准误差和测试。连接22 161-170。
[38] Snijders,T.A.B.、van de Bunt,G.G.和Steglich,C.E.G.(2010年)。网络动力学随机行为模型简介。Soc.Networks公司32 44-60。
[39] Thiébaux,H.J.和Zwiers,F.W.(1984)。有效样本量的解释和估计。J.气候应用。流星。23 800-811.
[40] 范德法特,A.W.(2000)。渐进统计。剑桥统计与概率数学系列3。剑桥大学出版社,剑桥·Zbl 0910.62001号
[41] Yang,Y.、Remmers,E.F.、Ogunwole,C.B.、Kastner,D.L.、Gregersen,P.K.和Li,W.(2011)。有效样本量:快速估计遗传病例对照关联分析中相关样本的影响。计算。生物化学。35 40-49. ·Zbl 1403.92160号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。