×

关于尾部分析中阈值选择的最小距离方法。 (英语) 兹比尔1484.62057

摘要:幂律分布在不同的科学研究领域得到了广泛的观察。实际的估计问题包括选择一个阈值,在该阈值之上,观测值遵循幂律分布,然后估计幂律尾指数。由提出的最小距离选择程序(MDSP)A.克劳塞特等[SIAM Rev.51,No.4,661-703(2009;兹比尔1176.62001)]社交网络分析在实践中被广泛采用。然而,这种选择程序的理论依据仍然不足。本文研究了MDSP给出的选定阈值和相应幂律指数的渐近行为。对于具有Pareto-like尾部的独立和同分布(iid)观测值,我们导出了所选阈值和幂律指数估计的极限分布,其中后者的估计不是渐近正态的。我们推断,在这种iid设置下,MDSP倾向于选择过高的阈值水平,并通过渐近分析和模拟显示,与基于非随机阈值的Hill估计量相比,方差如何增加。我们还提供了依赖优先连接网络数据的仿真结果,发现MDSP程序的性能高度依赖于所选的模型参数。

MSC公司:

62G32型 极值统计;尾部推断
60G70型 极值理论;极值随机过程
62E20型 统计学中的渐近分布理论
60G15年 高斯过程
62G30型 订单统计;经验分布函数
05C80号 随机图(图形理论方面)
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Y.-Y.Ahn、S.Han、H.Kwak、S.Moon和H.Jeong,《大型在线社交网络服务的拓扑特征分析》,载于《第十六届国际互联网会议论文集》,ACM,2007年,第835-844页。
[2] A.L.Barabaási和R.Albert,《随机网络中尺度的出现》,《科学》,286(1999),第509-512页·Zbl 1226.05223号
[3] J.Beirlant、Y.Goegebeur、J.Segers、J.Teugels、D.de Waal和C.Ferro,《极端统计》,威利,纽约,2004年·Zbl 1070.62036号
[4] S.Bhamidi,分析优先连接树的通用技术:全局和局部分析,预印本,网址:http://www.unc.edu/bhamidi/preferent.pdf,2007年。
[5] B.Bollobaís、C.Borgs、J.Chayes和O.Riordan,有向无标度图,第14届ACM-SIAM离散算法年会论文集,马里兰州巴尔的摩,ACM,2003年,第132-139页·Zbl 1094.68605号
[6] B.A.Carreras、V.E.Lynch、I.Dobson和D.E.Newman,级联故障停电电力传输模型中的临界点和过渡,《混沌》,12(2002),第985-994页·Zbl 1080.82579号
[7] E.Cho、S.A.Myers和J.Leskovec,《友谊与移动性:基于位置的社交网络中的用户运动》,载于《第17届ACM SIGKDD国际知识发现和数据挖掘会议论文集》,ACM,2011年,第1082-1090页。
[8] A.Clauset、C.R.Shalizi和M.E.J.Newman,经验数据中的幂律分布,SIAM Rev.,51(2009),第661-703页·兹比尔1176.62001
[9] S.Coles,极值统计建模导论,Springer Ser。统计人员。,施普林格,纽约,2001年·兹伯利0980.62043
[10] J.Danielsson、L.de Haan、L.Peng和C.de Vries,《使用自举法选择尾部指数估计中的样本分数》,《多元分析》。,76(2001),第226-248页·Zbl 0976.62044号
[11] L.de Haan和A.Ferreira,《极值理论:导论》,施普林格出版社,纽约,2006年·Zbl 1101.62002号
[12] H.Drees,(β)混合随机变量尾部过程的加权近似,Ann.Appl。探针。,10(2000),第1274-1301页·Zbl 1073.60520号
[13] H.Drees和E.Kaufmann,在单变量极值统计中选择最佳样本分数,随机过程。申请。,75(1998年),第149-172页·Zbl 0926.62013号
[14] R.T.Durrett,随机图动力学,剑桥。序列号。统计概率。数学。,剑桥大学出版社,剑桥,2010年·Zbl 1223.05002号
[15] D.Ferger,非唯一情况下argmax-泛函的连续映射定理,Stat.Neerl。,58(2004),第83-96页·Zbl 1090.60032号
[16] C.S.Gillespie,《拟合重尾分布:poweRlaw包》,J.Stat.Softw。,64(2015),第1-16页,http://www.jstatsoft.org/v64/i02/。
[17] M.I.Gomes和O.Oliveira,极值统计中的自助法——最佳样本分数的选择,极值,4(2001),第331-358页·Zbl 1023.62048号
[18] P.Hall,关于正则变化指数的一些简单估计,J.Roy。统计师。Soc.B,44(1982),第37-42页·Zbl 0521.62024号
[19] B.M.Hill,《推断分布尾部的简单通用方法》,《统计年鉴》。,3(1975年),第1163-1174页·Zbl 0323.62033号
[20] 兴涛,利用相依数据进行尾指数估计,Ann.Statist。,19(1991),第1547-1569页·Zbl 0738.62026号
[21] N.E.Humphries、N.Queiroz、J.R.Dyer、N.G.Pade、M.K.Musyl、K.M.Schaefer、D.W.Fuller、J.M.Brunnschweiler、T.K.Doyle、J.D.Houghton、G.C.Hays、C.S.Jones、L.R.Noble、V.J.Wearmouth、E.J.Southall和D.W.Sims,《环境背景解释海洋捕食者的勒维和布朗运动模式》,《自然》,465(2010),第1066-1069页。
[22] A.Java、X.Song、T.Finin和B.Tseng,《为什么我们推特:了解微博的使用和社区》,载于《2007年第九届WebKDD和第一届SNA-KDD网络挖掘和社会网络分析研讨会论文集》,ACM,2007年,第56-65页。
[23] M.Kivela¨、A.Arenas、M.Barthelemy、J.P.Gleeson、Y.Moreno和M.A.Porter,多层网络,J.Complex networks,2(2014),第203-271页。
[24] J.Komloís、P.Major和G.Tusnaídy,独立rv的部分和和样本df i的近似值,Probab。《理论相关领域》,33(1975),第111-131页·Zbl 0308.60029号
[25] J.Komloís、P.Major和G.Tusnaídy,独立rv和样本df ii部分和的近似值,Probab。理论相关领域,34(1976),第33-58页·Zbl 0307.60045号
[26] A.Koning和L.Peng,重尾分布的fit检验,J.Statist。计划。推理,58(2004),第3960-3981页·Zbl 1146.62033号
[27] P.Krapivsky、G.Rodgers和S.Redner,《生长网络的度分布》,《物理学》。Rev.Lett,86(2001),https://doi.org/10.103/PhysRevLett.86.5401。
[28] P.L.Krapivsky和S.Redner,《增长随机网络的组织》,Phys。E版,63(2001),第1-14页。
[29] J.Kunegis,KONECT-科布伦茨网络收藏,《第22届万维网国际会议论文集》,ACM,2013年,第1343-1350页。
[30] J.Kunegis,《网络分析手册》;Konect项目,纳穆尔大学复杂系统中心,2018年,https://github.com/kunegis/konect-handbook/raw/master/konect-handbook.pdf。
[31] J.Leskovec、K.J.Lang、A.Dasgupta和M.W.Mahoney,《大型网络中的社区结构:自然集群大小和缺乏定义明确的大型集群》,互联网数学。,6(2009年),第29-123页·Zbl 1205.91144号
[32] B.Mandelbrot,《帕累托-列维定律与收入分配》,国际出版社。经济。第1版(1960年),第79-106页·Zbl 0201.51101号
[33] D.Mason,极值和的大数定律,Ann.Probab。,10(1982年),第754-764页·Zbl 0493.60039号
[34] M.Mitzenmacher,幂律和对数正态分布生成模型简史,互联网数学。,1(2004年),第226-251页·Zbl 1063.68526号
[35] B.Oancea、T.Andrei和D.Pirjol,《罗马尼亚的收入不平等:指数帕累托分布》,Phys。A、 469(2017),第486-498页,https://doi.org/10.1016/j.physa-2016.11.094。
[36] R.D.Reiss,《订单统计的近似分布》,Springer,纽约,1989年·Zbl 0682.62009号
[37] S.Resnick,重尾现象:概率和统计建模,Springer Ser。操作人员。Res.财务。工程师,施普林格,纽约,2007年·Zbl 1152.62029号
[38] S.I.Resnick和G.Samorodnitsky,应用于优先连接网络的多元规则变化分布的Tauberian理论,Extremes,18(2015),第349-367页,https://doi.org/10.1007/s10687-015-0216-2。 ·Zbl 1345.60118号
[39] S.I.Resnick和G.Samorodnitsky,优先依恋模型中学位数的渐近正态性,Adv.Appl。探针。,48(2016),第283-299页,https://doi.org/10.1017/apr.2016.56。 ·Zbl 1426.05152号
[40] M.A.M.Safari、N.Masseran和K.Ibrahim,存在离群值时Pareto尾部建模的最佳阈值,Phys。A、 509(2018),第169-180页,https://doi.org/10.1016/j.physa.2018.06.007。
[41] G.Samorodnitsky、S.Resnick、D.Towsley、R.Davis、A.Willis和P.Wan,《优先依恋模型中内度和外度的非标准规则变化》,J.Appl。概率。,53(2016),第146-161页,https://doi.org/10.1017/jpr.2015.15。 ·Zbl 1343.60138号
[42] P.Soriano Hernández、M.del Castillo Mussot、O.Córdoba Rodríguez和R.Mansilla Corona,《墨西哥穷人、富人和中产阶级的非固定个人和家庭收入》,Phys。A、 465(2017),第403-413页,https://doi.org/10.1016/j.physa.2016.08.042。
[43] R.van der Hofstad,《随机图和复杂网络》,第1卷,坎布。序列号。统计概率。数学。,剑桥大学出版社,剑桥,2017,https://doi.org/10.1017/9781316779422。 ·Zbl 1361.05002号
[44] A.W.van der Vaart,《渐进统计》,剑桥大学出版社,剑桥,1998年·Zbl 0910.62001号
[45] Y.Virkar和A.Clauset,装箱经验数据中的幂律分布,Ann.Appl。Stat.,8(2014),第89-119页·Zbl 1454.62150号
[46] P.Wan、T.Wang、R.A.Davis和S.I.Resnick,拟合线性优先附着模型,电子。《J.Stat.》,11(2017),第3738-3780页,https://doi.org/10.1214/17-EJS1327。 ·Zbl 1387.62074号
[47] P.Wan、T.Wang、R.A.Davis和S.I.Resnick,极端估计方法对网络数据有用吗?,出现极端,https://doi.org/10.1007/s10687-019-00359-x。 ·Zbl 1460.62085号
[48] T.Wang和S.I.Resnick,离散质量函数的多元正则变分及其在优先连接网络中的应用,Methodol。计算。申请。概率。,20(2018),第1029-1042页,https://doi.org/10.1007/s11009-016-9503-x。 ·Zbl 1401.28006号
[49] T.Wang和S.I.Resnick,优先依恋模型中进出度计数的渐近正态性,Stoch。模型,33(2017),第229-255页,https://doi.org/10.1080/15326349.2016.1256219。 ·Zbl 1367.05091号
[50] T.Wang和S.I.Resnick,线性优先依恋模型中Hill估计量的一致性,极值,22(2019),第1-28页,https://doi.org/10.1007/s10687-018-0335-7。 ·Zbl 1432.60056号
[51] T.Wang和S.I.Resnick,定向优先依恋模型中的学位增长率和指数估计,随机过程应用。,130(2020年),第878-906页,https://doi.org/10.1016/j.spa.2019.03.021。 ·Zbl 1443.60078号
[52] V.M.Yakovenko和J.B.Rosser,Jr.,《学术讨论会:货币、财富和收入的统计力学》,《现代物理学评论》。,81(2009),第1703页。
[53] D.H.Zanette和S.C.Manrubia,《文化的垂直传播和姓氏的分布》,Phys。A、 295(2001),第1-8页·兹伯利0984.92516
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。