×

通过有序的良好性测试和错误发现率调整,为极值分析自动选择阈值。 (英语) Zbl 1393.62023号

摘要:阈值选择是基于阈值方法的极值分析的关键问题。在适当的条件下,高阈值上的超越被证明是渐近服从广义帕累托分布(GPD)的。然而,在实践中,必须选择阈值。如果选择的阈值太低,则GPD近似值可能不成立,可能会出现偏差。如果阈值选择得太高,减少样本量会增加参数估计值的方差。要处理批分析,常用的选择方法(如图形诊断)是主观的,无法实现自动化。我们开发了一种有效的技术来评估和应用安德森-达尔林测试,以测试超过固定阈值的样本。为了自动选择阈值,该测试与最近开发的停止规则结合使用,该规则控制有序假设测试中的错误发现率。在此设置中以前的尝试没有考虑到有序多次测试的问题。该方法的性能在模拟实际回报水平估计的大规模模拟研究中进行了评估。这一过程在美国西部数百个地点重复进行,以生成极端降水的回归线图。

MSC公司:

62G32型 极值统计;尾部推断
62J15型 配对和多重比较;多重测试
62页第12页 统计在环境和相关主题中的应用
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Bader,B.和Yan,J.(2015)。eva:极值分析和良好测试。R包版本0.1.2。
[2] Bader,B.、Yan,J.和Zhang,X.(2018)。补充“通过有序的良好性测试和错误发现率调整进行极值分析的自动阈值选择”DOI:10.1214/17-AOAS1092SUPP·Zbl 1393.62023号
[3] Balkema,A.A.和de Haan,L.(1974年)。高龄时的剩余寿命。年鉴Probab.2 792-804·Zbl 0295.60014号
[4] Benjamini,Y.(2010年a)。发现错误发现率。J.R.统计社会服务。B.统计方法72 405-416·Zbl 1411.62043号
[5] Benjamini,Y.(2010年b)。同时推理和选择性推理:当前的成功和未来的挑战。生物。期刊52 708-721·Zbl 1208.62111号
[6] Benjamini,Y.和Hochberg,Y.(1995年)。控制错误发现率:一种实用且强大的多重测试方法。J.R.统计社会服务。B.统计方法57 289-300·Zbl 0809.62014号
[7] Benjamini,Y.和Yekutieli,D.(2001年)。依赖下多重测试中错误发现率的控制。《统计年鉴》29 1165-1188·Zbl 1041.62061号
[8] 布兰查德(G.Blanchard)和罗奎恩(R.Roquin)。(2009). 独立性和依赖性下的自适应错误发现率控制。J.马赫。学习。第10号决议2837-2871·Zbl 1235.62093号
[9] Blanchet,J.和Lehning,M.(2010年)。绘制雪深回归水平:平滑空间建模与台站插值。水文与地球系统科学14 2527-2544。
[10] Caeiro,F.和Gomes,M.I.(2015)。极值分析中的阈值选择。《极值建模和风险分析:方法和应用》(D.K.Dey和J.Yan编辑)69-82。CRC出版社,博卡拉顿·兹比尔1365.62175
[11] 凯恩斯,S.(2009年)。年度最大值和峰值阈值方法技术报告的比较模拟研究,SBW-Belastingen:子项目“统计”。Deltares报告1200264-002。
[12] Cheng,R.C.H.和Stephens,M.A.(1989年)。使用Moran统计和估计参数进行的良好性检验。生物特征76 385-392·Zbl 0671.62050号
[13] Choulakian,V.和Stephens,M.A.(2001年)。广义帕累托分布的有效性检验。技术计量学43 478-484。
[14] Coles,S.(2001)。极值统计建模导论,第1版,柏林斯普林格出版社·Zbl 0980.62043号
[15] Danielsson,J.、de Haan,L.、Peng,L.和de Vries,C.G.(2001)。使用bootstrap方法来选择尾部指数估计中的样本分数。《多元分析杂志》76 226-248·Zbl 0976.62044号
[16] Davison,A.C.和Smith,R.L.(1990年)。超出高阈值的模型。J.罗伊。统计师。Soc.序列号。乙52 393-442·Zbl 0706.62039号
[17] Deidda,R.和Puliga,M.(2006年)。雨量数据四舍五入的良好统计敏感性。地球物理和化学,A/B/C 31 1240-1251部分。
[18] Deidda,R.和Puliga,M.(2009年)。四舍五入样本上广义Pareto分布的一些参数估计的性能。《地球物理与化学》,A/B/C 34 626-634部分。
[19] Dey,D.K.和Yan,J.编辑(2015)。极值建模和风险分析:方法和应用。CRC出版社,博卡拉顿。
[20] Drees,H.、De Haan,L.和Resnick,S.(2000)。如何绘制丘陵地带。《统计年鉴》28 254-274·Zbl 1106.62333号
[21] DuMouchel,W.H.(1983)。估计稳定指数(α)以测量尾部厚度:一个评论。统计年鉴11 1019-1031·Zbl 0547.62022号
[22] Dupuis,D.J.(1999)。超过高阈值:阈值选择指南。极端1 251-261·Zbl 0921.62030号
[23] Fawcett,L.和Walshaw,D.(2007年)。对时间聚集极值的改进估计。环境计量18 173-188。
[24] Ferreira,A.、de Haan,L.和Peng,L.(2003)。关于优化概率分布的高分位数估计。统计37 401-434·Zbl 1210.62052号
[25] Ferro,C.A.和Segers,J.(2003)。极值簇的推断。J.R.统计社会服务。B.统计方法65 545-556·Zbl 1065.62091号
[26] Fisher,R.A.和Tippett,L.H.C.(1928)。样本中最大或最小成员的频率分布的限制形式。剑桥哲学学会数学会议录24 180-190。剑桥大学出版社,剑桥。
[27] G'Sell,M.G.、Wager,S.、Chouldechova,A.和Tibshirani,R.(2016)。顺序选择程序和错误发现率控制。J.R.统计社会服务。B.统计方法78 423-444·Zbl 1414.62341号 ·doi:10.1111/rssb.12122
[28] Goegebeur,Y.、Beirlant,J.和de Wet,T.(2008)。将Pareto-tail核优度统计量与最优阈值和二阶估计下的尾部指数联系起来。修订版6 51-69·Zbl 1153.62035号
[29] Holden,L.和Haug,O.(2009年)。无监督尾估计的多维混合模型。NR-非SAMBA/09/09。第29页。
[30] Jackson,O.(1967年)。偏离指数分布的分析。J.R.统计社会服务。B.统计方法。540-549. ·Zbl 0183.21402号
[31] Katz,R.W.、Parlange,M.B.和Naveau,P.(2002)。水文极值统计。水资源进展25 1287-1304。
[32] Kharin,V.V.、Zwiers,F.W.、Zhang,X.和Hegerl,G.C.(2007年)。IPCC全球耦合模式模拟集合中温度和降水极值的变化。J.气候20 1419-1444。
[33] Kharin,V.、Zwiers,F.、Zhang,X.和Wehner,M.(2013)。CMIP5系综中极端温度和降水的变化。气候变化119 345-357。
[34] Langousis,A.、Mamalakis,A.、Puliga,M.和Deidda,R.(2016)。广义Pareto分布的阈值检测:NOAA NCDC日降雨量数据库的代表性方法和应用综述。水资源研究52 2659-2681。
[35] Latetin,O.和Bonnard,C.(1999)。瑞士雪崩、洪水和滑坡灾害评估和土地利用规划。世界气象组织技术报告。
[36] Leadbetter,M.R.、Weissman,I.、De Haan,L.和Rootzén,H.(1989)。统计平稳序列中高值的聚类。程序。第四届国际会议。统计气候学16 217-222。
[37] 刘易斯(1965)。泊松过程检验的一些结果。生物特征52 67-77·Zbl 0138.13804号
[38] MacDonald,A.、Scarrott,C.J.、Lee,D.、Darlow,B.、Reale,M.和Russell,G.(2011年)。一个灵活的极值混合模型。计算。统计师。数据分析55 2137-2157·Zbl 1328.62296号
[39] Menne,M.J.、Durre,I.、Vose,R.S.、Gleason,B.E.和Houston,T.G.(2012)。全球历史气候学网络每日数据库概述。《大气与海洋技术杂志》29 897-910。
[40] Moran,P.A.P.(1953年)。间隔部分II的随机划分。J.罗伊。统计师。Soc.序列号。B 15 77-80·Zbl 0053.09901号
[41] Nadarajah,S.和Eljabri,S.(2013)。库马拉斯瓦米GP分布。《数据科学杂志》,11739-766·Zbl 1380.62079号
[42] Naveau,P.、Huser,R.、Ribereau,P和Hannart,A.(2016)。在没有阈值选择的情况下,对低、中、强降雨强度进行联合建模。水资源研究52 2753-2769。
[43] Northrop,P.J.,Attalides,N.和Jonathan,P..(2017)。交叉验证极值阈值选择和不确定性及其在海洋风暴严重程度中的应用。J.R.统计社会服务。C.申请。统计数字66 93-120。
[44] 诺斯罗普公司和科尔曼公司(2014年)。用于极值分析的改进阈值诊断图。极端17 289-303·Zbl 1308.62104号
[45] 诺斯罗普·P.J.和乔纳森·P.(2011)。空间相关非平稳极值的阈值建模及其在飓风诱发波高中的应用。环境计量22 799-809。
[46] Papalexiou,S.M.和Koutsoyiannis,D.(2013年)。极值分布之战:全球极端日降雨量调查。水资源研究49 187-201。
[47] Papstathopoulos,I.和Tawn,J.A.(2013年)。用于尾部估计的扩展广义Pareto模型。J.统计。计划。推论143 131-143·Zbl 1251.62020年
[48] Pickands,J.III(1975年)。使用极值顺序统计进行统计推断。《统计年鉴》第3卷第119-131页·Zbl 0312.62038号
[49] Raoult,J.-P.和Worms,R.(2003)。超数的广义Pareto逼近的收敛速度。申请中的预付款。大约35 1007-1027·Zbl 1044.60041号
[50] Roth,M.、Jongbloed,G.和Buishand,T.A.(2016年)。区域峰值-阈值数据的阈值选择。J.应用。统计数字43 1291-1309·Zbl 1514.62830号
[51] Roth,M.、Buishand,T.A.、Jongbloed,G.、Klein Tank,A.M.G.和van Zanten,J.H.(2012)。非平稳气候中的区域峰值-阈值模型。水资源研究48。
[52] Scarrott,C.和MacDonald,A.(2012年)。极值阈值估计和不确定性量化综述。修订版10 33-60·Zbl 1297.62120号
[53] Serinaldi,F.和Kilsby,C.G.(2014)。极端降雨:在分配之战后走向和解。水资源研究50 336-352。
[54] Southworth,H.和Heffernan,J.E.(2012年)。texmex:阈值超标和多元极值。R软件包版本1.3。
[55] Thompson,P.、Cai,Y.、Reeve,D.和Stander,J.(2009年)。极值波分析的自动阈值选择方法。海岸工程56 1013-1021。
[56] Wadsworth,J.L.(2016)。利用极大似然估计的结构进行极值阈值选择。技术计量58 116-126。
[57] Wadsworth,J.L.和Tawn,J.A.(2012)。基于似然的阈值诊断程序和极值建模中的不确定性。J.R.统计社会服务。B.统计方法74 543-567·Zbl 1411.62127号
[58] 王庆杰(1991)。POT模型由具有泊松到达率的广义Pareto分布描述。《水文学杂志》129 263-280。
[59] Wong,T。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。