安加·扬·恩;万,菲利斯 \(k\)-表示极值的聚集。 (英语) Zbl 1439.62121号 电子。J.统计。 14,第1期,1211-1233(2020). 摘要:(k)-均值聚类算法及其变体,即球面(k)–均值聚类,是无监督学习和模式检测中最重要和最流行的方法之一。在本文中,我们探讨了球(k)均值算法如何仅用于分析数据集的极值观测值。通过使用多元极值分析,我们展示了如何采用它来找到极值依赖的“原型”,并为我们建议的估计量导出一致性结果。在极大线性模型的特殊情况下,我们进一步证明了我们的过程为这类模型提供了另一种统计推断方法。最后,我们提供的数据示例表明,我们的方法能够在极值观测中找到相关模式,并允许我们对极值事件进行分类。 引用于6文件 MSC公司: 62G32型 极值统计;尾部推断 62H30型 分类和区分;聚类分析(统计方面) 60G70型 极值理论;极值随机过程 62M15型 随机过程和谱分析的推断 关键词:尺寸缩减;极值统计;\(k)-表示聚类;光谱测量 软件:texmex公司;尾DepFun;ElemStatLearn(电子状态学习);最大线性CRPS;运输;R(右) PDF格式BibTeX公司 XML格式引用 \textit{A.Janßen}和\textit{P.Wan},电子。J.Stat.14,No.1,1211--1233(2020;Zbl 1439.62121) 全文: 内政部 arXiv公司 欧几里得 参考文献: [1] J.Beirlant、Y.Goegebeur、J.Segers和J.L.Teugels。,极值统计:理论与应用。John Wiley&Sons,2006年·Zbl 1070.62036号 [2] E.Bernard、P.Naveau、M.Vrac和O.Mestre。最大值聚类:法国暴雨的空间相关性。,《气候杂志》,26(20):7929-79372013。 [3] H.-H.博克。聚类分析中k-means算法的起源和扩展。,《Electronique d'Historie des Probabilités et de la Statistique概率统计历史电子期刊》,2008年4月48-49日。 [4] P.S.Bradley和U.M.Fayyad。为k-means聚类细化初始点。在,ICML,第98卷,第91-99页。Citeser,1998年。 [5] E.Chautru。多元极值分析中的降维。,电子。J.统计。,9(1):383-418, 2015. ·Zbl 1308.62121号 ·doi:10.1214/15-EJS1002 [6] M.Chiapino、A.Sabourin和J.Segers。确定同时具有较大潜力的变量组。,Extremes,2019年1月。ISSN 1572-915X·Zbl 1420.62226号 ·doi:10.1007/s10687-018-033-3 [7] S.G.Coles和J.A.Tawn。极端多元事件建模。,《皇家统计学会杂志:B辑(方法学)》,53(2):377-3921991年·Zbl 0800.60020号 ·doi:10.1111/j.2517-6161.1991.tb01830.x [8] D.Cooley和E.Thibaud。高维极值依赖性分解。,Biometrika,2019年,106:587-604·Zbl 1464.62278号 [9] A.Davison和R.Huser。极值统计。,《统计及其应用年鉴》,2(1):203-2352015年。 [10] A.C.Davison、S.A.Padoan、M.Ribatet等人,《空间极值的统计建模》。,统计科学,27(2):161-1862012·Zbl 1330.86021号 ·doi:10.1214/11-STS376 [11] L.de Haan和A.Ferreira。,极值理论:导论。Springer科学与商业媒体,2007年·Zbl 1101.62002号 [12] I.S.Dhillon和D.S.Modha。使用聚类对大型稀疏文本数据进行概念分解,机器学习,42(1-2):143-1752001·Zbl 0970.68167号 ·doi:10.1023/A:1007612920971 [13] J.H.Einmahl和J.Segers。极值分布谱测度的最大经验似然估计。,《统计年鉴》,37(5B):2953-29892009·Zbl 1173.62042号 ·doi:10.1214/08-AOS677 [14] J.H.Einmahl、L.de Haan和A.K.Sinha。估计极值分布的谱测度。,随机过程及其应用,70(2):143-171997·Zbl 0905.62051号 ·doi:10.1016/S0304-4149(97)00065-3 [15] J.H.Einmahl、L.de Haan和V.I.Piterbarg。极值分布谱测度的非参数估计。,安.统计师。,29(5) :1401-1423, 10 2001. ·Zbl 1043.62046号 ·doi:10.1214/aos/1013203459 [16] J.H.Einmahl、A.Krajina和J.Segers。任意维尾部相关性的M估计。,《统计年鉴》,40(3):1764-17932012年·Zbl 1257.62058号 ·doi:10.1214/12-AOS1023 [17] J.H.Einmahl、A.Kiriliouk、A.Krajina和J.Segers。空间尾部相关性的M估计。,英国皇家统计学会期刊:B系列(统计方法论),78(1):275-2982016·Zbl 1411.62125号 ·doi:10.1111/rssb.12114 [18] J.H.Einmahl、A.Kiriliouk和J.Segers。高维尾部相关性的连续更新加权最小二乘估计。,极端,第1-292018页·Zbl 1402.62088号 ·doi:10.1007/s10687-017-0303-7 [19] A.-L.Fougères。多元极端。在《金融、电信和环境的极端价值》中,第373-388页。查普曼和霍尔/CRC,2003年。 [20] A.-L.Fougères、C.Mercadier和J.P.Nolan。多元极值分布的稠密类。,《多元分析杂志》,116:109-1292013·Zbl 1277.62143号 ·doi:10.1016/j.jmva.2012.11.015 [21] G.Gan、C.Ma和J.Wu。,数据聚类:理论、算法和应用,第20卷。暹罗,2007年·Zbl 1185.68274号 [22] N.吉斯布尔。,极值的图形建模:有向非循环图上的极大线性模型。慕尼黑技术大学博士论文,2018年·Zbl 1419.62138号 ·doi:10.3150/17-BEJ941 [23] N.Gissibl和C.Klüppelberg。有向非循环图上的Max-linear模型。,伯努利,24(4A):2693-27202018年·Zbl 1419.62138号 ·doi:10.3150/17-BEJ941 [24] N.Gissibl、C.Klüppelberg和M.Otto。具有规则变化噪声变量的递归max-linear模型的尾部相关性。,计量经济学与统计,2018年6月149-167日。 [25] N.Goix、A.Sabourin和S.Clémençon。多元极值的稀疏表示及其在异常检测中的应用。,《多元分析杂志》,161:12-312017年。ISSN 0047-259X·Zbl 1373.62252号 ·doi:10.1016/j.jmva.2017.06.010 [26] T.Hastie、R.Tibshirani和J.Friedman。,统计学习的要素:数据挖掘、推理和预测。施普林格,2009年第2版·Zbl 1273.62005年 [27] S.Haug、C.Klüppelberg和G.Kuhn。基于极端依赖的Copula结构分析。,统计及其界面,8:93-1072015·Zbl 1407.62164号 ·doi:10.4310/SII.2015.v8.n1.a9 [28] J.E.Heffernan和J.A.Tawn。多元极值的条件方法(有讨论)。,英国皇家统计学会杂志:B辑(统计方法),66(3):497-5462004·Zbl 1046.62051号 ·文件编号:10.1111/j.1467-9868.2004.02050.x [29] K.Hornik、I.Feinerer、M.Kober和C.Buchta。球形\(k\)-表示聚类,《统计软件杂志》,50(10):1-222012年。。 [30] X.Huang。,二元极值统计。博士论文,鹿特丹伊拉斯谟大学,1992年。 [31] A.基里略克。,tailDepFun:尾部依赖模型的最小距离估计,2016年。统一资源定位地址https://CRAN.R-project.org/package=tailDepFun。R软件包版本1.0.0。 [32] J.麦昆。多元观测值分类和分析的一些方法。年,《第五届伯克利数理统计与概率研讨会论文集》,第1卷:统计学,第281-297页,加州伯克利,1967年。加利福尼亚大学出版社·Zbl 0214.46201号 [33] M.Mahajan、P.Nimbhorkar和K.Varadarajan。平面k-means问题是np-hard。,理论计算机科学,442:13-212012·Zbl 1260.68158号 ·doi:10.1016/j.tcs.2010.05.034 [34] S.A.Morris、B.J.Reich和E.Thibaud。使用经验基函数探索和推断空间极值。,《农业、生物和环境统计杂志》,2019年,24:555-572·Zbl 1428.62491号 ·doi:10.1007/s13253-019-00359-1 [35] D.波拉德。强一致性\(k\)-表示聚类。,9(1):135-140, 01 1981. 统一资源定位地址https://doi.org/10.1214/aos/1176345339。 ·兹比尔0451.62048 ·doi:10.1214/aos/1176345339 [36] D.波拉德。量化和k均值方法。,IEEE信息理论汇刊,28(2):199-2051982·兹伯利0476.94010 ·doi:10.1109/TIT.1982.1056481 [37] Y.Qi。多元极值统计中稳定尾经验相关函数的几乎必然收敛性。,《应用数学学报》,13(2):167-1751997年4月。ISSN 1618-3932·Zbl 0904.62061号 ·doi:10.1007/BF02015138 [38] D.Schuhmacher、B.Bähre、C.Gottschlich、V.Hartmann、F.Heinemann和B.Schmitzer。,交通:最佳交通计划和瓦瑟斯坦距离的计算,2019年。统一资源定位地址https://cran.r-project.org/package=transport。R包版本0.11-1。 [39] H.Southworth、J.E.Heffernan和P.D.Metcalfe。,texmex:极值统计建模,2018年。R包版本2.4.2。 [40] R.Yuen。通过最小CRPS拟合最大线性模型的R代码。,http://hdl.handle.net/2027.42/10774,2015年。 [41] R·Zbl 1309.62100号 ·doi:10.1007/s10687-014-0185-x 此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。