×

基于分位数自方差的稳健模糊聚类。 (英语) Zbl 1467.62118号

摘要:讨论了时间序列聚类中对异常值存在的鲁棒性。假设聚类原理是对由相似依赖结构生成的序列的实现进行分组,通过分别考虑所谓的度量、噪声和修剪方法,提出了基于比较样本分位数自方差的模糊(C)-中值模型的三种稳健版本。每种方法都以不同的方式实现了对异常值的鲁棒性。度量方法考虑了距离的适当转换,目的是平滑离群值的影响,噪声方法将离群值聚集到一个单独的人工聚类中,而修剪方法删除了时间序列的一部分。所有提出的方法都利用分位数自方差的高性能来区分来自广泛平稳过程的独立实现,包括线性、非线性和条件异方差模型。进行了广泛的仿真研究,涉及不同生成模型和异常值污染的场景。针对(i)不同生成模式产生的异常值,以及(ii)以孤立、临时或持续水平变化为特征的异常值进行了稳健性评估。分析了不同算法所需输入参数的影响。结果表明,无论考虑何种模型,所提出的稳健算法都能够抵消异常序列对保持真实聚类结构的影响,并且性能优于其他基于替代度量的稳健算法。财务数据集的两个应用可以说明所提出的模型的有用性。

MSC公司:

62小时86 多元分析与模糊性
62小时30分 分类和区分;聚类分析(统计方面)
62G08号 非参数回归和分位数回归
62M10个 统计学中的时间序列、自相关、回归等(GARCH)
62P05号 统计学在精算科学和金融数学中的应用
PDF格式BibTeX公司 XML格式引用
全文: DOI程序 链接

参考文献:

[1] Aghabozorgi S、Shirkhorshidi AS、Wah TY(2015)《时间序列聚类十年回顾》。信息系统53(C):16-38
[2] Aielli,普通合伙人;Caporin,M.,通过高斯混合模型快速聚类GARCH过程,数学计算模拟,94205-222(2013)·Zbl 1499.91181号
[3] 阿隆索,AM;Maharaj,EA,使用子采样比较时间序列,计算统计数据分析,50,10,2589-2599(2006)·Zbl 1445.62216号
[4] 阿隆索,AM;贝伦德罗,JR;埃尔南德斯,A。;Justel,A.,基于预测密度的时间序列聚类,《计算统计数据分析》,51,2,762-776(2006)·Zbl 1157.62484号
[5] 阿蒙多拉,A。;Francq,C.,非线性时间序列建模的概念和工具,377-427(2009),纽约:威利
[6] 安,HZ;Huang,FC,非线性自回归模型的几何遍历性,Stat Sin,6,4,943-956(1996)·Zbl 0857.62085号
[7] Arabie,P。;JD卡罗尔;德萨尔博,WS;Wind,YJ,重叠聚类:一种新的产品定位方法,J Mark Res,18,3,310-317(1981)
[8] Baruník J,Kley T(2015)经济变量之间相关性的分位数交叉谱测量。arXiv:15100.06946
[9] 日本巴斯托斯;Caiado,J.,《利用方差比统计对金融时间序列进行聚类》,Quant Financ,14,12,2121-2133(2014)·Zbl 1402.62246号
[10] Bezdek,JC,模糊目标函数算法的模式识别(1981),马萨诸塞州诺威尔:Kluwer学术出版社,马萨诸塞州诺威尔·Zbl 0503.68069号
[11] Caiado,J。;Crato,N.,《识别股票收益中的常见动态特征》,Quant Financ,10,7,797-807(2010)
[12] Caiado,J。;北卡罗来纳州克雷托。;Peña,D.,基于周期图的时间序列分类度量,《计算统计数据分析》,50,10,2668-2684(2006)·Zbl 1445.62222号
[13] Caiado,J。;北卡罗来纳州克雷托。;Peña,D.,《频域中长度不等的时间序列的比较》,《公共统计模拟计算》,38,3,527-540(2009)·Zbl 1161.37348号
[14] Caiado,J。;Maharaj,E。;D’Urso,P。;亨尼格,C。;梅拉,M。;Murtagh,F。;Rocci,R.,时间序列聚类,聚类分析手册,241-264(2015),博卡拉顿:查普曼和霍尔/CRC,博卡拉通
[15] 坎佩罗,R。;Hruschka,E.,聚类分析中sihouette宽度准则的模糊扩展,模糊集系统,157,21,2858-2875(2006)·Zbl 1103.68674号
[16] Chae,SS;Kim,C。;Kim,JM;Warde,WD,使用不同相关系数进行聚类分析,Stat Pap,49,4,715-727(2008)·Zbl 1312.62081号
[17] 陈,C。;所以,M。;Liu,FC,《金融阈值时间序列模型综述》,《统计接口》,第4期,第167-181页(2011年)·Zbl 1229.91354号
[18] 西米诺,M。;弗罗西尼,G。;拉泽里尼,B。;Marcelloni,F.,《稳健模糊c-均值中的噪声距离》,Proc World Acad Sci-Eng-Technol,1361-364(2005)
[19] 科皮,R。;D'Urso,P.,三角模糊时间轨迹的模糊K-means聚类模型,统计方法Appt,11,1,21-40(2002)·Zbl 1145.62347号
[20] 科皮,R。;D’Urso,P.,LR模糊时间轨迹的三向模糊聚类模型,计算统计数据分析,43,2,149-177(2003)·Zbl 1429.62273号
[21] 科皮,R。;D’Urso,P.,Shannon熵正则化对多变量时间轨迹的模糊无监督分类,Comput Stat Data Anal,50,61452-1477(2006)·Zbl 1445.62156号
[22] 科皮,R。;D’Urso,P。;佐丹尼,P。;Bouchon-Meunier,B。;科尔蒂,G。;Yager,S.,时变数据的模糊C-中值聚类模型,现代信息处理:来自理论应用,195-206(2006),纽约:Elsevier,纽约
[23] 科皮,R。;D’Urso,P。;Giordani,P.,多元空间时间序列的模糊聚类模型,J Classif,27,1,54-88(2010)·Zbl 1337.62305号
[24] Dave,RN,《聚类中噪声的表征和检测》,《模式识别快报》,12,11,657-664(1991)
[25] 戴维,注册护士;Krishnapuram,R.,《稳健聚类方法:统一视图》,IEEE Trans-Fuzzy Syst,5270-293(1997)
[26] DavéRN,Sen S(1997)《重新审视噪声聚类算法》。In:IEEE Fuzzy信息处理协会,1997年北美年会,NAFIPS’97,pp 199-204
[27] 戴维,注册护士;Sen,S.,关系数据的稳健模糊聚类,IEEE Trans-fuzzy Syst,10,6,713-727(2002)
[28] 德卢卡,G。;Zuccolotto,P.,金融时间序列的动态尾部依赖聚类,Stat Pap,58,3,641-657(2017)·Zbl 1416.62581号
[29] Dette,H。;Hallin,M。;Kley,T。;Volgushev,S.,关于系谱、分位数、秩和谱:谱分析的一种方法,伯努利,21,2781-831(2015)·Zbl 1337.62286号
[30] Di Lascio FML,Giannerini S(2016)用copula函数聚类相关观测。统计Pap 10.1007/s00362-016-0822-3·Zbl 1411.62165号
[31] Disegna M,D’Urso P,Durante F(2017),基于Copula的空间时间序列模糊聚类。Spat Stat 21(A部分):209-225
[32] 杜加德,P。;托德曼,JB;Staines,H.,《接近多元分析:实践简介》(2010年),伦敦:劳特利奇出版社,伦敦
[33] 杜兰特,F。;帕帕达,R。;Torelli,N.,风险情景下金融时间序列的聚类,高级数据分析分类,8,4,359-376(2014)·Zbl 1414.62241号
[34] 杜兰特,F。;帕帕达,R。;Torelli,N.,通过非参数尾部相关性估计对时间序列进行聚类,Stat Pap,56,3701-721(2015)·Zbl 1317.62053号
[35] D’Urso,P.,《多元时变数据的模糊C均值聚类模型:不同方法》,《国际不确定模糊杂志》,12,3,287-326(2004)·Zbl 1046.62061号
[36] D’Urso,P.,具有内点和外点时间轨迹的数据时间阵列的模糊聚类,IEEE Trans-Fuzzy Syst,13,5,583-604(2005)
[37] D’Urso,P。;亨尼格,C。;梅拉,M。;Murtagh,F。;Rocci,R.,《模糊聚类》,《聚类分析手册》(2015),博卡拉顿:查普曼和霍尔/CRC,博卡拉通
[38] D’Urso,P。;De Giovanni,L.,电信市场细分的时间自组织映射,神经计算,71,13,2880-2892(2008)
[39] D’Urso,P。;De Giovanni,L.,《不精确数据的稳健聚类》,化学计量学智能实验室系统,136,58-80(2014)
[40] D’Urso,P。;Maharaj,EA,基于自相关的时间序列模糊聚类,模糊集系统,160,24,3565-3589(2009)
[41] D’Urso,P。;Maharaj,EA,基于小波的多元时间序列聚类,模糊集系统,193,33-61(2012)·Zbl 1237.62079号
[42] D’Urso,P。;卡佩利,C。;Di Lallo,D。;Massari,R.,《金融时间序列的聚类》,Physica A,392,9,2114-2129(2013)
[43] D’Urso,P。;De Giovanni,L。;马萨里,R。;Di Lallo,D.,通过自回归度量对时间序列进行噪声模糊聚类,Metron,71,32217-243(2013)·Zbl 1302.62207号
[44] D’Urso,P。;Di Lallo,D。;Maharaj,EA,基于自回归模型的模糊聚类及其在空气污染监测网络信息冗余检测中的应用,软计算,17,1,83-131(2013)
[45] D’Urso,P。;De Giovanni,L。;马哈拉杰,EA;Massari,R.,《基于小波的自组织映射用于多变量时间序列分类》,《化学杂志》,28,1,28-51(2014)
[46] D’Urso,P。;De Giovanni,L。;Massari,R.,《利用稳健自回归度量进行时间序列聚类并应用于空气污染》,《化学计量学智能实验室系统》,141107-124(2015)
[47] D’Urso,P。;De Giovanni,L。;Massari,R.,基于GARCH的时间序列鲁棒聚类,模糊集系统,305,1-28(2016)·Zbl 1368.62167号
[48] D'Urso P,Maharaj EA,Alonso AM(2017a)使用极值对时间序列进行模糊聚类。模糊集系统318(附录C):56-79。2016年10月10日/j.fss.2016.10.006·Zbl 1381.62162号
[49] D’Urso,P。;马萨里,R。;卡佩利,C。;De Giovanni,L.,基于自回归度量的修剪模糊聚类及其在PM 10时间序列中的应用,化学计量学智能实验室系统,161,15-26(2017)
[50] D’Urso,P。;乔瓦尼,LD;Massari,R.,多元时间轨迹的稳健模糊聚类,国际J近似推理,99,12-38(2018)·Zbl 1453.62540号
[51] 埃弗里特,B。;兰道,S。;Leese,S.,Clust Ana(2001),伦敦:阿诺德出版社,伦敦·Zbl 1205.62076号
[52] 范,J。;Yao,Q.,非线性时间序列:非参数和参数方法(2005),Springer,纽约:统计学中的Springer系列,Springr,纽约
[53] Floriello,D。;维泰利,V.,《功能数据的稀疏聚类》,《多元分析杂志》,154,1-18(2017)·Zbl 1353.62069号
[54] Fu,TC,《时间序列数据挖掘综述》,Eng-Appl-Artif Intell,24,1,164-181(2011)
[55] 加西亚·埃斯库德罗,洛杉矶;Gordaliza,A.,k均值和修剪k均值的稳健性性质,美国国家统计协会,94447956-969(1999)·Zbl 1072.62547号
[56] 加西亚·埃斯库德罗,洛杉矶;Gordaliza,A.,《稳健曲线聚类的建议》,J Classif,22,2,185-201(2005)·Zbl 1336.62179号
[57] 加西亚·埃斯库德罗,洛杉矶;Gordaliza,A。;马特兰,C。;Mayo-Iscar,A.,稳健聚类方法综述,Adv Data Anal Classif,4,2,89-109(2010)·Zbl 1284.62375号
[58] Górecki,T。;Krzy Shi-ko,M。;瓦扎克。;Wołynski,W.,多元功能数据数据分析的选定统计方法,Stat Pap,59,1,153-182(2018)·兹比尔1392.62173
[59] Hagemann A(2013)稳健谱分析。arXiv:11111.1965v1
[60] WJ Heiser;Groenen,PJF,用簇内损失分量和模糊逐次逼近策略来避免局部极小值的簇差异缩放,《心理测量学》,62,1,63-83(1997)·Zbl 0889.92037号
[61] Höppner,F.,《模糊聚类分析:分类、数据分析和图像识别方法》(1999),纽约:威利出版社,纽约·Zbl 0944.65009号
[62] Hruschka,H.,《使用模糊聚类方法进行市场定义和细分》,《国际市场研究杂志》,第3期,第2期,第117-134页(1986年)
[63] Hwang,H。;Desarbo,WS公司;Takane,Y.,Fuzzy clustwise generalized structured component analysis,《心理测量学》,72,2,181-198(2007)·Zbl 1286.62107号
[64] James,总经理;Sugar,CA,稀疏采样功能数据的聚类,美国统计协会杂志,98,462,397-408(2003)·Zbl 1041.62052号
[65] Kalpakis K,Gada D,Puttagunta V(2001)ARIMA时间序列有效聚类的距离度量。摘自:IEEE数据挖掘国际会议论文集,2001年(ICDM 2001),第273-280页
[66] Kamdar T,Joshi A(2000)关于使用日志挖掘创建自适应web服务器。巴尔的摩县马里兰大学计算机科学和电气工程系技术报告TR-CS-00-05
[67] 考夫曼,L。;Rousseeuw,PJ,《在数据中发现群体:聚类分析简介》(2009),纽约:威利出版社,纽约
[68] Kley,T。;Volgushev,S。;Dette,H。;Hallin,M.,分位数谱过程:渐近分析和推断,Bernoulli,22,31770-1807(2016)·兹比尔1369.62245
[69] Kou G,Peng Y,Wang G(2014)使用mcdm方法评估金融风险分析的聚类算法。信息科学275(C):1-12
[70] Krishnapuram R,Joshi A,Yi L(1999)k-medoids算法的模糊关系及其在web文档和片段聚类中的应用。摘自:片段聚类,IEEE模糊系统国际会议论文集-FUZZIEEE99,韩国,第1281-1286页
[71] Krishnapuram,R。;Joshi,A。;O.Nasraoui。;Yi,L.,用于web挖掘的低复杂度模糊关系聚类算法,IEEE Trans-fuzzy Syst,9,595-607(2001)
[72] Kwon,SH,模糊聚类的聚类有效性指数,Electron Lett,34,222176-2177(1998)
[73] 拉富恩特·雷戈,B。;JA Vilar,使用分位数自方差对时间序列进行聚类,高级数据分析分类,10,3,391-415(2016)·Zbl 1414.62372号
[74] 拉富恩特·雷戈,B。;弗吉尼亚州维拉尔;Douzal-Chuakria,A。;维拉尔,JA;Marteau,PF,使用分位数自方差对序列进行模糊聚类,时间数据的高级分析和学习:第一次ECML PKDD研讨会,AALTD 2015,葡萄牙波尔图,2015年9月11日,49-64(2016),修订论文集:Springer International Publishing,Cham,修订论文
[75] Lee J,Rao S(2012)非线性时间序列的分位数谱密度和基于比较的测试。未出版手稿,德克萨斯农工大学统计系,美国大学城,arXiv:1112.2759v2
[76] Li,TH,分位数周期图,美国统计协会期刊,107,498,765-776(2014)·Zbl 1261.62082号
[77] Liao,TW,时间序列数据的聚类调查,模式识别,38,11,1857-1874(2005)·Zbl 1077.68803号
[78] 林惇,O。;Whang,YJ,《量化图:应用于评估方向可预测性》,《经济杂志》,141,1,250-282(2007)·Zbl 1418.62338号
[79] Maharaj,EA,ARMA模型分类的显著性检验,J Stat Comput Simul,54,4,305-331(1996)·Zbl 0899.62116号
[80] Maharaj,EA,平稳多元时间序列的比较与分类,模式识别,32,7,1129-1138(1999)
[81] Maharaj,EA,时间序列集群。Classif杂志,17,2,297-314(2000)·Zbl 1017.62079号
[82] EA Maharaj;D’Urso,P.,《时间序列模式识别的一种基于相干的方法》,Physica A,389,17,3516-3537(2010)
[83] EA Maharaj;D’Urso,P.,频域时间序列的模糊聚类,《信息科学》,181,7,1187-1211(2011)·Zbl 1215.62061号
[84] EA Maharaj;阿隆索,AM;D’Urso,P.,使用极值分析聚类季节时间序列:西班牙温度时间序列的应用,Commun Stat,1,4,175-191(2015)
[85] McBratney,A。;Moore,A.,模糊集在气候分类中的应用,Agric For Meteorol,35,1-4165-185(1985)
[86] 蒙特罗,P。;Vilar,JA,TSclust:时间序列聚类的R包,J Stat Softw,62,1,1-43(2014)
[87] Otranto,E.,用基于模型的程序聚类异方差时间序列,《计算统计数据分析》,52,10,4685-4698(2008)·Zbl 1452.62784号
[88] Otranto,E.,《识别具有类似动态条件相关性的金融时间序列》,《计算统计数据分析》,54,1,1-15(2010)·Zbl 1284.91593号
[89] Peña,D.,《异常值、有影响力的观测结果和缺失数据》,Wiley,New York,chap,6136-170(2011)
[90] 彭,Y。;王,G。;寇,G。;石毅,《金融风险预测分类算法评价的实证研究》,应用软件计算,11,2,2906-2915(2011)
[91] 佩尔特加,S。;JA Vilar,《比较时间序列聚类的几种参数和非参数方法:模拟研究》,J Classif,27,3,333-362(2010)·Zbl 1337.62137号
[92] Pham,TD;Tran,LT,关于一阶双线性时间序列模型,J Appl Probab,18,3617-627(1981)·Zbl 0466.62082号
[93] Piccolo,D.,分类arima模型的距离度量,《时序分析杂志》,11,2,153-164(1990)·Zbl 0691.62083号
[94] 拉尼,S。;Sikka,G.,《时间序列数据聚类的最新技术:一项调查》,《国际计算应用杂志》,52,15,1-9(2012)
[95] TA Runkler;Bezdek,JC,《交替聚类估计:聚类和函数近似的新工具》,IEEE Trans-Fuzzy Syst,7,4,377-393(1999)
[96] 斯莱茨,L。;Claeskens,G。;Hubert,M.,《基于相位和振幅的功能数据聚类》,《计算统计数据分析》,56,7,2360-2374(2012)·Zbl 1252.62066号
[97] Tarpey,T。;Kinateder,KK,聚类功能数据。J Classif,20,1,093-114(2003)·Zbl 1112.62327号
[98] Tsay,RS,存在离群值时的时间序列模型规范,美国统计协会杂志,81,393,132-141(1986)
[99] Tsay,RS,《分析大相关数据的一些方法》,J Bus Econ Stat,34,4,673-688(2016)
[100] 弗吉尼亚州维拉尔;Pértega,S.,《高斯平稳过程的判别和聚类分析:局部线性拟合方法》,《非参数统计杂志》,16,3-4,443-462(2004)·Zbl 1076.62063号
[101] 吉咪·维拉尔(JM Vilar);弗吉尼亚州维拉尔;Pértega,S.,《时间序列数据分类:非参数方法》,J Classif,26,1,3-28(2009)·Zbl 1276.62042号
[102] 维拉尔,JA;阿隆索,AM;Vilar,JM,基于非参数预测密度的非线性时间序列聚类,《计算统计数据分析》,54,11,2850-2865(2010)·Zbl 1284.62575号
[103] 弗吉尼亚州维拉尔;拉富恩特·雷戈,B。;D’Urso,P.,《分位数自方差:时间序列硬划分和软划分聚类的强大工具》,模糊集系统,340,38-72(2018)·兹比尔1397.62233
[104] 韦德尔,M。;华盛顿州镰仓,《市场细分:概念和方法基础》(1998年),波士顿:Kluwer学术出版社,波士顿
[105] Wu,KL;Yang,MS,Alternative c-means聚类算法,模式识别,35,10,2267-2278(2002)·Zbl 1006.68876号
[106] 谢,XL;Beni,G.,模糊聚类的有效性度量,IEEE Trans-Pattern Anal Mach-Intell,13,841-847(1991)
[107] 熊,Y。;Yeung,DY,用ARMA混合进行时间序列聚类,模式识别,37,8,1675-1689(2004)·Zbl 1117.62488号
[108] 杨,理学硕士;Wu,KL,一种基于相似性的鲁棒聚类方法,IEEE Trans-Pattern Anal Mach Intell,26,4,434-448(2004)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。