×

多元时间轨迹的稳健模糊聚类。 (英语) Zbl 1453.62540号

摘要:多元时间序列中模式的检测是一项相关的任务,尤其是对于大型数据集。本文提出了四种多元时间序列的聚类模型,具有以下特点。首先,考虑围绕Medoids的分区(PAM)框架。在多元时间序列聚类的不同方法中,采用了基于观测的方法。为了处理每个多元时间序列特征的复杂性以及相关的分配不确定性,采用了模糊聚类方法。最后,为了抵消可能的异常值的影响,使用了一种稳健的度量方法,即不同度量的指数变换。所提出的模型是多元时间序列模糊C-Medoids聚类算法的稳健扩展。关于时间行为的管理,提出了四种变体:带指数变换的横截面模糊C-Medoids聚类模型(CS-Exp-FCMd)考虑了多元时间序列各自的瞬时特征对其进行分类;带指数变换的纵向模糊C-Medoids聚类模型(L-Exp-FCMd)考虑了进化(纵向)特征;具有指数变换的混合模糊C-Medoids聚类模型(M-Exp-FCMd)同时考虑了聚类过程中的瞬时和纵向特征;基于动态时间扭曲的带指数变换的模糊C-Medoids模型(DTW-Exp-FCMd)使用动态时间扭曲(DTW)距离。三个仿真研究表明,与非稳健模型和文献中提出的其他模型相比,该模型在存在离群值时的聚类性能。对罗马大都会城19个站点三种污染物浓度的真实数据的应用表明,在确定集群时,稳健性与异常值之间存在相关性。

MSC公司:

62H30型 分类和区分;聚类分析(统计方面)
62M10个 统计学中的时间序列、自相关、回归等(GARCH)
62小时86 多元分析与模糊性
62G32型 极值统计;尾部推断
62页第12页 统计在环境和相关主题中的应用
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Aghabozorgi,S。;Shirkhorshidi,A.S。;Wah,T.Y.,《时间序列聚类——十年回顾》,《信息系统》。,53, 16-38, (2015)
[2] 巴格纳尔,A。;Janacek,G.,用截断数据聚类时间序列,马赫数。学习。,58,2-3151-178,(2005年)·Zbl 1073.68710号
[3] 巴格纳尔,A。;Lines,J.公司。;博斯特罗姆,A。;大型,J。;Keogh,E.,《伟大的时间序列分类烘焙:对最新算法进展的回顾和实验评估》,Data Min Knowl。发现。,31, 3, 606-660, (2017)
[4] 北贝根。;Ulanova,L。;Wang,J。;Keogh,E.,用新的可接受剪枝策略加速动态时间扭曲聚类,(第21届ACM SIGKDD国际知识发现和数据挖掘会议论文集,(2015),ACM),49-58
[5] 伯恩特·D·J。;Clifford,J.,《使用动态时间扭曲发现时间序列中的模式》(AAAI-94数据库知识发现研讨会论文集,西雅图,华盛顿州,(1994)),359-370
[6] Caiado,J。;Maharaj,E。;D’Urso,P.,时间序列聚类,(Hennig,C.;Meila,M.;Murtagh,F.;Rocci,R.,《聚类分析手册》,(2015),查普曼和霍尔),241-263·Zbl 1396.62196号
[7] Carlier,A.,《演化的因子分析和轨迹上的聚类方法》(Compstat’86,(1986),Springer),140-145·Zbl 0628.62066号
[8] 科皮,R。;D’Urso,P.,《多元时间轨迹比较的几何方法》,(Borra,S.;Rocci,R.;Vichi,M.;Schader,M.,《分类和数据分析进展》,(2001),Springer),93-100
[9] 科皮,R。;D’Urso,P.,三角模糊时间轨迹的模糊k均值聚类模型,统计方法应用。,11, 1, 21-40, (2002) ·Zbl 1145.62347号
[10] 科皮,R。;D’Urso,P.,LR模糊时间轨迹的三向模糊聚类模型,计算。统计数据分析。,43, 2, 149-177, (2003) ·Zbl 1429.62273号
[11] 科皮,R。;D’Urso,P.,用Shannon熵正则化对多元时间轨迹进行模糊无监督分类,计算。统计数据分析。,50, 6, 1452-1477, (2006) ·Zbl 1445.62156号
[12] 科皮,R。;D’Urso,P。;Giordani,P.,《时变数据的模糊C-中值聚类模型》(Bouchon-Meunier,B.;Coletti,G.;Yager,R.,《现代信息处理:从理论到应用》,(2006),阿姆斯特丹爱思唯尔科学出版社),195-206年
[13] 科皮,R。;D’Urso,P。;Giordani,P.,多元空间时间序列的模糊聚类模型,J.Classif。,27,1,54-88,(2010)·Zbl 1337.62305号
[14] Davé,R.N.,聚类中噪声的表征和检测,模式识别。莱特。,12, 11, 657-664, (1991)
[15] Dazy,F。;Le Barzic,J.-F。;萨波尔塔,G。;Lavallard,F.,《进化分析:方法与应用》(1996),技术版·Zbl 0867.62052号
[16] Disegna,M。;D’Urso,P。;Durante,F.,基于Copula的空间时间序列模糊聚类,空间统计。,21209-225(2017)
[17] D’Urso,P.,时间轨迹的相异性度量,统计方法应用。,9, 1-3, 53-83, (2000) ·Zbl 1454.62258号
[18] D’Urso,P.,《多元时变数据的模糊C均值聚类模型:不同方法》,《国际不确定性杂志》。模糊知识-基于系统。,12, 03, 287-326, (2004) ·Zbl 1046.62061号
[19] D’Urso,P.,具有内点和外点时间轨迹的数据时间阵列的模糊聚类,IEEE Trans。模糊系统。,13, 5, 583-604, (2005)
[20] D’Urso,P。;De Giovanni,L.,电信市场细分的时间自组织映射,神经计算,71,13,2880-2892,(2008)
[21] D’Urso,P。;De Giovanni,L。;Massari,R.,应用于空气污染的稳健自回归度量的时间序列聚类,Chemom。智力。实验室系统。,141, 107-124, (2015)
[22] D’Urso,P。;De Giovanni,L。;Massari,R.,基于Garch的时间序列稳健聚类,模糊集系统。,305, 1-28, (2016) ·Zbl 1368.62167号
[23] D’Urso,P。;De Giovanni,L。;马萨里,R。;Di Lallo,D.,通过自回归度量对时间序列进行噪声模糊聚类,Metron,71,3,217-243,(2013)·Zbl 1302.62207号
[24] D’Urso,P。;Maharaj,E.A.,基于自相关的时间序列模糊聚类,模糊集系统。,160, 24, 3565-3589, (2009)
[25] D’Urso,P。;Maharaj,E.A.,基于小波的多元时间序列聚类,模糊集系统。,193, 33-61, (2012) ·Zbl 1237.62079号
[26] D’Urso,P。;Maharaj,E.A。;阿隆索,A.M.,使用极值的时间序列模糊聚类,模糊集系统。,318, 56-79, (2017) ·Zbl 1381.62162号
[27] D’Urso,P。;马萨里,R。;卡佩利,C。;De Giovanni,L.,基于自回归度量的修剪模糊聚类及其在pm 10时间序列中的应用,Chemom。智力。实验室系统。,161, 15-26, (2017)
[28] D’Urso,P。;马萨里,R。;De Giovanni,L。;Cappelli,C.,区间值数据基于指数距离的模糊聚类,fuzzy Optim。Decis公司。制造商。,16, 1, 51-70, (2017) ·Zbl 1428.62306号
[29] D’Urso,P。;Vichi,M.,三向纵向数据集轨迹之间的差异,(Rizzi,a.;Vichi;M.;Bock,H.,《数据科学与分类进展》,(1998),Springer),585-592
[30] Everitt,B.S。;兰道,S。;Leese,M。;Stahl,D.,聚类分析,(2011),威利在线图书馆·Zbl 1274.62003年
[31] Fröhwirth Schnatter,S.(德语:Fröhwirth Schnatter,S.)。;Kaufmann,S.,基于模型的多时间序列聚类,J.Bus。经济。《法律总汇》,26,1,78-89,(2008)
[32] Frühwirth-Schnatter,S.,《面板数据分析:基于模型的时间序列聚类调查》,《高级数据分析》。分类。,5, 4, 251-280, (2011) ·Zbl 1274.62591号
[33] 加西亚·埃斯库德罗,洛杉矶。;Gordaliza,A.,稳健曲线聚类建议,J.Classif。,22, 2, 185-201, (2005) ·兹比尔1336.62179
[34] Genolini,C。;Falissard,B.,Kml:纵向数据的k平均值,计算。《统计》,25,2,317-328,(2010年)·Zbl 1221.62094号
[35] Genolini,C。;Pingault,J.-B。;Driss,T。;南卡罗来纳州科特。;Tremblay,R.E。;维塔罗,F。;阿诺,C。;Falisard,B.,Kml3D:一种用于对关节轨迹进行聚类的非参数算法,Comput。方法生物识别程序。,109, 1, 104-111, (2013)
[36] Giorgino,T.,《R中动态时间扭曲对齐的计算和可视化:dtw包》,J.Stat.Softw。,31, 7, 1-24, (2009)
[37] N.Hamilton,ggtern:“ggplot2”的扩展,用于创建三元图,2017年,R包版本2.2.1。;N.Hamilton,ggtern:“ggplot2”的扩展,用于创建三元图,2017年,R包版本2.2.1。
[38] Huber,P.J.,位置参数的稳健估计,Ann.Math。《统计》,73-101,(1964年)·Zbl 0136.39805号
[39] 休伯特,L。;Arabie,P.,比较分区,J.Classif。,2, 1, 193-218, (1985)
[40] Hüllermier,E。;里夫奇,M。;Henzgen,S。;Senge,R.,《比较模糊划分:随机指数和相关度量的推广》,IEEE Trans。模糊系统。,20, 3, 546-556, (2012)
[41] Izakian,H。;佩德里茨,W。;Jamal,I.,使用动态时间扭曲距离对时间序列数据进行模糊聚类,工程应用。Artif公司。智力。,39, 235-244, (2015)
[42] 雅克·J。;Preda,C.,基于模型的多元函数数据聚类,计算。统计数据分析。,71, 92-106, (2014) ·Zbl 1471.62096号
[43] Jeong,Y.-S。;Jeong,M.K。;Omitaomu,O.A.,时间序列分类的加权动态时间扭曲,模式识别。,44, 9, 2231-2240, (2011)
[44] Kahle,D。;Wickham,H.,Ggmap:利用ggplot2进行空间可视化,R Journal,5,1,144-161,(2013)
[45] 考夫曼,L。;Rousseeuw,P.J.,《在数据中发现群体:聚类分析导论》(2005),新泽西州威利·霍博肯
[46] 基奥,E。;Lonardi,S.公司。;Ratanamahatana,加拿大。;Wei,L。;Lee,S.-H。;Handley,J.,基于压缩的序列数据挖掘,data Min.Knowl。发现。,14, 1, 99-129, (2007)
[47] 基奥,E。;Ratanamahatana,C.A.,《动态时间扭曲的精确索引》,Knowl。信息系统。,7, 3, 358-386, (2005)
[48] Kha,新罕布什尔州。;Anh,D.T.,《从基于聚类的离群值检测到时间序列不一致发现》(Trends and Applications in Knowledge discovery and Data Mining,(2015),Springer),16-28
[49] Kiers,H.A.,《走向多元分析中的标准化符号和术语》,J.Chemom。,14, 3, 105-122, (2000)
[50] Košmelj,K.,《时变数据聚类的两步程序》,J.Math。社会学。,12315-326,(1986年)·Zbl 0661.62052号
[51] 科什梅尔吉,K。;Batagelj,V.,《时变数据聚类的跨部门方法》,J.Classif。,7, 1, 99-109, (1990)
[52] Krishnapuram,R。;乔希,A。;O.Nasraoui。;Yi,L.,用于web挖掘的低复杂性模糊关系聚类算法,IEEE Trans。模糊系统。,9, 4, 595-607, (2001)
[53] 廖天伟,时间序列数据的聚类——一项调查,模式识别。,1857-1874年11月38日,(2005年)·Zbl 1077.68803号
[54] Liao,T.W.,向量时间序列探索性挖掘的聚类方法,模式识别。,40, 9, 2550-2562, (2007) ·Zbl 1118.68632号
[55] Liao,T.W。;Ting,C.-F。;Chang,P.-C.,用于探索性挖掘特征向量和时间序列数据的自适应遗传聚类方法,《国际生产研究》,44,14,2731-2748,(2006)·Zbl 1128.62373号
[56] 林,J。;基奥,E。;Lonardi,S.,《可视化和发现大型时间序列数据库中的非平凡模式》,Inf.Vis。,4, 2, 61-82, (2005)
[57] Maharaj,E.A。;D’Urso,P.,频域时间序列的模糊聚类,信息科学。,181, 7, 1187-1211, (2011) ·Zbl 1215.62061号
[58] Maharaj,E.A。;D’Urso,P。;Galagedera,D.U.,基于小波的时间序列模糊聚类,J.Classif。,27, 2, 231-275, (2010) ·Zbl 1337.62307号
[59] 帕帕里佐斯,J。;Gravano,L.,K-shape:高效准确的时间序列聚类,(2015年ACM SIGMOD国际数据管理会议论文集,(2015),ACM),1855-1870
[60] 佩蒂让,F。;福雷斯蒂尔,G。;韦伯,G.I。;Nicholson,A.E。;陈,Y。;Keogh,E.,时间序列的动态时间扭曲平均允许更快、更准确的分类,(2014年IEEE国际数据挖掘会议(ICDM),(2014),IEEE),470-479
[61] 佩蒂让,F。;凯特林,A。;Gançarski,P.,动态时间扭曲的全局平均方法,应用于聚类,模式识别。,44, 3, 678-693, (2011) ·Zbl 1209.68477号
[62] 拉尼,S。;Sikka,G.,《时间序列数据聚类的最新技术:调查》,《国际计算杂志》。申请。,52, 15, (2012)
[63] Ratanamahatana,加拿大。;Keogh,E.,你所知道的关于动态时间扭曲的一切都是错误的,(《挖掘时序数据的第三次研讨会》,(2004年),Citeser)
[64] 佐藤,M。;Sato,Y.,《关于三向数据的多准则模糊聚类方法》,国际期刊《不确定性》。模糊知识-基于系统。,2, 02, 127-142, (1994)
[65] 佐藤·伊利奇(M.Sato-Ilic)。;Sato,Y.,动态加性模糊聚类模型,(Rizzi,A.;Vichi,M.;Bock,H.,Advances in Data Science and Classification,(1998),施普林格-柏林,海德堡),117-124
[66] Singhal,A。;Seborg,D.E.,聚类多元时间序列数据,J.Chemom。,19, 8, 427-438, (2005)
[67] Velichko,V。;Zagoruyko,N.,《200个单词的自动识别》,国际期刊Man-Mach。双头螺栓,2,3223-234,(1970)
[68] 维拉尔,J.A。;拉富恩特·雷戈,B。;D’Urso,P.,《分位数自协方差:时间序列硬分区和软分区聚类的强大工具》,模糊集系统。,340, 1, 38-72, (2018) ·Zbl 1397.62233号
[69] 弗拉科斯,M。;科利奥斯,G。;Gunopulos,D.,《发现相似的多维轨迹》(数据工程,2002年)。诉讼程序。第18届国际会议,(2002年),IEEE,673-684
[70] 王,X。;Wirth,A。;Wang,L.,《基于结构的统计特征和多元时间序列聚类》(Data Mining,2007)。ICDM 2007。第七届IEEE国际会议,(2007年),IEEE,351-360
[71] Wu,K.-L。;Yang,M.-S.,Alternative c-means聚类算法,模式识别。,35, 10, 2267-2278, (2002) ·Zbl 1006.68876号
[72] 谢晓乐。;Beni,G.,模糊聚类的有效性度量,IEEE Trans。模式分析。机器。智力。,13, 8, 841-847, (1991)
[73] 熊,Y。;Yeung,D.-Y.,ARMA混合时间序列聚类,模式识别。,37, 8, 1675-1689, (2004) ·Zbl 1117.62488号
[74] Zani,S.,Osservazioni sulle serie storiche multiple e l’analisi dei gruppi,(Piccolo,D.,analisi moderna delle serie storeche,(1983),F.Angeli),263-274
[75] 张德清。;Chen,S.-C.,“替代C-均值聚类算法”评论,模式识别。,37,2173-174,(2004年)·Zbl 1058.68633号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。