×

发现异常周期时间序列。 (英语) Zbl 1470.68162号

摘要:周期变化恒星目录包含大量周期光曲线(天体物理学领域的光度时间序列数据)。将异常天体从已知类别中分离出来是发现新类别天体的重要一步。大多数时间序列数据的异常检测方法假设单个连续时间序列或一组周期对齐的时间序列。光曲线数据排除了这些方法的使用,因为任何给定光曲线对的周期可能不同步。如果在进行相似性计算之前,需要对两条光曲线进行昂贵的对齐操作,这种操作对海量数据集的扩展性较差,则可以使用现有的异常检测方法。本文提出了PCAD,这是一种用于大组非同步周期时间序列数据的无监督异常检测方法,它输出全局和局部异常的排序列表。它计算每个光曲线相对于由改进的k均值聚类算法生成的一组质心的异常得分。我们的方法能够通过使用采样扩展到大型数据集。我们在光曲线数据和其他时间序列数据集上验证了我们的方法。我们证明了它在发现已知异常方面的有效性,并讨论了样本大小和质心数量对结果的影响。我们将我们的方法与非相位数据的原始解和现有时间序列异常检测方法进行了比较,并表明PCAD报告的异常与所有其他方法相当或更好。最后,我们团队中的天体物理学家已经证实,PCAD发现了可能预示着新的天体物理现象的真实异常。

理学硕士:

68T05型 人工智能中的学习和自适应系统
62M10个 统计学中的时间序列、自相关、回归等(GARCH)
85A35型 统计天文学
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Aggarwal,C.C.和Yu,P.S.(2001年)。高维数据的异常检测。《ACM SIGMOD国际数据管理会议记录》(第37-46页)。
[2] Angiulli,F.,&Pizzuti,C.(2002)高维空间中的快速异常值检测。PKDD'02:第六届欧洲数据挖掘和知识发现原则会议记录(第15-26页)·Zbl 1020.68527号
[3] Bar-Joseph,Z.、Gerber,G.、Gifford,D.K.、Jaakkola,T.和Simon,I.(2002年)。一种分析基因表达时间序列数据的新方法。在RECOMB中(第39–48页)。
[4] Barnett,V.和Lewis,T.(1994年)。统计数据中的异常值。纽约:Wiley·Zbl 0801.62001
[5] Bay,S.D.和Schwabacher,M.(2003)。利用随机性和简单的剪枝规则在近线性时间内挖掘基于距离的离群值。第九届知识发现和数据挖掘国际会议论文集(第29-38页)。
[6] Bottou,L.和Bengio,Y.(1995年)。k-均值算法的收敛性。《神经信息处理系统进展》(第585-592页)。
[7] Breunig,M.M.、Kriegel,H.、Ng,R.T.和Sander,J.(2000)。LOF:识别基于密度的局部异常值。《ACM SIGMOD国际数据管理会议记录》(第93-104页)。
[8] Chan,P.K.和Mahoney,M.(2005年)。建模多个时间序列以进行异常检测。在IEEE数据挖掘国际会议上(第90-97页)。
[9] Chudova,D.、Gaffney,S.、Mjolsness,E.和Smyth,P.(2003)。曲线聚类的平移-变混合模型。第九届ACM SIGKDD国际知识发现和数据挖掘会议论文集(第79-88页)。
[10] Dasgupta,D.和Forrest,S.(1996年)。利用免疫学的思想对时间序列数据进行新颖性检测。《智能系统国际会议论文集》(第82-87页)。
[11] Dempster,A.P.、Laird,N.M.和Rubin,D.B.(1977年)。通过EM算法从不完整数据中获得最大似然。《皇家统计学会杂志》,39,1-38·Zbl 0364.62022号
[12] Gaffney,S.和Smyth,P.(2004)。联合概率曲线聚类和对齐。《神经信息处理系统进展》(第17卷,第473-480页)。剑桥:麻省理工学院出版社。
[13] 霍金斯(1980)。异常值的识别。伦敦:查普曼和霍尔·Zbl 0438.62022号
[14] Hewish,A.、Bell,J.、Pilkington,P.和Scott,R.(1968年)。对快速脉动放射源的观测。《自然》,217709–710·doi:10.1038/217709a0
[15] Jagadish,H.V.、Koudas,N.和Muthukrishnan,S.(1999)。挖掘时间序列数据库中的偏差。第25届超大数据库国际会议论文集(第102-113页)。
[16] Jin,W.,Tung,A.K.H.,&Han,J.(2001)。挖掘大型数据库中的前n个局部异常值。第七届ACM SIGKDD知识发现和数据挖掘国际会议论文集(第293–298页)。
[17] Keogh,E.和Folias,T.(2002年)。UCR时间序列数据挖掘存档。网址:http://www.cs.ucr.edu/\(\sim\)eamonn/TSDMA/index.html。
[18] Keogh,E.、Lonardi,S.和Chiu,B.Y.(2002)。在线性时间和空间的时间序列数据库中发现令人惊讶的模式。第八届ACM SIGKDD知识发现和数据挖掘国际会议论文集(第550-556页)。
[19] Keogh,E.、Lin,J.和Fu,A.(2005年)。HOT SAX:高效查找最不寻常的时间序列子序列。第五届IEEE数据挖掘国际会议论文集(第226-233页)。
[20] Klebesadel,R.W.、Strong,I.B.和Olson,R.A.(1973年)。宇宙起源γ射线爆发的观测。《天体物理学期刊快报》,182,L85+。 ·doi:10.1086/181225
[21] Knorr,E.M.和Ng,R.T.(1998年)。挖掘基于距离的离群值的算法。第24届超大数据库国际会议论文集(第392-403页)。
[22] Kollios,G.、Gunopulos,D.、Koudas,N.和Berchtold,S.(2003年)。有效的有偏采样用于大数据集中的近似聚类和离群值检测。IEEE知识与数据工程汇刊,15(5),1170–1187·doi:10.1109/TKDE.2003.1232271
[23] Lazarevic,A.和Kumar,V.(2005年)。用于孤立点检测的功能打包。第十一届ACM SIGKDD知识发现和数据挖掘国际会议论文集(第157-166页)。
[24] Lin,J.、Keogh,E.、Lonardi,S.和Chiu,B.(2003)。时间序列的符号表示,包含流算法的含义。在第八届ACM SIGMOD研讨会的会议记录中,讨论了数据挖掘和知识发现的研究问题。
[25] Listgarten,J.、Neal,R.M.、Roweis,S.T.、Puckrin,R.和Cutler,S.(2006)。具有共享结构的时间序列集合中罕见差异的贝叶斯检测。神经信息处理系统进展19。
[26] Ma,J.和Perkins,S.(2003年)。时间序列的在线新颖性检测。第九届ACM SIGKDD知识发现和数据挖掘国际会议论文集(第613-618页)。
[27] Mahoney,M.和Chan,P.K.(2005年)。用于异常检测的时间序列轨迹边界建模。计算机科学部技术报告CS-2005-08。
[28] Mallat,S.(1998年)。信号处理的小波巡视。圣地亚哥:学术出版社·Zbl 0937.94001号
[29] Pelleg,D.和Moore,A.(2000年)。X-means:扩展K-means,有效估计簇数。第17届机器学习国际会议论文集(第727-734页)。
[30] Petit,M.(1987)。可变星。纽约:Wiley。
[31] Pollacco,D.L.和Bell,S.A.(1993年)。UU射手座上的新灯。皇家天文学会月刊,262377-391。
[32] Protopapas,P.、Giammarco,J.M.、Faccioli,L.、Struble,M.F.、Dave,R.和Alcock,C.(2006)。在周期变化恒星目录中发现异常光曲线。英国皇家天文学会月报,369,677–696·文件编号:10.1111/j.1365-2966.2006.10327.x
[33] Ramaswamy,S.、Rastogi,R.和Shim,K.(2000年)。从大数据集中挖掘离群值的高效算法。SIGMOD'00:2000年ACM SIGMOD国际数据管理会议记录(第427-438页)。
[34] Ren,D.、Wang,B.和Perrizo,W.(2004)。RDF:使用垂直数据表示的基于密度的异常值检测方法。第四届IEEE数据挖掘国际会议论文集(第503-506页)。
[35] Richter,G.、Wenzel,W.和Hoffmeister,C.(1985)。可变星。柏林:斯普林格。
[36] Salvador,S.、Chan,P.和Brodie,J.(2004)。学习时间序列异常检测的状态和规则。第十七届佛罗里达人工智能国际研究学会会议记录。
[37] Samus',N.N.,Goranskii,V.P.,Durlevich,O.V.,Zharova,A.V.,Kazarovets,E.V.,Kireeva,N.N.,Pastukhova,E.N.,Williams,D.B.,&Hazen,M.L.(2003)。具有改进坐标的变星总目录第二卷的电子版。《天文学快报》,29(7),468–479·数字对象标识代码:10.1134/11589864
[38] Schmidt,M.(1963年)。3c 273:具有大红移的星形物体。《自然》,1971040·数字对象标识代码:10.1038/1971040a0
[39] Shahabi,C.、Tian,X.和Zhao,W.(2000)。TSA树:一种基于小波的方法,用于提高对时间序列数据进行多级惊喜和趋势查询的效率。统计和科学数据库管理(第55-68页)。
[40] Sterken,C.和Jaschek,C.(1996年)。变星的光线曲线:一张图片图集。剑桥:剑桥大学出版社。
[41] Udalski,A.、Szymanski,M.、Kubiak,M.,Pietrzynski,G.、Wozniak,P.和Zebrun,Z.(1997)。光学引力透镜实验。macho-smc-1微透镜候选的光度测定。《天文学学报》,47(431)。
[42] Wei,L.、Kumar,N.、Lolla,V.、Keogh,E.、Lonardi,S.和Ratanamahatana,C.(2005)。时间序列中的无假设异常检测。在SSDBM’2005:第17届科学和统计数据库管理国际会议论文集(第237-240页)。
[43] Wei,L.,Keogh,E.,&Xi,X.(2006)。SA明确的图像:发现不寻常的形状。第六届IEEE数据挖掘国际会议论文集(第711-720页)。
[44] Wu,M.和Jermaine,C.(2006)。通过采样进行异常值检测,并保证准确性。第十二届ACM SIGKDD知识发现和数据挖掘国际会议论文集(第767–772页)。
[45] Yang,J.,Wang,W.,&Yu,P.S.(2001)。Infominer:挖掘惊人的周期模式。第七届ACM SIGKDD知识发现和数据挖掘国际会议论文集(第395-400页)。
[46] Yang,J.,Wang,W.,&Yu,P.S.(2004)。挖掘惊人的周期模式。数据挖掘和知识发现,9189–216·doi:10.1023/B:DAMI.0000031631.84034.af
[47] Yu,D.、Sheikholeslami,G.和Zhang,A.(2004)。查找:在非常大的数据集中查找异常值。知识和信息系统,4(4),387–412·doi:10.1007/s101150200013
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。