×

CASOS:高维天文数据库中异常检测的子空间方法。 (英语) 兹比尔07260352

总结:我们开发了一种新的异常检测算法。我们的方法是为了适应在交叉匹配天文测量数据中检测异常源这一具有挑战性的任务而开发的。我们的算法计算数据的低维子空间中的异常分数。在本文中,子空间是指原始数据变量的子集。与现有方法相比,我们的技术有几个优点:它可以直接处理缺少值的数据;它解决了高维数据空间带来的一些问题;它不太容易受到无关特征的掩蔽效应的影响;它可以很容易地适应特定的需求,并且可以更容易地解释为什么给定对象具有较高的组合异常得分。我们的方法的一个缺点是,它无法检测只有在高维空间中才明显存在的离群值。异常得分是使用最近邻(NN)技术计算的,但该算法可与计算数值异常得分的任何其他方法一起使用。我们演示了算法的特性,并在模拟和实际数据集上评估了其性能。我们表明,在某些情况下,它能够超越最先进的全方位方法。

MSC公司:

62至XX 统计
68倍 计算机科学

软件:

开放式基金
PDF格式BibTeX公司 XML格式引用
全文: DOI程序

参考文献:

[1] V.Barnett和T.Lewis,《统计数据中的异常值》(第三版),奇切斯特,John Wiley&Sons出版社,1994年·Zbl 0801.62001
[2] D.霍金斯,《离群人的识别》,伦敦,查普曼和霍尔出版社,1980年·Zbl 0438.62022号
[3] C.Aggarwal、A.Hinneburg和D.Keim,《关于高维空间中距离度量的惊人行为》,《数据库理论ICDT 2001》,计算机科学讲义1973卷,柏林/海德堡,施普林格,2001年,420-434·Zbl 1047.68038号
[4] K.Beyer、J.Goldstein、R.Ramakrishnan和U.Shaft,“最近的邻居”什么时候有意义?《数据库理论-ICDT’99》,C.Beeri和P.Buneman主编,计算机科学讲义第1540卷,柏林/海德堡,施普林格,1999年,217-235。
[5] M.Henrion、D.J.Mortlock、D.J.Hand和A.Gandy,天文测量数据的分类和异常检测,《新天文学的天体统计挑战》,
[6] M.M.Breunig、H.-P.Kriegel、R.T.Ng和J.Sander,《LOF:识别基于密度的局部异常值》,《2000年ACM SIGMOD国际数据管理会议论文集》,第29(2)卷,2000年,第93-104页。
[7] E.M.Knorr、R.T.Ng和V.Tucakov,《基于距离的离群值:算法和应用》,《VLDB期刊》,8(2000),237-253。
[8] J.Tang、Z.Chen、A.Wai-chee Fu和D.Cheung,大数据集的稳健离群点检测方案,第六届亚太知识发现和数据挖掘大会,2001年,6-8。
[9] L.Latecki、A.Lazarevic和D.Pokrajac,核密度函数的离群检测,模式识别中的机器学习和数据挖掘,P.Perner主编,《计算机科学讲义》第4571卷,柏林/海德堡,施普林格,2007年,61-75。
[10] S.Papadimitriou、H.Kitagawa、P.B.Gibbons和C.Faloutsos,《LOCI:使用局部相关积分快速检测离群值》,《IEEE第19届国际数据工程会议论文集》(ICDE'03),IEEE计算机学会,2003年。
[11] H.-P.Kriegel、M.Schubert和A.Zimek,高维数据中基于角度的异常值检测,《第14届ACM SIGKDD知识发现和数据挖掘国际会议论文集》(KDD'08),2008年。
[12] I.Jolliffe,《主成分分析》(第二版),《斯普林格统计系列》,纽约,斯普林格出版社,2002年·Zbl 1011.62064号
[13] T.Seidl、E.M¨uller、I.Assent和U.Steinhausen,基于子空间聚类的离群点检测和排序,《信息系统中的不确定性管理》,C.Koch、B.K¨onig-Ries、V.Markl和M.van Keulen编辑,德国达格斯图尔研讨会论文集第08421号,Schloss Dagstuhl-Leibniz-Zentrum fuer Informatik,2009年。
[14] A.Lazarevic和V.Kumar,用于异常值检测的特征装袋,在KDD’05:第十一届ACM SIGKDD数据挖掘知识发现国际会议论文集,纽约,纽约,ACM,2005157-166。
[15] H.-P.Kriegel、P.Kr¨oger、E.Schubert和A.Zimek,《高维数据的轴平行子空间中的离群点检测》,《知识发现和数据挖掘进展》,T.Theeramunkong、B.Kijsirikul、N.Cercone和T.-B.Ho编辑,《计算机科学讲义》第5476卷,柏林/海德堡,施普林格,2009年,第831-838页。
[16] C.C.Aggarwal和P.S.Yu,高维离群值检测的有效算法,VLDB期刊,14(2)(2005),211-221。
[17] D.G.约克、J.阿德尔曼、J.E.安德森、S.F.安德森、J.Annis、N.A.Bahcall、J.A.Bakken、R.Barkhouse、S.Bastian、E.Berman、W.N.Boroski、S.Bracker、C.Briegel、J.W.Briggs、J.Brinkman、R.Brunner、S.Burles、L.Carey、M.A.Carr、F.J.Castander、B.Chen、P.L.Colestock、A.J.Connolly、J.H.Crocker、I.Csabai、P.C.Czarapata。E.Davis、M.Doi、T.Dombeck、D.Eisenstein、N.Ellman、B.R.Elms、M.L.Evans、X.Fan、G.R.Federwitz、L.Fischeli、S.Friedman、J.A.Frieman、M.Fukugita、B.Gillespie、J.E.Gunn、V.K.Gurbani、E.D.Haas、M.Haldeman、F.H.Harris、J.Hayes、T.M.Heckman、G.S.Hennessy、R.B.Hindsley、S.Holm、D.J.Holmgren、C.Hung、C.Hull、D。Husby,S.一川,T.一川。Ivezi´c、S.Kent、R.S.J.Kim、E.Kinney、M.Klaene、A.N.Kleinman、S.Kleinsman、G.R.Knapp、J.Korienek、R.G.Kron、P.Z.Kunszt、D.Q.Lamb、B.Lee、R.F.Leger、,
[18] A.Lawrence、S.J.Warren、O.Almaini、A.C.Edge、N.C.Hambly、R.F.Jameson、P.Lucas、M.Casali、A.Adamson、S.Dye、J.P.Emerson、S.Foucaud、P.Hewett、P.Hirst、S.T.Hodgkin、M.J.Irwin、N.Lodieu、R.G.McMahon、C.Simpson、I.Smail、D.Mortlock和M.Folger,《UKIRT红外深空探测》(UKIDSS),《皇家天文学会月刊》,379(2007),1599-1617。
[19] R.Scranton、D.Johnston、S.Dodelson、J.A.Frieman、A.Connolly、D.J.Eisenstein、J.Gunn、L.Hui、B.Jain、S.Kent、J.Loveday、V.Narayanan、R.C.Nichol、L.O'Connell、R.Scoccimarro、R.K.Sheth、A.Stebbins、M.A.Strauss、A.Szalay、I.Szapudi、M.Tegmark、M.Vogeley、I.Zehavi、J.Annis、N.A.Bahcall、J.Brinkman、I.Csabai、R。Hindsley、Z.Ivezic、R.S.J.Kim、G.R.Knapp、D.Q.Lamb、B.Lee、R.H.Lupton、T.McKay、J.Munn、J.Peoples、J.Pier、G.T.Richards、C.Rockosi、D.Schlegel、D.P.Schneider、C.Stoughton、D.L.Tucker、B.Yanny和D.G.York,从早期斯隆数字巡天数据分析星系角簇的系统效应和统计不确定性,《天体物理杂志》,579(1)(2002),48-75。
[20] M.Henrion、D.J.Mortlock、D.J.Hand和A.Gandy,《星体-星系分类的贝叶斯方法》,《皇家天文学会月刊》,412(2011),2286-2302。
[21] N.C.Hambly、R.S.Collins、N.J.G.Cross、R.G.Mann、M.A.Read、E.T.W.Sutorius、I.Bond、J.Bryant、J.P.Emerson、A.Lawrence、L.Rimoldini、J.M.Stewart、P.M.Williams、A.Adamson、P.Hirst、S.Dye和S.J.Warren,WFCAM科学档案,《皇家天文学会月报》,384(2008),637-662。
[22] D。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。