×

一种改进的基于自适应特征加权聚类的半监督离群点检测算法。 (英语) Zbl 1400.62130号

摘要:已经存在各种离群值检测方法,其中半监督方法由于引入了先验知识而取得了令人鼓舞的优势。本文提出了一种基于自适应特征加权聚类的半监督离群点检测策略。该方法最大化标记法线对象对其所属簇的隶属度,并最小化标记异常值对所有簇的隶属程度。考虑到数据集中的特征或组件在确定一个对象是内嵌或离群对象时的不同重要性,每个特征根据所有对象的该特征与某个聚类原型的该特征之间的偏差程度自适应地分配不同的权重。在一个合成数据集和几个真实数据集上进行了一系列实验,以验证该方案的有效性和效率。

MSC公司:

62小时30分 分类和区分;聚类分析(统计方面)
62英尺35英寸 鲁棒性和自适应程序(参数推断)
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Han,J。;M.Kamber。;Pei,J.,《数据挖掘:概念和技术》,(2011年),Elsevier
[2] 霍金斯,D.M.,《异常值识别》(1980),英国伦敦:查普曼和霍尔出版社,英国伦敦·Zbl 0438.62022号
[3] 巴姆内特,V。;Lewis,T.,《统计数据中的异常值》(1994),英国奇切斯特:英国奇切斯特约翰·威利父子公司·Zbl 0801.62001
[4] 霍奇,V.J。;Austin,J.,《异常值检测方法的调查》,《人工智能评论》,22,2,85-126,(2004)·Zbl 1101.68023号 ·doi:10.1007/s10462-004-4304-y
[5] Sheng,B。;李强。;毛,W。;Jin,W.,传感器网络中的异常检测,第八届ACM移动自组网和计算国际研讨会论文集(MobiHoc’07)
[6] A.P.詹姆斯。;Dimitrijev,S.,图像间异常值及其在图像分类中的应用,模式识别,43,1214101-4112,(2010)·Zbl 1207.68286号 ·doi:10.1016/j.patcog.2010.07.005
[7] 黄,J。;朱,Q。;Yang,L。;Feng,J.,基于自然邻域的非参数异常值检测算法,基于知识的系统,92,71-77,(2016)·doi:10.1016/j.knosys.2015.10.104
[8] 谢泼德,J.M。;Burian,S.J.,《主要沿海城市中城市诱发降雨异常的检测》,地球相互作用,7,4,1-17,(2003)·doi:10.1175/1087-3562(2003)007<0001:douira>2.0.co;2
[9] O·艾伦。;Catal,C.,挖掘类离群值的基于阈值的离群值检测方法:软件度量数据集的实证案例研究,应用专家系统,38,4,3440-3445,(2011)·doi:10.1016/j.eswa.2010.08.130
[10] Schölkopf,B。;普拉特,J.C。;肖-泰勒,J。;Smola,A.J。;Williamson,R.C.,估计高维分布的支持,神经计算,13,7,1443-1471,(2001)·Zbl 1009.62029号 ·doi:10.1162/089976601750264965
[11] 税务,D。;Ypma,A。;Duin,R.,《支持向量数据描述在机器振动分析中的应用》,《计算与成像高级学院第五届年会论文集》
[12] 税务,D.M.J。;Duin,R.P.W.,支持向量数据描述,机器学习,54,1,45-66,(2004)·Zbl 1078.68728号 ·doi:10.1023/b:mach.0000008084.60811.49
[13] 拉马斯瓦米,S。;Rastogi,R。;Shim,K.,从大型数据集挖掘离群值的高效算法,SIGMOD记录(ACM数据管理特别兴趣小组),29,2,427-438,(2000)
[14] 诺克斯,E.M。;Ng,R.T.,挖掘大型数据集中基于距离的离群值的算法,《超大数据库国际会议论文集》,Citeser
[15] Breunig,M.M。;Kriegel,H.-P。;Ng,R.T。;Sander,J.,LOF:识别基于密度的局部异常值,ACM SIGMOD记录,29,2,93-104,(2000)·doi:10.1145/335191.335388
[16] 哈·J。;Seok,S。;Lee,J.-S.,《异常值检测的精确排序方法》,信息科学,324,88-107,(2015)·Zbl 1390.62111号 ·doi:10.1016/j.ins.2015.06.030
[17] Dave,R.N.,《聚类中噪声的表征和检测》,《模式识别快报》,12,11,657-664,(1991)·doi:10.1016/0167-8655(91)90002-4
[18] 史密斯,R。;Bivens,A。;Embrachts,M。;帕拉吉里,C。;Szymanski,B.,基于异常的入侵检测聚类方法,《通过人工神经网络的智能工程系统学报》,579-584,(2002)
[19] Shi,Y。;Zhang,L.,COID:多维数据分析的聚类-输出迭代检测方法,知识与信息系统,28,3,709-733,(2011)·doi:10.1007/s10115-010-0323-y
[20] 赵,J。;刘凯。;Wang,W。;刘毅,基于自适应模糊聚类的钢铁行业能源系统异常数据检测,信息科学,259335-345,(2014)·doi:10.1016/j.ins.2013.05.018
[21] Angiulli,F。;Pizzuti,C.,《高维空间中的快速离群点检测》,第六届欧洲数据挖掘和知识发现原理会议论文集(PKDD'02)·Zbl 1020.68527号
[22] 拉多万诺维奇,M。;Nanopoulos,A。;Ivanović,M.,无监督距离离群值检测中的反向最近邻,IEEE知识与数据工程学报,27,5,1369-1382,(2015)·doi:10.1109/TKDE.2014.2365790
[23] Daneshpahouh,A。;Sami,A.,《使用半监督方法进行基于熵的离群值检测,很少有正面示例》,《模式识别快报》,49,77-84,(2014)·doi:10.1016/j.patrec.2014.06.012
[24] 高杰。;Cheng,H。;Tan,P.-N.,《半监督离群值检测》,美国计算机学会应用计算研讨会论文集
[25] 薛,Z。;Shang,Y。;Feng,A.,基于模糊粗糙C均值聚类的半监督离群值检测,《模拟中的数学与计算机》,80,9,1911-1921,(2010)·Zbl 1191.62115号 ·doi:10.1016/j.matcom.2010.02.007
[26] 黄J.Z。;Ng,M.K。;荣,H。;Li,Z.,k均值聚类中的自动变量加权,IEEE模式分析和机器智能汇刊,27,5,657-668,(2005)·doi:10.10109/TPAMI.2005.95
[27] 弗里吉安德,H。;Nasraou,O.,原型和属性权重的无监督学习,模式识别,37,3,567-581,(2004)·doi:10.1016/j.patcog.2003.08.002
[28] 周,J。;Chen,L。;Chen,C.P。;Zhang,Y。;Li,H.,基于属性权重熵的模糊聚类,神经计算,198125-134,(2016)·doi:10.1016/j.neucom.2015.09.127
[29] 哈桑,M。;乔杜里,A。;A.Khan。;Iftikhar,M.A.,基于鲁棒信息增益的颈动脉超声图像模糊c均值聚类和分类,生物医学中的计算机方法和程序,113,2,593-609,(2014)·doi:10.1016/j.cmpb.2013.10.12
[30] Krishnapuram,R。;Keller,J.M.,聚类的可能性方法,IEEE模糊系统汇刊,1,2,98-110,(1993)·数字对象标识代码:10.1109/91.227387
[31] 杨,硕士。;Wu,K.-L.,无监督可能性聚类,模式识别,39,1,5-21,(2006)·doi:10.1016/j.patcog.2005.07.005
[32] 郭S.M。;陈,L.C。;Tsai,J.S.H.,基于支持向量域描述的离群值检测边界方法,模式识别,42,1,77-83,(2009)·Zbl 1159.68528号 ·doi:10.1016/j.patcog.2008.07.003
[33] Fawcett,T.,《Roc图:研究人员的注意事项和实际考虑》,机器学习,31,1,1-38,(2004)
[34] 布莱克,C。;Merz,C.J.,UCI机器学习数据库存储库
[35] 阿加瓦尔,C.C。;Yu,P.S.,高维数据的离群检测,ACM SIGMOD国际数据管理会议论文集(SIGMOD'01)·数字对象标识代码:10.1145/375663.375668
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。