基于密度的全特征空间高维数据异常检测新技术

作者

  • 穆吉布·乌尔·雷赫曼 巴基斯坦拉希姆·亚尔汗Khwaja Fareed工程和信息技术大学计算机科学系
  • 多斯特·穆罕默德·汗 巴基斯坦巴哈瓦尔布尔伊斯兰大学计算机科学与信息技术系

内政部:

https://doi.org/10.5755/j01.itc.50.1.25588

关键词:

异常检测;基于局部邻域的异常检测;投影异常值;局部异常值;高维数据

摘要

近年来,随着异常检测在产品营销、欺诈检测、医疗诊断、故障检测等多个实际领域的声誉稳步增长,异常检测得到了数据挖掘科学家的现实回应。受到离群点检测的高维数据给数据挖掘专家带来了特殊的挑战,这是因为存在维度灾难以及距离点和相邻点的相似性的自然问题。传统的算法和技术在全特征空间上进行了异常点检测实验。传统的方法主要集中在低维数据上,因此在发现由大量维度组成的数据集中的异常时显示出无效性。当需要探索所有投影子集时,挖掘高维数据集中存在的异常变得非常困难和令人厌烦。高维数据中的所有数据点表现得与类似的观测值相似,因为其内在特征是,随着维数向无穷大扩展,观测值之间的距离接近零。这项研究工作提出了一种新的技术,探索所有数据点之间的偏差,并将其结果嵌入成熟的基于密度的技术中。这是一项最先进的技术,因为它为解决高维数据的固有问题提供了新的研究范围,其中异常值位于具有不同密度的聚类中。选择UCI机器学习库中的高维数据集来测试该技术,然后将其结果与基于密度的技术进行比较,以评估其效率。

作者简介

多斯特·穆罕默德·汗,巴基斯坦巴哈瓦尔布尔伊斯兰大学计算机科学与信息技术系

巴基斯坦巴哈瓦尔布尔伊斯兰大学计算机科学与信息技术系助理教授

下载

出版

2021-03-25

问题

章节

文章