主页

论文

提交的资料

新闻

编辑委员会

特殊问题

开源软件

程序(PMLR)

数据(DMLR)

交易(TMLR)

搜索

统计

登录

常见问题

联系我们



RSS源

现实世界数据的无监督异常检测算法:我们需要多少?

罗尔·鲍曼(Roel Bouman)、扎哈拉·布赫什(Zaharah Bukhsh)、汤姆·赫斯克斯(Tom Heskes); 25(105):1−34, 2024.

摘要

在本研究中,我们对52个现实世界多元表格数据集上的33种无监督异常检测算法进行了评估,对迄今为止最大的无监督异常探测算法进行了比较。在这组数据集上,EIF(扩展隔离林)算法明显优于大多数其他算法。通过对所有数据集上所考虑算法的相对性能进行可视化并进行聚类,我们确定了两个清晰的聚类:一个具有“本地”数据集,另一个具有”全局“数据集。与附近的样本相比,“局部”异常占据了低密度区域,而“全局”异常占据了特征空间中的整体低密度区域。在本地数据集上,$k$NN($k$-最近邻)算法最为突出。在全局数据集上,EIF(扩展隔离林)算法表现最佳。此外,考虑到算法的计算复杂性,一个包含这两种无监督异常检测算法的工具箱足以在这个具有代表性的多元数据集集合中发现异常。通过提供对代码和数据集的访问,我们的研究可以很容易地用更多的算法和/或数据集进行复制和扩展。

[腹肌][pdf格式][围兜]      [代码]
©JMLR公司2024(编辑,贝塔)

乳臭虫