爱思维尔

信息科学

第584卷,2022年1月,第433-449页
信息科学

隔离林的概率推广

https://doi.org/10.1016/j.ins.2021.10.075获取权限和内容
在知识共享下许可证
开放存取

摘要

在数据集中发现异常和离群值的问题是现代数据分析最重要的挑战之一。在解决此任务的常用专用工具中,可以找到隔离林(IF),这是一种高效、概念简单且快速的方法。在本研究中,我们提出了隔离林概率泛化(PGIF),这是对原始方法的一种直观而有效的增强。所提出的泛化是基于分段累积概率与分段长度的非线性相关性。引入泛化可以实现更有效的集群间分割,即数据点构成密集地层而不是通过密集地层的区域。在一系列综合实验中,我们表明,该方法使我们能够更有效地检测隐藏在簇之间的异常。此外,我们的方法对人工数据集和实际数据集的异常检测质量都有良好的影响。在时间复杂度方面,我们的方法接近于原始方法,因为泛化只与树的构建有关,而评分过程(占用主要时间)保持不变。

关键词

异常检测
隔离林
隔离林的概率推广
最佳分割
时空数据集

被(0)引用