介绍
数据库异常检测是现代数据分析中最重要的问题之一,至少三十年来一直是该领域的一个挑战。这有很多原因。首先,由于系统的错误操作,例如由于错误的预测,数据中的意外异常可能导致损失。这种类型的错误数据通常是人为错误或日志系统中错误记录的结果。它们也可能是设备故障、异常传感器行为等的记录。未经授权人员的预期行为导致的数据具有稍微不同的特征。例如,欺诈异常直接导致资源损失。此外,人类活动中的异常现象(拥挤的地方、遗留的行李等)可能导致严重的安全缺陷。最后,优化数据,清除离群值和异常,可以得到更可靠的经济、天气和其他类型的预测。
关于这个主题的文献相当丰富。开发的主要领域与通用计算机科学工具直接相关。主要模型基于距离(-最近邻)[1]、[2]、[3]或密度。其他一些是支持向量机[4]、[5]、隐马尔可夫模型[6]、高斯过程[7]或深度神经网络,其中可能应用了自动编码器、长短期记忆、自组织映射或卷积神经网络[8]、[9]、[10]、[11]。DBSCAN算法[12]、[13]、[14]也是一种重要的方法。最后,有许多模糊集技术[15]、[16]、[17]、[18]、[19],包括fuzzy-均值[20]、[21]、[22]、语言原型[23]、模糊规则[24]或粒度模型[25]。在[26]、[27]、[28]、[29]中可以找到异常检测应用程序和算法的深入全面调查。
隔离林[30]、[31]是实践中经常使用的异常检测方法之一。从概念上讲,它属于第一组技术,即基于距离和密度的方法。它基于一个非常简单、直观的推理,利用树、树之林和二进制搜索树。所有这些技术在计算机科学中都广为人知。更准确地说,在学习阶段,该方法基于从数据集中随机选择的记录构建一组二叉树。接下来,跟踪每个数据集记录的树林,异常得分取决于它遇到的节点数。这里值得一提的是,隔离森林尽管简单、快速、直观,但自开发以来,并没有像许多其他技术一样进行太多修改。例外情况是方法[32]、[33]和其他一些方法(详见下一节)。
本研究的主要目的是分析使用模糊分组方法的可能性-表示[34]在构建搜索树的阶段。我们唯一感兴趣的是,我们是否能够使用基于此技术可以获得的信息更好地构建搜索树(包括二进制搜索)。特别是,我们利用了关于给定记录与位于给定树节点附近的一组类似记录的隶属度的信息。属于此类组的记录数也可能很重要。此外,在构建搜索树的阶段,评估是否可以使用任何优化给定树级节点数的方法,这可能很有趣。模糊的-Means在此提供了一个非常有效的解决方案,得益于此,我们可以获得有关分析数据质量的信息。我们有兴趣对各种难以用图形解释的数据进行研究。最后,我们的目标是演示所提出的方法对来自真实物流数据集(例如来自现代多式联运数据集的数据)的应用。这些数据的异常情况可能会导致组织在物理安全和经济领域出现一些最危险的错误。值得注意的是,我们的工作的独创性在于,我们认为,在构建搜索树的阶段,使用模糊C均值聚类算法找到了获取搜索树节点的有效方法。
本研究报告的实验结果清楚地表明,Fuzzy-方法可以作为隔离林方法的一部分轻松实现。在实验部分,我们比较了几种具有类似结构的方法,即从隔离林方法衍生出来的方法。使用来自实际数据的样本,我们得出了关于所建议方法的质量及其潜在应用可能性的结论。
本文的结构如下。在下一节中,我们将回顾隔离林方法构造及其拟议增强的详细信息。第3节介绍了数值实验的结果,而第4节介绍了结论和未来的工作方向。