爱思维尔

应用软计算

第106卷,2021年7月, 107354
应用软计算

基于模糊C均值的隔离林

https://doi.org/10.1016/j.asoc.2021.107354获取权限和内容

摘要

在数据库中发现异常(离群值)是现代数据分析中最重要的问题之一。原因之一是几乎每种类型的数据库都会出现此问题,包括数字、类别、时间、混合或图形数据。目前有许多方法通常用于特定数据分析。最后,作为一个引起研究人员兴趣的研究问题,这个主题本身非常有趣。经典方法之一数据分析隔离森林致力于发现数据中的异常。然而,除少数例外情况外,自首次出版以来,该方法尚未修改,尤其是尚未与用于分组的典型模糊方法(如模糊C均值(FCM)聚类)结合出现。在本研究中,我们深入分析了这种方法以及几个相关的方法。我们研究了这种技术的可能性,并详细分析了它的数据特征(数据库大小、属性数量、记录、类型等)。值得注意的是,FCM允许获得会员等级将构成隔离林节点的元素添加到集群中,并在此基础上构建这些节点。因此,在计算异常得分的阶段,可以有效地使用此信息,尤其是表示给定元素可能属于一组类似元素的程度,这可以从其所在簇的特征中推断出来。在本研究中,我们提出了一套基于模糊C均值的隔离林增强方法。本文报告的使用27个不同数据集进行的数值实验结果表明,FCM可以发挥关键作用在加强隔离林方法的同时,提高了有效性度量异常检测方法。

介绍

数据库异常检测是现代数据分析中最重要的问题之一,至少三十年来一直是该领域的一个挑战。这有很多原因。首先,由于系统的错误操作,例如由于错误的预测,数据中的意外异常可能导致损失。这种类型的错误数据通常是人为错误或日志系统中错误记录的结果。它们也可能是设备故障、异常传感器行为等的记录。未经授权人员的预期行为导致的数据具有稍微不同的特征。例如,欺诈异常直接导致资源损失。此外,人类活动中的异常现象(拥挤的地方、遗留的行李等)可能导致严重的安全缺陷。最后,优化数据,清除离群值和异常,可以得到更可靠的经济、天气和其他类型的预测。

关于这个主题的文献相当丰富。开发的主要领域与通用计算机科学工具直接相关。主要模型基于距离(k-最近邻)[1]、[2]、[3]或密度。其他一些是支持向量机[4]、[5]、隐马尔可夫模型[6]、高斯过程[7]或深度神经网络,其中可能应用了自动编码器、长短期记忆、自组织映射或卷积神经网络[8]、[9]、[10]、[11]。DBSCAN算法[12]、[13]、[14]也是一种重要的方法。最后,有许多模糊集技术[15]、[16]、[17]、[18]、[19],包括fuzzyC-均值[20]、[21]、[22]、语言原型[23]、模糊规则[24]或粒度模型[25]。在[26]、[27]、[28]、[29]中可以找到异常检测应用程序和算法的深入全面调查。

隔离林[30]、[31]是实践中经常使用的异常检测方法之一。从概念上讲,它属于第一组技术,即基于距离和密度的方法。它基于一个非常简单、直观的推理,利用树、树之林和二进制搜索树。所有这些技术在计算机科学中都广为人知。更准确地说,在学习阶段,该方法基于从数据集中随机选择的记录构建一组二叉树。接下来,跟踪每个数据集记录的树林,异常得分取决于它遇到的节点数。这里值得一提的是,隔离森林尽管简单、快速、直观,但自开发以来,并没有像许多其他技术一样进行太多修改。例外情况是方法[32]、[33]和其他一些方法(详见下一节)。

本研究的主要目的是分析使用模糊分组方法的可能性C-表示[34]在构建搜索树的阶段。我们唯一感兴趣的是,我们是否能够使用基于此技术可以获得的信息更好地构建搜索树(包括二进制搜索)。特别是,我们利用了关于给定记录与位于给定树节点附近的一组类似记录的隶属度的信息。属于此类组的记录数也可能很重要。此外,在构建搜索树的阶段,评估是否可以使用任何优化给定树级节点数的方法,这可能很有趣。模糊的C-Means在此提供了一个非常有效的解决方案,得益于此,我们可以获得有关分析数据质量的信息。我们有兴趣对各种难以用图形解释的数据进行研究。最后,我们的目标是演示所提出的方法对来自真实物流数据集(例如来自现代多式联运数据集的数据)的应用。这些数据的异常情况可能会导致组织在物理安全和经济领域出现一些最危险的错误。值得注意的是,我们的工作的独创性在于,我们认为,在构建搜索树的阶段,使用模糊C均值聚类算法找到了获取搜索树节点的有效方法。

本研究报告的实验结果清楚地表明,FuzzyC-方法可以作为隔离林方法的一部分轻松实现。在实验部分,我们比较了几种具有类似结构的方法,即从隔离林方法衍生出来的方法。使用来自实际数据的样本,我们得出了关于所建议方法的质量及其潜在应用可能性的结论。

本文的结构如下。在下一节中,我们将回顾隔离林方法构造及其拟议增强的详细信息。第3节介绍了数值实验的结果,而第4节介绍了结论和未来的工作方向。

节代码段

隔离林及其增强

在本节中,我们简要回顾了隔离林方法,并介绍了新的建议和改进。所有这些方法都是为了确定数据库中记录的异常得分。根据异常得分对集合元素进行排序,可以决定从原始数据集中排除一些记录。在此,值得注意的是,尽管离群值或异常可以有不同的理解,请参见隔离林中的[35]、[36]

数值实验

在本节中,我们介绍了对隔离林的上述变种进行的数值实验的结果。

结论和未来工作

在本研究中,我们提出并全面分析了一种新版本的著名的隔离林算法,该算法基于基于模糊的搜索树和节点C-意味着算法。此分组算法生成关于集群特定成员的信息,准确地说,是关于每个成员对集群的成员身份程度的信息。因此,在处理的训练阶段获得的信息可以在异常的下一步中得到明确的利用

CRediT作者贡献声明

PawełKarczmarek:概念化、方法论、软件、测试、验证、验证、写作-初稿、可视化、监督、资金获取、项目管理、数据管理、资金获取。Adam Kiersztyn:可视化、写作、数据管理。Witold Pedrycz:监督、方法、写作。Dariusz Czerwinnski:可视化、写作、资金获取。

竞争利益声明

作者声明,他们没有已知的竞争性财务利益或个人关系可能会影响本文所报道的工作。

确认

波兰国家科学中心CHIST-ERA计划(批准号:。2018/28/Z/ST6/00563).

工具书类(56)

  • 贝兹德克J.C.公司。等人。

    FCM:模糊c(c)-均值聚类算法

    计算。地质科学。

    (1984)
  • 弗拉若莱第页。等人。

    二叉树和其他简单树的平均高度

    J.计算。系统。科学。

    (1982)
  • Angiulli公司F、。等人。

    高维空间中的快速离群点检测

  • 克诺尔欧洲银行。等人。

    基于距离的离群值:算法和应用

    VLDB国际期刊超大数据库

    (2000)
  • S.Ramaswamy,R.Rastogi,K.Shim,从大数据集中挖掘离群值的高效算法,收录于《。。。
  • 舍尔科普夫B。等人。

    估计高维分布的支持

    神经计算机。

    (2001)
  • C.Zhou,R.C.Paffenroth,使用鲁棒深度自动编码器进行异常检测,收录于:KDD’17第23届ACM会议录。。。
  • P.Malhotra,L.Vig,G.Shroff,P.Agarwal,时间序列中异常检测的长短期记忆网络,in:。。。
  • 西托夫斯基R。等人。

    不同数据密度的DBSCAN类聚类方法

    模式分析。申请。

    (2020)
  • Z.公司。等人。

    DBSCAN聚类算法在异常检测中的应用

    Netw公司。计算。安全。

    (2007)
  • J。等人。

    高效混合聚类算法及其在异常检测中的应用

    J.计算。申请。

    (2010)
  • W.Chimphley,A.H.Abdullah,M.N.M.Sap,S.Srinoy,S.Chimphlee,使用模糊粗糙度的基于异常的入侵检测。。。
  • J.Gomez,F.Gonzalez,D.Dasgupta,异常检测的免疫模糊方法,收录于:第12届IEEE国际。。。
  • 伊扎克语H。等人。

    基于模糊c均值聚类的时间序列数据异常检测

  • 伊扎克语H。等人。

    时空数据聚类:一种增强的模糊c-均值

    IEEE传输。模糊系统。

    (2013)
  • 伊扎克语H。等人。

    空间时间序列数据中的异常检测和特征描述:一种以聚类为中心的方法

    IEEE传输。模糊系统。

    (2014)
  • 威尔比克答:。等人。

    老年护理机构居民数据的语言原型

    IEEE传输。模糊系统。

    (2014)
  • 莫什塔吉米。等人。

    数据流中异常检测的进化模糊规则

    IEEE传输。模糊系统。

    (2015)
  • 引用人(23)

    • 一种基于集合的具有差分潜在扩散损失的聚类和局部异常值检测方法

      2022年,基于知识的系统
      引文摘录:

      它是通过不断划分数据空间来实现的,在此过程中,离群值更有可能被隔离[11,22]。iForest[11]是一种经典的基于隔离的孤立点检测算法,它仍然是孤立点检测相关问题的研究热点之一[41–43]。它使用隔离树来划分属性空间,并通过从根节点到只包含待检测样本的叶节点的路径的平均长度来计算样本的异常得分。

    查看Scopus上的所有引用文章
    查看全文