爱思维尔

网络与计算机应用杂志

第32卷第6期,2009年11月,第1219-1228页
网络与计算机应用杂志

基于多检测引擎和模糊推理的程序异常入侵检测方案

https://doi.org/10.1016/j.jnca.2009.05.004获取权限和内容

摘要

本文中,一个混合异常入侵检测提出了使用程序系统调用的方案。在该方案中,隐马尔可夫模型(HMM)检测引擎和常规数据库检测引擎结合使用,以发挥各自的优势。基于模糊的推理机制用于推断异常行为和正常行为之间的软边界,否则很难确定它们何时重叠或非常接近。为了解决HMM训练成本高的挑战性问题,提出了一种具有HMM参数优化初始化的增量HMM训练方法。实验结果表明,所提出的基于模糊的检测方案可以减少假阳性与单一常规数据库检测方案相比,警报减少了48%。我们的HMM增量训练和最佳初始化在训练时间和存储方面也有了显著改进。HMM训练时间减少了四倍,记忆需求也显著降低。

介绍

计算机安全已经成为一个越来越令人担忧的问题,每年美国公司的成本将近670亿美元(Evers,2008)。根据引用的调查,蠕虫、病毒和特洛伊木马的成本最高,其次是计算机盗窃、金融欺诈和网络入侵。由于不可能完全防止计算机攻击,入侵检测系统(IDS)在最大限度地减少不同计算机攻击造成的损害方面发挥着非常重要的作用。在不事先了解攻击方法的情况下检测入侵是最具挑战性的。异常入侵检测方法(Abadeh等人,2007年;Anderson等人,1994年;Anders等人,1995年;Bose等人,2007;Forrest等人,1996年;Gómez等人,2003年;Hautamaki等人,2004年;Hoang等人,2003a,Hoang et al.,2003b;Hong and Hu,2004年,Hwang等人,2007年间;Lee等人,1999年,Lee等,2000年;Patcha and Park,2007年)这里仅举几个例子,似乎很有希望,并吸引了相当多的关注。异常入侵检测的原理是首先建立被监测对象的正常轮廓,任何与该正常轮廓的显著偏差都被视为可能标记入侵的异常(Denning,1987)。异常入侵检测技术通常可分为三类:统计检测方法、基于数据挖掘的方法和基于机器学习的方法(Patcha和Park,2007)。统计异常检测方法建立了两个剖面:训练阶段的正常剖面和检测阶段的当前剖面。它们根据统计分布监视活动,如CPU使用率、TCP连接数。在操作过程中,对这两个剖面进行比较,如果它们之间存在显著差异,则会识别出异常。Smaha等人建议使用随机高斯分布对活动进行统计建模。该方法的增强版本由入侵检测专家系统(IDES)(Lunt等人,1992年)和下一代入侵检测专家体系(NIDES)(Anderson等人,1994年,Anderson等,1995年)实现。基于统计的异常检测方法的一个困难是确定什么是有意义的活动。

基于数据的方法可以自动查找有意义的活动和有趣的功能。它们包括基于分类的入侵检测、聚类和离群值检测以及关联规则发现(Anderson等人,1995;Hautamaki等人,2004;Hoang等人,2003b;Lee等人,1999;Lee等,2000;Patcha和Park,2007)。通常,它们是计算密集型的,并且产生非常高的虚警率。基于系统调用的序列分析是用于异常检测的广泛使用的机器学习技术之一。一项具有代表性的工作是正常序列数据库检测方案,其中使用滑动窗口划分序列,并根据观察到的序列与数据库中先前建立的序列的比较来检测入侵(Forrest等人,1996年;Warrender等人,1999年)。贝叶斯网络也被用于异常入侵检测。这种方法的优点是可以检测分布式攻击,其中每个单独的攻击会话都不足以产生警报。贝叶斯网络的一个主要缺点是,它们需要被监测对象的非常准确的行为模型,这是不现实的(Patcha和Park,2007)。隐马尔可夫模型(HMM)是一种非常强大的基于机器学习的异常入侵检测工具(Davis and Lovell,2002;Hoang et al.,2003a;Rabiner,1989)。结果表明,HMM模型在正常序列数据库方案、神经网络方案和数据挖掘方案中的检测率和虚警率方面表现最佳。然而,它的计算成本很高(Warrender等人,1999年)。

单个检测引擎的性能很少令人满意。在机器学习领域,人们认为多分类器的集成可以产生比单个分类器更好的结果。Webb等人(2005)表明,一组分类器的统一加权优于任何单个分类器;Oliver和Hand(1996)证明了决策树比任何单独的决策树都能更好地分类。最近,人们多次尝试使用多分类器执行异常入侵检测(Analoui等人,2007年;Bose等人,2007;Cho,2002;Giacinto和Roli,2002;Feng等人,2007,Hoang等人,2003年a;Tsang等人,2005;Vokorokos等人,2008;Ye和Xu,2000)。大部分工作要么基于在不同网络特征集(如数据包头集和TCP协议数据集)上运行的多个分类器的集成,要么基于签名的IDS和异常IDS的集成。Hoang等人(2003a)提出了一种多层方法,其中HMM模型和普通数据库引用同一组系统调用。我们相信,使用同一组系统调用的不同检测引擎可以揭示被监控程序的不同方面。这将提供对监控行为的更全面的了解,并随后有助于降低误报率。在本文选择的HMM模型方案和正态序列数据库方案的背景下,正态序列数据方案在基于频繁观测序列的决策中是非常可靠的,但在涉及不频繁观测的系统序列时是相当弱的。另一方面,由于HMM模型的生成特性,HMM模型在判断此类序列时表现良好。基于我们之前的工作(Hoang et al.,2003a),本文探索了将HMM模型和正常序列数据库方案集成用于基于程序的异常入侵检测的有效方法。我们的主要贡献是:(i)提出了一个模糊框架,将HMM异常入侵检测引擎和正常序列数据库异常入侵引擎集成在一起,用于基于程序的异常入侵检测。注:虽然基于模糊的算法传统上被用作检测引擎以降低误报率(Abadeh等人,2007;Dickerson等人,2001;Dong等人,2005;Florez等人,2002;Gómez和Dasgupta,2002;Luo等人,2001),但我们的工作是使用基于模糊的演算法来集成不同检测引擎的输出。(ii)为了解决HMM训练成本高的挑战性问题,建议使用HMM参数优化初始化的增量HMM训练。(iii)使用新墨西哥大学计算机免疫系统项目(大学,2005年)提供的公共入侵系统呼叫数据库,对拟议方案进行了实验验证。实验结果表明,与单一的常规数据库检测方案相比,所提出的基于模糊的检测方案将误报率降低了48%。我们的HMM增量训练和最佳初始化也在训练时间和存储方面产生了显著改进。HMM训练时间减少了四倍,记忆需求也显著降低。

本文的其余部分组织如下:第2节介绍了所提出的HMM增量训练方案,其中HMM参数的初始化是最优的。第3节描述了使用系统调用进行程序异常入侵检测的基于模糊的方案。第4节介绍了实验结果和讨论。我们的结论和未来的工作见第5节。

节代码段

隐马尔可夫模型的初步研究

隐马尔可夫模型是一个具有两个层次的双重嵌入随机过程。上层是马尔可夫过程,其中的状态是不可观察的。观测是在低层进行的,是上层马尔可夫状态的概率函数。不同的马尔可夫状态具有不同的观测函数。

HMM是非常强大的建模工具,尽管它们的计算成本很高(Davis和Lovell,2002;Gotoh等人,1998;Hoang等人,2003a;Hong和

提出的基于模糊的检测方案

图1显示了提出的基于模糊的检测方案,该方案分两个阶段开发:(a)训练阶段和(b)测试阶段。在训练阶段,根据训练数据构建检测模型,该数据由程序的系统调用的正常轨迹组成。在测试阶段,使用构建的检测模型评估系统调用的测试痕迹,以发现可能的入侵。拟议方案的两个阶段可描述如下:

  • 培训阶段:A

数据集

我们使用发送邮件在合成环境中收集的系统调用的痕迹,如University(2005)所述。Forrest等人(1996)讨论了系统调用跟踪的格式和数据收集过程。数据集包括:

  • 正常跟踪是程序正常活动期间收集的跟踪。正常记录道发送邮件该程序包括2个跟踪,总共1595612个系统调用。

  • 异常跟踪是由已知的

结论和未来工作

本文提出了一种基于模糊的HMM异常入侵检测引擎与正常序列数据库检测引擎集成的方案,用于利用系统调用进行程序异常入侵检测。不使用清晰的条件或固定的阈值,而是创建模糊集来表示序列参数的空间。建立了一组模糊规则,将多个序列参数结合起来,通过模糊推理过程确定序列状态。为了

确认

作者感谢ARC(澳大利亚研究委员会)链接拨款(项目ID LP0455324)、ARC发现拨款(项目ID DP0985838)和越南国家科学技术发展基金会(NAFOSTED)的财政支持。

工具书类(39)

  • 医学硕士。阿巴代等。

    基于模糊遗传学习算法的入侵检测

    网络与计算机应用杂志

    (2007)
  • 答:。帕特查等。

    异常检测技术概述:现有解决方案和最新技术趋势

    计算机网络

    (2007)
  • Analoui M,Bidgoli MB,Rezvani,HM.层次分类器组合及其在网络入侵中的应用。。。
  • Anderson D、Frivold T、Tamaru A、Valdes A。新一代入侵检测专家系统(NIDES),软件用户的。。。
  • Anderson D、Lunt TF、Javitz H、Tamaru A.、Valdes A.使用统计组件检测异常程序行为。。。
  • Bose S,Bharathimurugan S,Kannan A.移动ad hoc的多层集成异常入侵检测系统。。。
  • 美国。

    将软计算技术纳入概率入侵检测系统

    IEEE系统、人与控制论汇刊

    (2002)
  • Davis RIA,Lovell BC。改进了从多个观测序列中估计隐马尔可夫模型参数的方法。输入:。。。
  • D.E.公司。丹尼

    入侵检测模型

    IEEE软件工程学报

    (1987)
  • Dickerson J、Juslin J、Koukoula O。模糊入侵检测。收录:《北美模糊学报》。。。
  • Dong SK、Nguyen HN、Park JS。改进基于SVM的网络入侵检测系统的遗传算法。高级。。。
  • Evers J.FBI:计算机犯罪使美国公司损失670亿美元。〈http://news.zdnet.co.uk/security/0,100000018939248195,00.htm〉。。。。
  • 冯C,彭J,乔H,罗森布利特JW。基于计算机主机的入侵检测系统的警报融合。在:第四。。。
  • Florez G,Bridges S,Vaughn R.入侵检测模糊数据挖掘的改进算法。参加:年会。。。
  • Forrest S、Hofmeyr S、Somayaji A、Longstaff T。Unix进程的自我意识。收录:IEEE会议录。。。
  • Giacinto G,Roli F.多分类器系统在计算机网络中的入侵检测。收录:……会议记录。。。
  • Gómez J,Dasgupta D.入侵检测的进化模糊分类器。In:第三届IEEE年会。。。
  • Gåmez J,Gonzàlez F,Dasgupta D。一种异常检测的免疫模糊方法。在:IEEE国际会议上。。。
  • Gotoh Y,Hochberg MM,Silverman HF.使用增量估计的HMM高效训练算法。In:IEEE。。。
  • 引用人(96)

    • 隔离林的概率推广

      2022年,信息科学
      引文摘录:

      我们将在这里回顾一些重要的结果。在实践中使用的算法有很多类,例如支持向量机或核心向量机[1,2],深层神经网络[3-6],例如长短期记忆、自组织映射、自动编码器、聚类[7],DBSCAN算法的各种方法[8],以及粒度模型或模糊集方法[9-13],特别是在时间序列的应用中[14,15]。另一种特别用于时间序列分析的方法是随机权重网络[16]、免疫系统[17]、加权图表示[18]、贝叶斯网络[19,20]、基于期望的扫描统计[21]等。

    • 基于模糊C均值的隔离林

      2021年,应用软计算
    • 基于K-Means的隔离林

      2020年,基于知识的系统
      引文摘录:

      离群值检测的另一种方法是实现支持向量机[9]、核向量机[10]、核方法[11]或神经网络的方法,特别是深度学习模型,如自动编码器、长短期记忆或自组织映射[12-15]。此外,一种有趣的方法是基于聚类分析[16,17],特别是DBSCAN算法[18,19]或DBSCAN和k-Means[20],或模糊集技术[21-24]。k-Means还与IF结合使用,即所谓的CBiForest[25],作者将其应用于数据集记录的预选。

    • 无线自组织网络入侵检测与防范研究综述

      2020年,《系统架构杂志》
      引文摘录:

      签名基本上是与已知威胁相关的模式(字符串)或模式组合。特征检测实际上是将存储的模式与检测到的威胁进行匹配,如果匹配发生的话;检测到入侵[40]。它也被称为基于知识的,由于这个原因,该机制使用存储在其数据库中的知识来识别入侵。

    查看Scopus上的所有引用文章
    查看全文