Statistical modeling of computer malware propagation dynamics in cyberspace

Zijian Fang; Peng Zhao; Maochao Xu; Shouhuai Xu; Taizhong Hu; Xing Fang

doi:10.1080/02664763.2020.1845621

J应用统计。2022; 49（4）：858–883。

2020年11月10日在线发布。数字对象标识：10.1080/02664763.2020.1845621

预防性维修识别码：PMC9041899型

PMID：35707816

计算机恶意软件在网络空间传播动力学的统计建模

自建房，^一彭昭，^b条徐茂超，^c（c）徐寿怀，^d日胡太忠，^一和兴芳^{e（电子）}

作者信息版权和许可信息 PMC免责声明

摘要

网络威胁建模，如计算机恶意软件在网络空间的传播动力学，是一个重要的研究问题，因为模型可以加深我们对动态网络威胁的理解。本文研究了动态网络攻击宏观层面演变的统计模型。具体而言，我们提出了一种贝叶斯结构时间序列方法，用于建模计算机恶意软件在网络空间中的传播动力学。我们的模型不仅具有简约性（即使用很少的模型参数），而且可以通过调节不确定性来提供动力学的预测分布。我们的仿真研究表明，该模型能够准确地拟合和预测计算机恶意软件的传播动力学，而不需要了解底层攻击防御交互机制和底层网络拓扑的信息。我们使用该模型研究了两种特殊计算机恶意软件的传播，即Conficker和Code Red蠕虫，并表明我们的模型具有非常令人满意的拟合和预测精度。

关键词：贝叶斯时间序列、网络威胁、MCMC、SIS、SIR

1 介绍

计算机恶意软件（恶意软件），如计算机蠕虫，是可以复制自身以在计算机网络中传播的恶意计算机程序。例如，2008年11月首次出现的Conficker蠕虫在互联网上迅速传播，并在短时间内感染了数百万台互联网计算机。此恶意软件利用了Windows操作系统中的漏洞，并使用了许多高级技术，例如域生成算法、自卫机制、通过Web和对等（P2P）网络进行更新以及有效的本地传播。另一个众所周知的恶意软件是Code Red蠕虫，它于2001年7月首次被发现。该恶意软件利用缓冲区溢出漏洞，迅速感染了互联网上数百万台计算机。这些事件只是许多计算机恶意软件在网络空间传播的两个例子，激发了理解其传播动态的重要性。

理解计算机恶意软件传播动力学的重要性激发了许多研究，这些研究可分为两大类。第一组研究旨在为微水准仪发生在计算机网络之上的攻击防御交互，导致网络安全动态的一般概念（参见[34]以及其中的参考）。这些模型适用于广泛研究的网络流行病模型，如敏感感染-易感（SIS）和敏感感染-恢复（SIR）及其扩展[1，8，24，26，31，43]，作为特殊情况。最近，Zhao等人。[44]研究了一个模型，该模型包含一个中心节点和一个具有补丁传播网络层和计算机恶意软件传播网络层的多路网络。本研究考虑了对中心节点容量和网络链路带宽的限制。这项基于模拟的研究调查了计算机恶意软件传播和补丁传播之间的相互作用，它们相互竞争。值得一提的是，这种发生在计算机网络之上的竞争动力学在年早些时候进行了研究[22，37，38，46]. Feng等人。[14]研究了一种描述无线传感器网络中蠕虫传播的时空动态的敏感-传染-恢复-敏感（SIRS）模型。Srivastava等人。[30]研究了用于描述无线传感器网络中蠕虫传播动力学的敏感-暴露-感染-隔离-恢复（SEIQR）模型。Xia等人。[33]研究了社交物联网中僵尸网络的传播，并利用平均场方程理论分析了僵尸网络传播的动力学。Zhen等人。[45]研究了由两类攻击和两类防御之间的交互作用引起的一种特殊的网络安全动态。这项研究解决了一个开放了一年的研究问题，证明了特定类型的动力学在模型的整个参数宇宙中是全局收敛的。这一结果在年得到了进一步扩展[21]表明一类更广泛的网络安全动力学模型在模型的整个参数范围内仍然是全局收敛的。Han等人。[16]最近证明，一类更为普遍的网络安全动力学具有全球吸引力，但可能不是全球收敛的，这表明收敛于平衡点的网络安全动态模型与收敛于轨迹的网络安全动力模型之间存在固有边界。这一系列模型的研究可以表征如下：（i）它们经常使用高维和高度非线性的微分方程来对潜在的微观层面的攻击-防御相互作用进行建模；（ii）他们经常做出一些假设，例如某些事件之间的独立性，尽管削弱这种独立性假设已经引起了应有的关注[10，35]; （iii）这些模型尚未通过真实世界的数据进行评估，因为很难收集到微观级别的攻击防御交互活动，而保护此类交互的隐私的需要使这种情况更加恶化；（iv）这些模型能够分析渐近的长期动态行为（即时间 $t吨 \to \infty$ )尽管这种动态可能呈指数收敛；并且（v）这些模型需要有关底层攻击防御交互机制、底层网络拓扑和网络安全策略的完整信息（用于推导所谓的攻击防御结构[34]).

第二类研究旨在模拟计算机恶意软件在宏观层而不考虑微观层次的攻击防御交互。这些研究是数据驱动的，例如那些建模动态网络攻击率的研究，即攻击者尝试攻击次数的单变量或多变量时间序列[三，9，27，28，36，39，41，42]. 本研究属于这一系列研究，但与动态网络攻击率不同，因为计算机恶意软件传播动力学对应于受感染计算机数量演变的时间序列（即成功攻击，而非尝试攻击）。更具体地说，我们的研究是基于以下迄今为止尚未调查的问题：仅给出描述宏观计算机恶意软件传播动态的数据（即没有关于底层攻击防御交互的信息，没有关于底层网络拓扑的信息，也没有关于网络安全策略的信息），我们如何使用尽可能少的参数建模计算机恶意软件传播动力学，并预测（或预测）动力学的瞬态行为，同时调节数据中的潜在不确定性。回答这个问题将提供对计算机恶意软件传播动力学的深入理解。对网络安全领域外流行病传播建模的统计研究也证明了这个问题的重要性[11，17，20，25]。

在本文中，我们通过建议使用贝叶斯结构时间序列（BSTS）模型来研究数据驱动的计算机恶意软件在网络空间中的传播动力学来回答上述问题。我们建议使用贝叶斯局部线性趋势（BLLT）模型来调查网络空间中由于计算机恶意软件传播而受到危害（或感染）的计算机数量的动态。我们表明，通过使用合成数据和真实恶意软件传播数据，我们的简约BLLT模型可以有效地描述动态，并达到令人满意的预测精度。该模式具有明确的网络安全解释。我们还讨论了该模型如何在预测中考虑不确定性。更具体地说，我们的模型可以描述如下：（i）它属于统计建模方法，与上述微分方程方法相反；（ii）它是数据驱动的，因此可以使用真实世界的数据进行评估；（iii）它描述并预测了计算机恶意软件传播动力学的瞬态行为，这与上述渐近行为相反；并且（iv）它是一个部分信息模型，这意味着它不需要关于底层攻击防御交互机制、底层网络拓扑和网络安全策略的完整信息。总之，我们的模型对网络空间中计算机恶意软件传播模型动力学的文献做出了特殊贡献，因为它在宏观层面上具有简约性和贝叶斯性质。

论文的其余部分组织如下。章节2描述了实际工作中两种特定计算机恶意软件（称为Conficker和Code Red蠕虫）传播动力学的数据集，并分析了它们的基本统计属性。章节三描述了所提出的BSTS模型，并阐述了其网络安全相关性。章节4在随机网络和接触网络上生成计算机恶意软件传播动态的合成数据，并使用合成数据评估所提模型的有效性。章节5使用该模型研究Conficker和Code Red蠕虫传播动力学数据集。章节6最后总结了本文的研究方向。

2 Conficker和编码红色蠕虫

在本节中，我们首先描述计算机恶意软件传播动力学的两个真实世界数据集，然后对它们进行探索性数据分析。

2.1. 数据描述和预处理

2.1.0.1. Conficker蠕虫

这种蠕虫是一种特殊的计算机恶意软件。该数据集是由网络望远镜应用互联网数据分析中心（CAIDA）[6]. CAIDA望远镜被动监测a/8网络（即。 $2^{24}$ Internet IP地址），不与Internet服务关联，但仅设置为接收（不响应）传入连接[2，40]. 望远镜可以识别Conficker的探测数据包，因为它们以目标端口号为445的传输控制协议（TCP）为目标，这是Confickerworm可以利用的易受攻击的服务。为了滤除背景辐射，2008年11月19日望远镜监测的最后一小时数据（即11:00pm-12:00am）被用作过滤器，以便丢弃望远镜在这一小时内收到的数据包。

每个Conficker蠕虫探测数据包都包含时间戳和源IP地址。数据集中总共有1410742个唯一IP地址。为了分析传播动力学的演变，即受感染计算机总数的演变，我们将数据聚合到20秒的时间窗口中，得出1800个时间窗口。当望远镜观察到来自计算机的第一个Conficker探测数据包时，计算机被视为感染了蠕虫；当望远镜观察数据收集周期结束前来自计算机的最后一个探测数据包，被感染的计算机被视为由感染恢复。最后30分钟用作观察窗口，用于确定受感染的计算机是否恢复。也就是说，如果望远镜在最后30分钟内没有观察到一台先前被感染的计算机发出探测数据包，那么这台计算机就被视为已经从感染中恢复，因为蠕虫是为了传播自己而设计的。时间窗口中受感染的计算机总数t吨，表示为 ${C类}_{t吨}$ ，通过在时间步长结束时从唯一IP的累积数量中删除恢复的计算机数量来计算t吨。这导致总共1710个观察结果，即 ${{C类}_{t吨} ， t吨 = 1 ， \dots ， 1710}$ .

2.1.0.2. 红色蠕虫代码

红色代码蠕虫攻击了运行Microsoft IIS web服务器的计算机，并于2001年7月15日首次发现。本文分析的数据来自三个来源：从CAIDA/8网络望远镜收集的数据包头、劳伦斯伯克利实验室2/16网络接收到的TCP SYN数据包中的时间戳/IP地址对，以及从CAIDA的/8网络望远镜的路由器上游流量中采样的网络流。数据是在2001年7月18日19:00 UTC和2001年7月20日2:10 UTC之间收集的。该预处理数据由CAIDA提供，其中包含用于传输蠕虫的IP地址的时间戳[6]. 为了进行分析，我们将数据汇总到1分钟的窗口中，并记录时间窗口中受感染的计算机数量，从而得出总计1812个观察值，表示为 ${{R（右）}_{t吨} ， t吨 = 1 ， \dots ， 1812}$ .

2.2. 探索性数据分析

Conficker蠕虫感染的计算机总数的时间序列图如图所示1（a） ●●●●。据观察，受感染的计算机总数在最初阶段迅速增加，然后呈稳定增长趋势。达到峰值后，受感染的计算机数量呈下降趋势。图中显示了Code Red蠕虫感染的计算机总数的时间序列图1（b） ●●●●。据观察，受感染的计算机总数在最初阶段缓慢增加，然后迅速增加。在达到峰值后，受感染的计算机数量呈稳定趋势。有趣的是，红色代码蠕虫感染的动力学与Conficker蠕虫不同。

韵律学	MSE公司	摩洛哥迪拉姆	地图	SMAPE公司	MSE公司	摩洛哥迪拉姆	地图	SMAPE公司
	${D类}_{1 ， 2}$				${D类}_{2 ， 2}$
基准	171.3291	11.4579	0.0126	0.0127	11406.29	98.7111	0.3146	0.3848
BLL公司	15.2713	2.7344	0.0030	0.0036	8.7482	2.4983	0.0080	0.0177
BLLT公司	5.7267	1.9533	0.0022	0.0022	3.7661	1.5910	0.0051	0.0072
	${D类}_{三， 2}$				${D类}_{4 ， 2}$
基准	14727.59	88.5749	0.1610	0.1373	15.9323	2.7154	0.0366	0.1226
BLL公司	25.9844	4.0308	0.0073	0.0077	3.4728	1.1506	0.0155	0.0274
BLLT公司	26.0779	4.0572	0.0074	0.0075	2.9264	1.0853	0.0146	0.0316

	MSE公司	摩洛哥迪拉姆	地图	SMAPE公司
BLL公司	167.6308	10.4146	0.0115	0.0119
BLLT公司	145.0861	9.6581	0.0106	0.0108

	MSE公司	摩洛哥迪拉姆	地图	SMAPE公司
BLL公司	30291.29	127.0138	0.0006	0.0007
BLLT公司	5609.875	45.74324	0.0002	0.0002

	毫秒	摩洛哥迪拉姆	地图	SMAPE公司
ARIMA公司	16285.51	92.0162	0.0005	0.0005
加奇	12737.8	71.0670	0.0004	0.0004
BLLT公司	5609.875	45.74324	0.0002	0.0002

	MSE公司	摩洛哥迪拉姆	地图	SMAPE公司
BLL公司	377225.7	282.9071	0.0015	0.0041
BLLT公司	77339.74	59.9474	0.0003	0.0007

	MSE公司	摩洛哥迪拉姆	地图绘制	SMAPE公司
ARIMA公司	132476	108.9276	0.0006	0.0014
加奇	146288.3	148.5909	0.0008	0.0021
BLLT公司	77339.74	59.9474	0.0003	0.0007

间隔	探针
[175600,175800)	0.0021
[175800,176000)	0.0509
[176000,176200)	0.2765
[176200,176400)	0.4369
[176400,176600)	0.2051
[176600,176800)	0.0265
[176800,177000)	0.002

计算机恶意软件在网络空间传播动力学的统计建模

自建房

彭昭

徐茂超

徐寿怀

胡太忠

兴芳

摘要

1 介绍

2 Conficker和编码红色蠕虫

2.1. 数据描述和预处理

2.1.0.1. Conficker蠕虫

2.1.0.2. 红色蠕虫代码

2.2. 探索性数据分析

三。 模型和理由

3.1. 贝叶斯局部线性趋势模型

3.2. 处理BLLT模型的先验分布

3.3. 计算BLLT模型的后验分布

4 模拟研究

4.1. 基准模型

4.2. 模拟网络上的传播动力学

4.2.0.3. a） 生成合成数据集D类1通过在随机网络上模拟SIS动力学

4.2.0.4. b） 生成合成数据集D类2通过模拟随机网络上的SIR动态

4.2.0.5. c） 生成合成数据集D类三通过在接触网上模拟SIS动力学

4.2.0.6. d） 生成合成数据集D类4通过模拟接触网上的SIR动态

4.3. 模型评估

4.3.0.7. 数据D类1

表1。

4.3.0.8. 数据D类2

4.3.0.9. 数据D类三

4.3.0.10. 数据D类4

4.3.0.11. 错误分类流量的数据

表2。

5 应用

5.1. Conficker蠕虫

表3。

5.1.0.12. 模型比较

表4。

5.2. 红色蠕虫代码

表5。

5.2.0.13. 模型比较

表6。

5.3. 在实践中使用BLLT

表7。

6 结论

致谢

资金筹措表

披露声明

工具书类

三。模型和理由

4.2.0.3. a）生成合成数据集 ${D类}_{1}$ 通过在随机网络上模拟SIS动力学

4.2.0.4. b）生成合成数据集 ${D类}_{2}$ 通过模拟随机网络上的SIR动态

4.2.0.5. c）生成合成数据集 ${D类}_{三}$ 通过在接触网上模拟SIS动力学

4.2.0.6. d）生成合成数据集 ${D类}_{4}$ 通过模拟接触网上的SIR动态

4.3.0.7. 数据 ${D类}_{1}$

4.3.0.8. 数据 ${D类}_{2}$

4.3.0.9. 数据 ${D类}_{三}$

4.3.0.10. 数据 ${D类}_{4}$