CTTGAN: Traffic Data Synthesizing Scheme Based on Conditional GAN

Wang, Jiayu; Yan, Xuehu; Liu, Lintao; Li, Longlong; Yu, Yongqiang

doi:10.3390/s22145243

开放式访问第条

CTTGAN:基于条件GAN的交通数据合成方案

¹

国防科技大学电子工程学院，合肥230037

²

安徽省网络空间安全态势感知与评估重点实验室，合肥230037，中国

^*

信件应寄给的作者。

传感器 2022,22(14), 5243;https://doi.org/10.3390/s22145243

收到的提交文件：2022年6月6日/修订日期：2022年7月7日/接受时间：2022年7月11日/发布日期：2022年7月13日

（本文属于特刊网络安全与人工智能)

下载

浏览地物

版本注释

摘要

:

大多数机器学习算法仅在平衡数据集上具有良好的识别率。然而，在恶意流量识别领域，网络上的良性流量远远大于恶意流量，并且网络流量数据集不平衡，这使得该算法对小类别恶意流量样本的识别率较低。提出了一种称为条件表生成对抗网络（CTTGAN）的流量样本合成模型，该模型使用条件表生成对手网络（CTGAN）算法扩展小类别流量样本并平衡数据集，以提高恶意流量识别率。CTTGAN模型扩展并识别特征数据，满足机器学习算法对训练和预测数据的要求。本文的贡献如下：首先，扩展了小类别样本，平衡了流量数据集；第二，与使用图像数据的模型相比，降低了存储成本和计算复杂性；第三，同时处理交通特征数据中的离散变量和连续变量，很好地描述了数据的分布。实验结果表明，在MLP、KNN和SVM算法中，扩展样本的识别率均大于0.99。此外，所提出的CTTGAN模型的识别率优于过采样和欠采样方案。

关键词：

恶意流量识别;条件GAN;样品合成;数据平衡

1.简介

网络技术的飞速发展给人们带来了便利。然而，它也伴随着安全问题。许多符合技术要求的设备可以访问互联网，包括具有恶意行为的软件，如入侵用户主机、窃取信息、破坏设备等，给用户的隐私和财产安全带来了巨大的隐患。网络上信息和财产的安全保护是一个亟待解决的关键问题，而流量的准确识别对解决这一问题起着重要作用。

恶意流量识别的方法主要包括基于端口的[1]，基于有效载荷[2,三]和机器学习算法。基于端口的识别方法不再适用于当前的网络环境，因为许多网络攻击不再使用固定端口和传统端口。然而，基于有效载荷的识别方法无法识别加密的流量，目前，网络中的流量加密已成为一种逐渐发展的趋势。为了解决加密恶意流量识别问题，人们开始研究基于机器学习算法的识别方法。

Lucia等人[4]使用卷积神经网络（CNN）和支持向量机（SVM）算法对流量进行识别，SVM算法的识别效果优于CNN。Shekhawat等人[5]分别使用三种机器学习算法（SVM、XGBoost、Random Forest）识别流量，并进一步分析提取的特征。他们建议，基于模型本身的特征选择（无领域方法）可能比基于人类专业知识的特征选择更好。一些研究人员使用深度学习算法自动提取特征，然后识别流量[6,7,8]. He等人[9]提出了一种基于CNN和自动编码器（AE）的恶意流量检测方法。对编码器进行良性流量训练，以学习其重建能力。当恶意流量输入编码器时，重建率达不到阈值；也就是说，流量被判断为恶意流量。Zhong等人[10]提出了一种基于多种深度学习模型的异构集成学习流量检测框架。

许多机器学习算法在平衡数据集上运行良好，但在不平衡数据集中运行不好。在真实的网络环境中，良性流量数据量大，易于收集，而恶意流量数据量小，难以收集。在许多网络流量数据集中，良性流量远远超过恶意流量。在实际应用中也存在类似的情况。我们需要准确识别大量良性流量中的恶意流量。数据不平衡导致许多机器学习模型的识别精度较低。人们已经进行了很多研究来解决这个问题。从模型改进的角度来看，Telikani等人[11]提出了一种成本敏感的深度学习模型，该模型根据数据的成本矩阵确定成本函数，从而减少数据集不平衡的影响。He等人[9]仅使用大量的良性流量数据来训练AE，并通过AE的重建率来判断流量是良性还是恶意。然而，这类模型比较复杂，对不同流量数据的适应性较差。

从数据平衡的角度来看，传统方法主要包括过采样[12]和欠采样[13]技术。过采样技术可能会导致过拟合问题，而欠采样技术将导致数据学习不足。合成少数过采样技术（SMOTE）[14]技术是一种基于过采样的改进算法。它不是复制样本，而是向样本中添加少量噪声以获得不同的数据。Qian等人[15]，Yan等人[16]使用SMOTE算法平衡流量数据集，并在新数据集上识别流量。然而，SMOTE技术并没有向样本中添加新信息。古德费罗[17]2014年首次提出使用生成对抗网络（GAN）生成样本数据。与上述方法不同，使用GAN生成的数据包含与原始数据完全不同的数据样本。

Vu等人[18]使用了辅助分类器通用优势网络（ACGAN）[19]以扩展流量样本，平衡SSH和非SSH数据，然后识别流量。Dong等人[8]使用Wasserstein GAN（WGAN）[20]平衡交通数据集并对其进行分类。也有研究使用GAN及其派生算法生成交通数据[12,21,22]与真实数据和训练模型混合，提高IDS和恶意软件检测系统的性能。在使用GAN及其派生算法扩展交通数据集的研究中，许多研究使用原始交通数据并将其转换为图像，然后扩展数据集并识别交通。然而，许多机器学习算法用于训练模型和预测类别的数据都是特征数据。如果我们合成原始数据或图像，我们还需要稍后提取特征。此外，图像的存储和操作需要很大的成本。

在交通数据特征数据合成的研究中，Merino等人[23]使用GAN在NSL KDD99数据集中生成攻击流量，并平衡数据集。Shahriar等人[24]提出了一种基于GAN的入侵检测系统（G-IDS），该系统利用GAN生成不平衡和缺失的数据，提高了入侵检测系统的检测能力。他们的实验也在NSL KDD99数据集上进行了训练和测试。然而，NSL KDD99数据集过于过时，网络流量的特征相对简单且规则。它不再适用于当前复杂的网络环境。Huang等人[25]提出了一种非平衡生成对抗性网络入侵检测系统（IGAN-IDS），用于对NSL KDD99、UNSW-NB15和CIC-IDS2017数据集进行数据平衡和流量类别识别。与其他机器学习算法相比，该算法的识别精度有所提高。然而，他们的算法没有充分考虑交通数据的特征属性，不能充分反映交通数据的特性分布。

在利用GAN及其派生算法进行交通数据扩展的研究中，主要有两种方法：扩展原始交通数据和扩展特征数据。原始流量数据的扩展方案需要存储扩展后的合成样本，然后提取和过滤特征，以便识别恶意流量。这些方案需要大量的存储成本，图像的计算也需要很高的成本。对于特征数据的扩展方案，方案中使用的许多数据集已经过时，参考意义有限。此外，现有对流量数据特征分布的研究不足。

本文的目的是利用特征数据进行扩展，满足机器学习算法训练和预测的要求。这样，在存储期间只需要保存特征数据，而Pcap数据和图像则不需要，这大大降低了存储成本。在随后的模型训练过程中，不需要再次进行特征提取，从而降低了计算成本。此外，为了更好地处理交通数据特征中的离散变量和连续变量，我们使用了CTGAN[26]模型来生成数据。

在提出的CTTGAN方案中，在获得原始交通数据后，我们提取并过滤数据以获得特征，然后使用CTGAN算法扩展小类数据样本。考虑到实际应用的需要，我们只使用放大后的数据作为训练集，使用实际数据作为测试集。本文的主要贡献如下：

我们提出了CTTGAN方案来扩展交通数据集中的小类别样本。扩容后，各项指标均得到改善，效果稳定。
在交通数据合成领域，我们的研究重点是一维表格特征数据，而不是图像数据，这些数据适用于机器学习模型，大大降低了存储和计算成本。
该方案采用CTGAN模型，当同时处理交通数据中的离散变量和连续变量时，可以获得更好的结果。

本文的结构安排如下。在第2节介绍了GAN的原理，特别是GAN在表格数据生成中的导数算法。在第3节，我们详细介绍了所提出的条件表流量GAN（CTTGAN）方案，并给出了该方案的流程图和算法。在第4节给出了实验结果并进行了对比分析。最后，得出结论第5节.

2.前期工作

使用GAN扩展样本可以生成以前不存在的新样本，不会造成过拟合问题，能够很好地反映样本的特征。根据其在图像领域的特性，已经提出了许多GAN衍生算法[27]，音乐[28]，自然语言生成[29]本文提出的方案旨在扩展交通特征数据以平衡数据集，即扩展表格数据。

在本节中，我们介绍了GAN及其派生算法在表格数据生成领域的实现原理。

2.1. GAN和条件GAN

GAN的基本思想[17]是使生成器和鉴别器相互对抗，以提高其性能。示意图如所示图1.

让

G公司 (z（z）)

是发电机和输入噪声

z（z） \sim 第页 (z（z）)

通过以下方式输出合成数据

G公司 (z（z）)

将实际数据和合成数据输入鉴别器

天 (x个)

，鉴别器输出判别结果。的结果天被反馈给G公司、和G公司改进了生成算法，使合成数据更接近真实数据。当更多类似的合成数据和实际数据输入到天,天还需要提高其识别能力，以准确区分合成数据和实际数据。上述过程不断重复G公司和天不断改进，直到网络达到纳什均衡。可以认为，网络生成的数据与实际数据接近。GAN的目标函数如方程式所示(1):

\underset{G公司}{最小值} \underset{天}{最大值} 五 (天, G公司) = {E类}_{x个 \sim {第页}_{数据} (x个)} [日志 天 (x个)] + {E类}_{z（z） \sim 对 (z（z）)} [日志 (1 - 天 (G公司 (z（z）)))]

(1)

Mirza等人[30]提出了GAN存在建模过程过于自由的缺点，这可能会使训练过程难以控制。为了解决这个问题，他们提出了条件GAN（CGAN）。CGAN模型的思想是添加额外的信息变量年发电机建模G公司和鉴别器天指导数据生成。CGAN的目标函数如方程式所示(2):

\underset{G公司}{最小值} \underset{天}{最大值} 五 (天, G公司) = {E类}_{x个 \sim {第页}_{数据} (x个)} [日志 天 (x个 | 年)] + {E类}_{z（z） \sim 对 (z（z）)} [日志 (1 - 天 (G公司 (z（z） | 年)))]

(2)

2.2. 生成表格数据中的GAN

已经对使用GAN生成表格数据进行了许多研究。Yahi等人[31]研究了使用GAN生成连续的实验室时间序列数据，并提出在训练GAN模型之前结合训练队列的表示学习可能是有益的。Yu等人[32]结果表明，当使用GAN生成离散令牌时，很难将梯度更新从鉴别器传递到生成器。他们提出了SeqGAN模型，将生成器建模为随机的，并直接更新生成器的梯度。Choi等人[33]建议medGAN生成真实的患者记录。他们专注于生成高维离散变量（二进制和计数特征）。Lederrey等人[34]提出了生成种群数据的DATGAN模型。他们结合了专业知识和深度学习方法，并使用有向非循环图来确定变量之间的关系。

2.3. 条件表格GAN（CTGAN）

在使用GAN生成表格数据的研究中，大多数是针对离散变量或连续变量的。当实际数据中同时存在离散变量和连续变量时，算法将难以生成与实际数据具有相同分布的数据。为了解决这个问题，Xu等人[26]提出了CTGAN模型。他们设计了一个条件生成器来对不平衡的离散列进行重新采样。实际数据的重构分布如方程式所示(三)，其中

{k个}^{*}

代表

我^{*}

第个离散列

天_{我^{*}}

值：

对 (行) = \sum_{k个 \in 天_{我^{*}}} 对_{G公司} (行 ∣ 天_{我 *} = {k个}^{*}) 对 (天_{我^{*}} = k个)

(3)

3.建议方案

3.1. 设计理念

网络流量特征包括离散变量，如转发数据包的数量、反向数据包的数目、正向数据包的长度、反向数据包长等，以及连续变量，如每秒转发数据包数量、每秒反向数据包数量，我们提出了条件表流量GAN（CTTGAN）方案。在交通样本扩展阶段，使用CTGAN模型对每种类型的小样本进行扩展，以获得合成交通数据。在CTGAN模型中，生成器和鉴别器都使用了两个完全连接的隐藏层。发电机中使用relu激活功能，发电机中使用泄漏relu功能。

3.2. 方案流程

方案流程图如所示图2首先，对原始交通数据集进行预处理，获得特征数据。接下来，扩展每个小流量类别以获得合成样本。最后，在平衡数据集上训练辨识模型并进行预测。

3.3. 方案步骤

在数据预处理部分，首先提取交通数据的有效特征。然后，过滤功能并删除不实用的功能，如时间戳、目标主机和源主机IP地址。这些特征将使交通流具有明显的属性；然而，在实际应用中不存在这样的功能。接下来，我们清理数据，即删除缺少项和无穷大值的数据。在小类别交通数据扩展部分，使用CTGAN模型扩展每个小样本，以获得合成交通数据。最后，对识别模型进行训练，用于交通预测。考虑到实际应用需求，预测的流量应为实际流量。因此，我们随机选取部分真实交通数据作为测试集，并将剩余的真实交通数据与合成交通数据混合作为训练集对模型进行训练。在得到识别模型后，我们对测试集进行了预测，并获得了结果。步骤如算法1和图3.

算法1：拟议CTTGAN

4.实验结果

在这一部分中，我们首先介绍了数据集、评价指标和实验平台的配置，然后展示实验结果并进行对比分析。

4.1. 数据集描述

我们在实验中使用了加拿大网络安全研究所发布的CIC-IDS2017数据集。该数据集收集了2017年7月3日上午9点至7月7日下午5点的网络流量数据，包括良性流量和14次攻击流量事件。数据集是开放的、典型的，流量数据相对较新，这与当前的网络环境相一致。交通类别和数量如所示表1和表2。可以从中看到表2交通数据类别不平衡。

该数据集包含由流特征提取工具CICFlowMeter获取的原始网络流量数据（PCAP）和特征数据（CSV）。特征数据包括流持续时间、最大包长度、最小包长度、转发包数量、反向包数量等78个特征（原始特征数据包含79个特征，其中“转发包头长度”特征重复两次，我们删除一次）。以下实验是使用特征数据进行的。

可以从中看到表2良性流量占80%以上，远远超过14种恶意流量的总和。在14种恶意流量中，DoS GoldenEye和FTP-Patator等11种流量样本所占比例不足1%，渗透、Web攻击Sql注入和心跳三种流量样本占比例不足0.001%。也就是说，流量数据集严重不平衡，这将使机器学习算法偏向于较大的类别样本，而较小类别样本的识别率将较低。

4.2. 评价指标

在实验中，我们使用了三个经典的评价指标，召回率、精确度和F1-核心。具体含义如下：

T型 对

（真阳性）表示确认为阳性的阳性病例数，

F类 对

（假阳性）表示确认为阳性的阴性病例数，

F类 N个

（假阴性）表示被认定为阴性的阳性病例数量

T型 N个

（真阴性）表示被识别为阴性的阴性病例数。在多分类问题的情况下，当评估一个类别的分类时，该类别的样本记录为阳性案例，所有其他样本记录为阴性案例。

召回 = \frac{T型 对}{T型 对 + F类 N个}

(4)

精密度 = \frac{T型 对}{T型 对 + F类 对}

(5)

F类 1 - 分数 = \frac{2 \times 召回 \times 精密度}{召回 + 精密度}

(6)

召回反映了正确检测到某类数据的比率；精度反映了作为某种类型的数据检测到的所有数据的比率；F1-score同时考虑了召回率和精确度。对于一个好的流量检测模型，它应该具有较高的召回率、精确度和F1核。

4.3. 实验平台配置

实验在Windows 11 64位操作系统和16 GB RAM上进行。代码使用Python 3.8编写，使用sklearn 0.24.1、sdv 0.14.0、pandas 1.2.4、numpy 1.20.1和matplotlib 3.5.1库。我们调用sklearn库中的一些算法来分割训练集和测试集，绘制混淆矩阵，并训练MLP、KNN和SVM模型；Sdv库用于训练CTGAN模型并生成数据；使用熊猫和numpy库对数据进行预处理；Matplotlib库用于绘制和保存图片。图书馆的下载网站、简介和使用功能如所示表3。实验中使用的IDE是pycharm，版本2020.3 x64。

4.4. 实验结果与分析

4.4.1. 原始数据的识别结果

在实验1中，我们提取了数据量大于10000的类别。对于DDoS、DOS Hulk、PortScan和DOS GoldenEye（数据量在10000到1000000之间），我们提取了10000条数据。随后的实验可以验证10000条数据足以稳定模型识别率。对于BENIGN数据（数据量超过1000000），考虑到正常网络样本包含多种类型的流量，如访问正常网页、收发电子邮件、下载数据等，为了充分表征良性流量，选择了100000个样本进行实验。实验一中使用的数据量如所示表4.

我们使用MLP、KNN和SVM机器学习算法对原始不平衡数据进行分类。对于14类恶意流量，我们逐步增加训练样本数，并获得召回指标随样本数的增长曲线，如所示图4.为了反映每个流量类别的召回指标与数据量之间的关系，对每个流量类别进行了实验；也就是说，对于每个类别，样本数量逐步增加，其他类别的数据保持不变，并记录该类别召回值的变化。

共有14条曲线图4a–c表示14个流量类别的召回值随样本数的变化。在这三张图中，有六种流量类别的召回值不稳定。它们是Bot、Web攻击暴力、Web攻击XSS、渗透、Web攻击Sql注入和心跳。实验结果表明，在不同的机器学习算法中，各种交通样本需要达到一定的数据量才能使训练的模型稳定。

对于数据量的选择，我们给出了一些补充说明。提取数据的数量与许多因素有关，如数据本身的复杂性、提取特征的数量、特征的重要性、提取的特征是否合理等。此外，数据量的选择也与机器学习模型的体系结构和实现功能密切相关。从实验结果可以看出，当原始交通数据的样本大小足够时，可以使用5000条数据来训练不同的机器学习模型，以实现稳定性。对于与CIC-IDS2017数据集类似的数据集（78个特征和14个流量类别），该数据量可能具有很大的参考价值。

4.4.2. CTTGAN膨胀后的鉴定结果

对于实验一中数据不足的六个流量类别，我们认为Web攻击XSS、渗透、Web攻击Sql注入和心跳的数量太少，无法充分反映样本的特征，因此这四个流量类别将在后续研究中不予考虑。对于Bot和Web攻击暴力，我们使用CTGAN算法对其进行扩展并进行识别实验。以下实验使用MLP算法进行识别。检索、精度和F1-score的值如所示图5.

图中蓝色曲线代表原始数据，红色曲线代表合成数据。考虑到实际应用的需要，在合成数据的实验中，随机选择500条真实交通数据作为测试集，另外随机选择500条真实交通数据并与合成数据混合作为训练集。实验中采用了控制变量法；也就是说，在更改Bot流量数据的数量时，其他类别的数据保持不变，我们记录Bot数据的指标。对Web攻击暴力数据执行相同的操作。从实验结果可以看出，Bot和Web攻击蛮力的指标经过扩展后有所改善，最终达到稳定。

为了验证该方案的有效性，我们选择了具有足够样本大小的流量类别来进行验证。选择了DDoS、DoS GoldenEye、FTP-Patator和SSH-Patator，结果如所示图6.

实验结果表明，合成样品与原始样品具有相似的波动趋势，这表明合成样品能够很好地反映原始数据的特征。此外，为了验证所提方案的有效性，我们使用MLP、KNN和SVM算法来识别扩展数据集的流量。结果如所示表5对于Bot和Web攻击暴力，随机选择500个真实样本作为测试集，4500个生成的样本作为训练集。其他交通类别的数据量与实验1相同。

在KNN、SVM和MLP算法得到的识别结果中，Bot和Web攻击暴力的识别召回指数均达到0.99以上，所有训练集均为真实样本。结果表明，该方案是有效的。

4.4.3. 比较实验

上述实验验证了该方案的有效性。接下来，我们进一步比较了CTTGAN方案与过采样和欠采样，这两种最常见的方案用于平衡机器学习算法中的数据集[35]. 过采样是指对少数样本进行重复采样，欠采样是指丢弃一些大样本，以实现数据之间的平衡。MLP算法的结果如所示表6。括号中显示了交通类别的数据量。CTTGAN方案中的小流量类别的召回值达到0.99以上，用红色标记。实验结果的混淆矩阵如所示图7.

在实验1和实验2中，可以得出结论，当数量达到5000时，真实样品和合成样品都是稳定的。因此，在过采样实验中，我们重复采样了5000个Bot和Web攻击暴力样本，其他流量类别的数据保持不变。在欠采样实验中，Web攻击暴力的数量为1497，我们随机选择1500条其他流量类别的数据来平衡数据。在CTTGAN实验中，Bot和Web攻击暴力样本扩展到5000个。其他交通类别的数据保持不变。

结果表明，在原始情况下，机器人和Web攻击暴力样本的识别率较低。在过采样实验中，Bot的识别率大大提高，Web攻击暴力的识别率略有提高。在欠采样实验中，Bot的识别率达到0.99以上，Web攻击暴力的识别率几乎不变，BENIGN的识别率下降。在CTTGAN实验中，每个类别的识别率都很高。

4.4.4. 讨论和分析

在实验中，我们合成了网络流量的特征数据，而不是原始数据或图像。合成数据可以直接输入机器学习算法，节省存储成本和计算成本。此外，在CTTGAN模型中计算和处理特征数据可能更合理。在一些将网络流量转换为图像的方案中，原始网络流量的前n个字节被转换为灰色图像。这些字节包含目标IP、源IP和其他信息，用于标识流量类别是不合理的。这些问题可以在CTTGAN中解决。

网络流量特征包括连续变量和离散变量。我们使用CTGAN算法同时生成两种类型的数据。合成数据的分布与原始数据相似。首先，我们通过实验验证了在不同的识别算法中，交通数据需要达到一定数量才能使模型达到稳定的识别率。其次，我们验证了对于小类别流量样本，合成数据可以提高模型的性能。对于大类别样本，合成数据的波动趋势与原始数据相似。这些实验结果证明，CTTGAN方案生成的数据与实际数据接近，生成的数据可以作为不足样本的补充。此外，我们对所有类别执行流量识别。在MLP、KNN和SVM算法中，扩展样本的识别率达到0.99以上。最后，我们将CTTGAN模型与过采样和欠采样方案进行了比较。CTTGAN的性能总体上优于过采样和欠采样方案，这证明了所提出的CTTGAN方案是有效的，具有实际意义。

在实验中，所有测试集都是由实际数据组成的，这证明了合成数据可以作为模型训练的补充，以提高其在实际检测场景中的性能。

5.结论

本文提出了CTTGAN模型来扩展网络流量样本以平衡数据集，以提高机器学习算法的识别率。与大多数流量数据扩展模型不同，CTTGAN模型不将网络流量数据转换为图像，而是提取其有效特征，然后扩展特征数据。这样，合成的特征数据符合机器学习算法的数据结构，我们不需要在数据扩展后提取特征。这降低了存储成本和计算复杂性，并加快了计算速度。实验表明，数据较少的交通类别识别率较低，当数据充足时，识别率提高并达到稳定水平。利用CTTGAN模型对小类样本进行扩展后，识别率达到0.99以上，模型具有良好的稳定性。我们还使用CTTGAN合成了大类别样本，以验证波动趋势与实际数据相似。因此，所提出的CTTGAN模型是有效的。此外，CTTGAN模型的识别率高于过采样和欠采样方案，这证明了CTTGAN模式具有良好的实验结果和实用价值。

在未来的工作中，我们将进一步研究样本太少的类别扩展，例如Web攻击XSS、渗透、Web攻击Sql注入和心跳。我们将研究如何充分挖掘这些类别数据的特征，反映总体分布，然后实现这些数据的合理扩展，以实现有效识别。此外，我们考虑研究恶意流量的即时识别，这对实际应用具有重要意义。

作者贡献

《概念化》，J.W.和L.L.（刘林涛）；方法论，J.W.，L.L.（李龙龙）和Y.Y。；验证，L.L.（刘林涛）和Y.Y。；编写原稿，J.W。；写作与编辑，L.L.（李龙龙）和X.Y。；监督，X.Y。；项目管理，X.Y.所有作者都阅读并同意手稿的出版版本。

基金

本研究由国家自然科学基金资助，批准号61602491。

机构审查委员会声明

不适用。

知情同意书

不适用。

数据可用性声明

网络流量数据集CIC-IDS2017可从以下网站下载：https://www.unb.ca/cic/datasets/ids-2017.html（2022年6月5日访问）。

利益冲突

作者声明没有利益冲突。

工具书类

张杰。；肖，C。；杨，X。；周，W。；Jie，W.稳健的网络流量分类。IEEE/ACM传输。Netw公司。 2015,23, 1257–1270. [谷歌学者] [交叉参考]
Park，J.S。；Yoon，S.H.公司。；Kim，M.S.使用应用程序流量时间局部性改进基于有效载荷特征的流量分类系统的性能。2013年9月25日至27日在日本广岛举行的2013年第15届亚太网络运营与管理研讨会（APNOMS）会议记录。[谷歌学者]
Lee，S.H。；Park，J.S。；Yoon，S.H。；Kim，M.S.高性能有效载荷基于签名的互联网流量分类系统。2015年8月19日至21日，韩国釜山，第17届亚太网络运营与管理研讨会（APNOMS）会议记录。[谷歌学者]
德卢西亚，M.J。；Cotton，C.使用机器学习检测加密的恶意网络流量。2019年11月12日至14日在美国弗吉尼亚州诺福克举行的2019-2019年IEEE军事通信会议（MILCOM）会议记录；第1-6页。[谷歌学者] [交叉参考]
Shekhawat，A.S。；特洛伊亚，F.D。；Stamp，M.加密恶意流量的特征分析。专家系统。申请。 2019,125, 130–141. [谷歌学者] [交叉参考]
马·R。；秦，S.基于深度学习的未知协议流量识别。2017年12月13日至16日，中国成都，2017年第三届IEEE国际计算机与通信会议（ICCC）会议记录。[谷歌学者]
刘，Z。；李，S。；Zhang，Y。；云，X。；Cheng，Z.利用生成性对抗网络对恶意软件发起的流量进行有效分类。2020年IEEE计算机与通信研讨会（ISCC）会议记录，法国雷恩，2020年7月7日至10日。[谷歌学者]
Dong，S。；夏，Y。；Peng，T.基于生成对抗深度卷积网络的流量识别模型。安。电信公司。 2021. [谷歌学者] [交叉参考]
他，M。；王，X。；周，J。；Xi，Y。；Wang，X.基于深度特征的自动编码器网络，用于少量恶意流量检测。安全。Commun公司。Netw公司。 2021,2021, 6659022. [谷歌学者] [交叉参考]
钟，Y。；Chen，W。；王，Z。；陈，Y。；Li，K.HELAD：基于异构集成学习的新型网络异常检测模型。计算。Netw公司。 2019,169, 107049. [谷歌学者] [交叉参考]
Telikani，A。；A.H.甘多米。；Choo，K.K.R.公司。；Shen，J.一种基于成本敏感的深度学习的网络流量分类方法。IEEE传输。Netw公司。服务。管理。 2022,19, 661–670. [谷歌学者] [交叉参考]
顾，X。；Angelov，P.P。；Soares，E.非平衡分类的自适应合成过采样技术。《国际情报杂志》。系统。 2019,35, 923–943. [谷歌学者] [交叉参考]
彭，M。；齐，Z。；Xing，X。；陶，G。；Huang，X.针对班级不平衡学习的可训练的欠采样。程序。AAAI Conf.Artif.公司。智力。 2019,33, 4707–4714. [谷歌学者] [交叉参考] [绿色版本]
新墨西哥州查拉。；K.W.鲍耶。；洛杉矶霍尔。；Kegelmeyer，W.P.SMOTE：合成少数过采样技术。J.阿蒂夫。智力。物件。 2002,16, 321–357. [谷歌学者] [交叉参考]
钱，Y。；Min，Z.基于过采样技术的P2P流量识别。电信通信。科学。 2014,30, 109–113. [谷歌学者]
Yan，B.H。；Han，G.D。；黄，Y.J。；Yu，X.L.DPCS2017+41+一种基于不平衡数据的新型流量分类方法。J.计算。申请。 2017. [谷歌学者]
古德费罗，I。；Pouget-Abadie，J。；米尔扎，M。；徐，B。；Warde-Farley，D。；Ozair，S。；科尔维尔，A。；本吉奥，Y.Generative Adversarial Nets。神经信息处理。系统。 2014,27, 1–9. [谷歌学者]
Vu，L。；布依，C.T。；Nguyen，Q.U.一种基于深度学习的方法，用于处理网络流量分类中的不平衡问题。第八届信息与通信技术国际研讨会会议记录，2017年12月7日至8日，越南芽庄；第333–339页。[谷歌学者]
奥德纳，A。；奥拉，C。；Shlens，J.使用辅助分类器GAN的条件图像合成。《机器学习国际会议论文集》，2016年6月20日至22日，美国纽约州纽约市。[谷歌学者]
Arjovsky，M。；钦塔拉，S。；甘·瓦瑟斯坦（L.Wasserstein GAN Bottou）。arXiv公司 2017，arXiv:1701.07875。[谷歌学者]
Kim，J.Y。；布，S.J。；Cho，S.B.使用基于深度自动编码器的传输生成对抗网络进行零日恶意软件检测。信息科学。 2018,460, 83–102. [谷歌学者] [交叉参考]
林，Z。；Shi，Y。；Xue，Z.IDSGAN：针对入侵检测的攻击生成生成对抗网络。arXiv公司 2018，arXiv:1809.02077。[谷歌学者]
梅里诺，T。；Stillwell，M。；斯蒂尔，M。；科普兰，M。；巴顿，J。；斯托亚诺夫，A。；Deng，L.使用生成对抗网络从不平衡数据集扩展网络攻击数据。在软件工程研究、管理和应用; Lee，R.，编辑。；施普林格：瑞士查姆，2020年；第131-145页。[谷歌学者] [交叉参考]
沙赫里亚尔，M.H。；新泽西州哈克。；Rahman，文学硕士。；Alonso，J.M.G-IDS：生成性对抗网络辅助入侵检测系统。《2020年IEEE第44届计算机、软件和应用年会（COMPSAC）会议记录》，西班牙马德里，2020年7月13日至17日。[谷歌学者]
黄，S。；Lei，K.IGAN-IDS：Ad-hoc网络中入侵检测系统的非平衡生成对抗网络。特设网络。 2020,105, 102177. [谷歌学者] [交叉参考]
徐，L。；斯科拉里杜，M。；Cuesta-Infante，A。；Veeramachaneni，K.使用条件GAN建模表格数据。在神经信息处理系统研究进展; Wallach，H.、Larochelle，H.，Beygelzimer，A.、d'Alché-Buc，F.、Fox，E.、Garnett，R.编辑。；Curran Associates，Inc.：美国纽约州Red Hook，2019年；第32卷。[谷歌学者]
黄，H。；余，P.S。；Wang，C.生成对抗网图像合成导论。arXiv公司 2018，arXiv:1803.04469。[谷歌学者]
Jhamtani，H。；Berg-Kirkpatrick，T.使用生成性对抗网络模拟音乐生成中的自我重复。2019年6月15日，美国加利福尼亚州长滩市ICML机器学习音乐探索研讨会论文集。[谷歌学者]
拉杰斯瓦尔，S。；苏布拉马尼安，S。；Dutil，F。；Pal，C。；自然语言的对抗性生成。arXiv公司 2017，arXiv:1705.10929。[谷歌学者]
米尔扎，M。；Osindero，S.条件生成对抗网。计算。科学。 2014, 2672–2680. [谷歌学者]
Yahi，A。；Vanguri，R。；Elhadad，N。；Tatonetti，N.P.电子健康记录的生成对抗性网络：探索和评估药物诱导实验室测试轨迹预测方法的框架。arXiv公司 2017，arXiv:1712.00164。[谷歌学者]
Yu，L。；张伟。；Wang，J。；Yong，Y.SeqGAN：具有策略梯度的序列生成对抗网。2016年2月12日至17日，美国亚利桑那州凤凰城，AAAI人工智能会议记录。[谷歌学者]
Choi，E。；比斯瓦尔，S。；马林，B。；杜克·J。；Sun，J.使用生成对抗网络生成多标签离散患者记录。2017年8月18日至19日，美国马萨诸塞州波士顿，《医疗保健机器学习会议论文集》。[谷歌学者]
Lederrey，G。；Hillel，T。；Bierlaire，M.DATGAN：将专家知识整合到合成表格数据的深度学习中。arXiv公司 2022，arXiv:2203.03489。[谷歌学者]
德拉蒙德，C。；Holte，R.C4.5，《阶级失衡与成本敏感性：为什么欠采样胜过过采样》。2003年8月21日，美国华盛顿特区，学习不平衡数据集II研讨会论文集。[谷歌学者]

图1。GAN示意图。

图2。CTTGAN方案流程图。

图3。CTTGAN步骤流程图。

图4。使用三种机器学习算法的具有流量样本数的召回指标增长曲线。(一)MLP；(b)KNN；(c（c）)支持向量机。

图5。MLP识别算法中Bot和Web攻击暴力的实验结果。(一)召回；(b)精度；(c（c）)F1-芯。

图6。MLP识别算法中具有足够样本大小的四类流量的实验结果。(一)分布式拒绝服务；(b)拒绝服务GoldenEye；(c（c）)FTP-Patator；(d日)SSH-催化剂。

图6。MLP识别算法中具有足够样本大小的四类流量的实验结果。(一)分布式拒绝服务；(b)DoS GoldenEye；(c（c）)FTP-Patator；(d日)SSH-催化剂。

图7。比较实验的混淆矩阵。(一)原始数据；(b)过采样；(c（c）)欠采样；(d日)CTTGAN公司。

表1。数据集CIC-IDS2017概述。

日期	交通类别
星期一	温和的
星期二	BENIGN、FTP Parator、SSH Parator
星期三	贝宁、DoS绿巨人、DoS金眼、DoS慢猴、DoS慢速httptest、心跳
星期四	BENIGN、Web攻击暴力、Web攻击XSS、Web攻击Sql注入、渗透
星期五	BENIGN、PortScan、DDoS、Bot

表2。数据集CIC-IDS2017的类别和数量。

交通类别	数量	比例
温和的	2,260,360	80.33%
DoS绿巨人	229,198	8.15%
端口扫描	157,703	5.60%
分布式拒绝服务	127,082	4.52%
DoS黄金眼	10,289	0.37%
FTP-修补器	7894	0.28%
SSH-催化剂	5861	0.21%
DoS慢猴	5771	0.21%
DoS慢httptest	5485	0.19%
机器人程序	1943	0.07%
网络攻击暴力	1497	0.05%
Web攻击XSS	648	0.02%
渗透	34	0.0012%
Web攻击Sql注入	21	0.0007%
心跳加速	11	0.0004%

表3。下载网站、描述和使用的图书馆功能（2022年6月5日访问的所有网站链接）。

表3。下载网站、图书馆的描述和使用的功能（2022年6月5日访问的所有网络链接）。

图书馆	下载网站	描述	使用的函数
sklearn公司	https://scikit-learn.org	预测数据分析工具	混淆矩阵，列车测试分段，预处理， MLP分类器， Kneighbors分级器，SVC
特殊目的公司	https://github.com/sdv-dev/sdv	合成数据生成生态系统	CTGAN，评估
熊猫	https://pandas.pydata.org	数据分析和操作工具	读取csv，分解，数据帧
numpy公司	网址：https://numpy.org	科学计算包	诊断、总和、平均值
马特普洛特利布	https://matplotlib.org网站	全面的可视化库	pyplot图

表4。实验一中的数据量。

交通类别	数量
温和的	100,000
DoS绿巨人	10, 000
端口扫描	10,000
分布式拒绝服务	10,000
DoS黄金眼	10,000
FTP-修补器	7894
SSH-催化剂	5861
DoS慢猴	5771
DoS慢速http测试	5485
机器人程序	1943
网络攻击暴力	1497
Web攻击XSS	648
渗透	34
Web攻击Sql注入	21
心跳加速	11

表5。扩展数据集的标识结果。

数据类别	召回
数据类别	MLP公司	KNN公司	支持向量机
温和的	0.9904	0.9881	0.9682
DoS屏蔽	0.9980	0.9925	0.9015
端口扫描	0.9990	0.9590	0.9910
分布式拒绝服务	0.9980	0.9940	0.9350
DoS黄金眼	0.9980	0.9975	0.9730
FTP-修补器	0.9968	0.9987	0.9899
SSH-催化剂	0.9981	0.9949	0.9889
DoS慢猴	0.9913	0.9931	0.9671
DoS慢httptest	0.9909	0.9918	0.9854
机器人程序	0.9980	0.9960	0.9980
网络攻击暴力	0.9960	0.9960	1

注：红色表示CTTGAN方案中小类样本的召回指数，均在0.99以上。

表6。对比实验的实验结果。

数据类别	召回
数据类别	原始数据（金额）	过度采样（金额）	正在采样（金额）	CTTGAN公司（金额）
温和的	0.9864 (100,000)	0.9829 (100,000)	0.9433 (1500)	0.9904 (100,000)
DoS绿巨人	1.0000 (10,000)	0.9925 (10,000)	1.0000 (1500)	0.9980 (10,000)
端口扫描	0.9990 (10,000)	0.9990 (10,000)	1.0000 (1500)	0.9990 (10,000)
分布式拒绝服务	0.9975 (10,000)	0.9985 (10,000)	1.0000 (1500)	0.9980 (10,000)
DoS黄金眼	0.9990 (10,000)	0.9995 (10,000)	0.9967 (1500)	0.9980 (10,000)
FTP-修补器	0.9975 (7894)	0.9981 (7894)	0.9867 (1500)	0.9968 (7894)
SSH-催化剂	0.9906 (5861)	0.9915 (5861)	0.9933 (1500)	0.9881 (5861)
DoS慢猴	0.9922 (5771)	0.9931 (5771)	0.9900 (1500)	0.9913 (5771)
DoS慢httptest	0.9909 (5485)	0.9918 (5485)	0.9967 (1500)	0.9909 (5485)
机器人程序	0.7918 (1943)	0.9720 (5000)	0.9967 (1500)	0.9980(5000)
网络攻击暴力	0.9431 (1497)	0.9530 (5000)	0.9467 (1497)	0.9960(5000)

注：红色表示CTTGAN方案中小类样本的召回指数，均在0.99以上。

出版商备注：MDPI对公布的地图和机构关联中的管辖权主张保持中立。

分享和引用

MDPI和ACS样式

Wang，J。；严，X。；刘，L。；李，L。；Yu，Y。CTTGAN：基于条件GAN的交通数据合成方案。传感器 2022,22, 5243.https://doi.org/10.3390/s22145243

AMA风格

王杰、闫X、刘莉、李莉、于毅。CTTGAN：基于条件GAN的交通数据合成方案。传感器. 2022; 22(14):5243.https://doi.org/10.3390/s22145243

芝加哥/图拉宾风格

王家瑜、严雪虎、刘林涛、李龙龙和余永强。2022.“CTTGAN：基于条件GAN的交通数据合成方案”传感器22，第14期：5243。https://doi.org/10.3390/s22145243

请注意，从2016年第一期开始，该杂志使用文章编号而不是页码。查看更多详细信息在这里.

文章菜单