CTTGAN:基于条件GAN的交通数据合成方案
摘要
1.简介
我们提出了CTTGAN方案来扩展交通数据集中的小类别样本。 扩容后,各项指标均得到改善,效果稳定。 在交通数据合成领域,我们的研究重点是一维表格特征数据,而不是图像数据,这些数据适用于机器学习模型,大大降低了存储和计算成本。 该方案采用CTGAN模型,当同时处理交通数据中的离散变量和连续变量时,可以获得更好的结果。
2.前期工作
2.1. GAN和条件GAN
2.2. 生成表格数据中的GAN
2.3. 条件表格GAN(CTGAN)
3.建议方案
3.1. 设计理念
3.2. 方案流程
3.3. 方案步骤
|
4.实验结果
4.1. 数据集描述
4.2. 评价指标
4.3. 实验平台配置
4.4. 实验结果与分析
4.4.1. 原始数据的识别结果
4.4.2. CTTGAN膨胀后的鉴定结果
4.4.3. 比较实验
4.4.4. 讨论和分析
5.结论
作者贡献
基金
机构审查委员会声明
知情同意书
数据可用性声明
利益冲突
工具书类
张杰。; 肖,C。; 杨,X。; 周,W。; Jie,W.稳健的网络流量分类。 IEEE/ACM传输。 Netw公司。 2015 , 23 , 1257–1270. [ 谷歌学者 ] [ 交叉参考 ] Park,J.S。; Yoon,S.H.公司。; Kim,M.S.使用应用程序流量时间局部性改进基于有效载荷特征的流量分类系统的性能。 2013年9月25日至27日在日本广岛举行的2013年第15届亚太网络运营与管理研讨会(APNOMS)会议记录。 [ 谷歌学者 ] Lee,S.H。; Park,J.S。; Yoon,S.H。; Kim,M.S.高性能有效载荷基于签名的互联网流量分类系统。 2015年8月19日至21日,韩国釜山,第17届亚太网络运营与管理研讨会(APNOMS)会议记录。 [ 谷歌学者 ] 德卢西亚,M.J。; Cotton,C.使用机器学习检测加密的恶意网络流量。 2019年11月12日至14日在美国弗吉尼亚州诺福克举行的2019-2019年IEEE军事通信会议(MILCOM)会议记录; 第1-6页。 [ 谷歌学者 ] [ 交叉参考 ] Shekhawat,A.S。; 特洛伊亚,F.D。; Stamp,M.加密恶意流量的特征分析。 专家系统。 申请。 2019 , 125 , 130–141. [ 谷歌学者 ] [ 交叉参考 ] 马·R。; 秦,S.基于深度学习的未知协议流量识别。 2017年12月13日至16日,中国成都,2017年第三届IEEE国际计算机与通信会议(ICCC)会议记录。 [ 谷歌学者 ] 刘,Z。; 李,S。; Zhang,Y。; 云,X。; Cheng,Z.利用生成性对抗网络对恶意软件发起的流量进行有效分类。 2020年IEEE计算机与通信研讨会(ISCC)会议记录,法国雷恩,2020年7月7日至10日。 [ 谷歌学者 ] Dong,S。; 夏,Y。; Peng,T.基于生成对抗深度卷积网络的流量识别模型。 安。电信公司。 2021 . [ 谷歌学者 ] [ 交叉参考 ] 他,M。; 王,X。; 周,J。; Xi,Y。; Wang,X.基于深度特征的自动编码器网络,用于少量恶意流量检测。 安全。 Commun公司。 Netw公司。 2021 , 2021 , 6659022. [ 谷歌学者 ] [ 交叉参考 ] 钟,Y。; Chen,W。; 王,Z。; 陈,Y。; Li,K.HELAD:基于异构集成学习的新型网络异常检测模型。 计算。 Netw公司。 2019 , 169 , 107049. [ 谷歌学者 ] [ 交叉参考 ] Telikani,A。; A.H.甘多米。; Choo,K.K.R.公司。; Shen,J.一种基于成本敏感的深度学习的网络流量分类方法。 IEEE传输。 Netw公司。 服务。 管理。 2022 , 19 , 661–670. [ 谷歌学者 ] [ 交叉参考 ] 顾,X。; Angelov,P.P。; Soares,E.非平衡分类的自适应合成过采样技术。 《国际情报杂志》。 系统。 2019 , 35 , 923–943. [ 谷歌学者 ] [ 交叉参考 ] 彭,M。; 齐,Z。; Xing,X。; 陶,G。; Huang,X.针对班级不平衡学习的可训练的欠采样。 程序。 AAAI Conf.Artif.公司。 智力。 2019 , 33 , 4707–4714. [ 谷歌学者 ] [ 交叉参考 ] [ 绿色版本 ] 新墨西哥州查拉。; K.W.鲍耶。; 洛杉矶霍尔。; Kegelmeyer,W.P.SMOTE:合成少数过采样技术。 J.阿蒂夫。 智力。 物件。 2002 , 16 , 321–357. [ 谷歌学者 ] [ 交叉参考 ] 钱,Y。; Min,Z.基于过采样技术的P2P流量识别。 电信通信。 科学。 2014 , 30 , 109–113. [ 谷歌学者 ] Yan,B.H。; Han,G.D。; 黄,Y.J。; Yu,X.L.DPCS2017+41+一种基于不平衡数据的新型流量分类方法。 J.计算。 申请。 2017 . [ 谷歌学者 ] 古德费罗,I。; Pouget-Abadie,J。; 米尔扎,M。; 徐,B。; Warde-Farley,D。; Ozair,S。; 科尔维尔,A。; 本吉奥,Y.Generative Adversarial Nets。 神经信息处理。 系统。 2014 , 27 , 1–9. [ 谷歌学者 ] Vu,L。; 布依,C.T。; Nguyen,Q.U.一种基于深度学习的方法,用于处理网络流量分类中的不平衡问题。 第八届信息与通信技术国际研讨会会议记录,2017年12月7日至8日,越南芽庄; 第333–339页。 [ 谷歌学者 ] 奥德纳,A。; 奥拉,C。; Shlens,J.使用辅助分类器GAN的条件图像合成。 《机器学习国际会议论文集》,2016年6月20日至22日,美国纽约州纽约市。 [ 谷歌学者 ] Arjovsky,M。; 钦塔拉,S。; 甘·瓦瑟斯坦(L.Wasserstein GAN Bottou)。 arXiv公司 2017 ,arXiv:1701.07875。 [ 谷歌学者 ] Kim,J.Y。; 布,S.J。; Cho,S.B.使用基于深度自动编码器的传输生成对抗网络进行零日恶意软件检测。 信息科学。 2018 , 460 , 83–102. [ 谷歌学者 ] [ 交叉参考 ] 林,Z。; Shi,Y。; Xue,Z.IDSGAN:针对入侵检测的攻击生成生成对抗网络。 arXiv公司 2018 ,arXiv:1809.02077。 [ 谷歌学者 ] 梅里诺,T。; Stillwell,M。; 斯蒂尔,M。; 科普兰,M。; 巴顿,J。; 斯托亚诺夫,A。; Deng,L.使用生成对抗网络从不平衡数据集扩展网络攻击数据。 在 软件工程研究、管理和应用 ; Lee,R.,编辑。; 施普林格:瑞士查姆,2020年; 第131-145页。 [ 谷歌学者 ] [ 交叉参考 ] 沙赫里亚尔,M.H。; 新泽西州哈克。; Rahman,文学硕士。; Alonso,J.M.G-IDS:生成性对抗网络辅助入侵检测系统。 《2020年IEEE第44届计算机、软件和应用年会(COMPSAC)会议记录》,西班牙马德里,2020年7月13日至17日。 [ 谷歌学者 ] 黄,S。; Lei,K.IGAN-IDS:Ad-hoc网络中入侵检测系统的非平衡生成对抗网络。 特设网络。 2020 , 105 , 102177. [ 谷歌学者 ] [ 交叉参考 ] 徐,L。; 斯科拉里杜,M。; Cuesta-Infante,A。; Veeramachaneni,K.使用条件GAN建模表格数据。 在 神经信息处理系统研究进展 ; Wallach,H.、Larochelle,H.,Beygelzimer,A.、d'Alché-Buc,F.、Fox,E.、Garnett,R.编辑。; Curran Associates,Inc.:美国纽约州Red Hook,2019年; 第32卷。 [ 谷歌学者 ] 黄,H。; 余,P.S。; Wang,C.生成对抗网图像合成导论。 arXiv公司 2018 ,arXiv:1803.04469。 [ 谷歌学者 ] Jhamtani,H。; Berg-Kirkpatrick,T.使用生成性对抗网络模拟音乐生成中的自我重复。 2019年6月15日,美国加利福尼亚州长滩市ICML机器学习音乐探索研讨会论文集。 [ 谷歌学者 ] 拉杰斯瓦尔,S。; 苏布拉马尼安,S。; Dutil,F。; Pal,C。; 自然语言的对抗性生成。 arXiv公司 2017 ,arXiv:1705.10929。 [ 谷歌学者 ] 米尔扎,M。; Osindero,S.条件生成对抗网。 计算。 科学。 2014 , 2672–2680. [ 谷歌学者 ] Yahi,A。; Vanguri,R。; Elhadad,N。; Tatonetti,N.P.电子健康记录的生成对抗性网络:探索和评估药物诱导实验室测试轨迹预测方法的框架。 arXiv公司 2017 ,arXiv:1712.00164。 [ 谷歌学者 ] Yu,L。; 张伟。; Wang,J。; Yong,Y.SeqGAN:具有策略梯度的序列生成对抗网。 2016年2月12日至17日,美国亚利桑那州凤凰城,AAAI人工智能会议记录。 [ 谷歌学者 ] Choi,E。; 比斯瓦尔,S。; 马林,B。; 杜克·J。; Sun,J.使用生成对抗网络生成多标签离散患者记录。 2017年8月18日至19日,美国马萨诸塞州波士顿,《医疗保健机器学习会议论文集》。 [ 谷歌学者 ] Lederrey,G。; Hillel,T。; Bierlaire,M.DATGAN:将专家知识整合到合成表格数据的深度学习中。 arXiv公司 2022 ,arXiv:2203.03489。 [ 谷歌学者 ] 德拉蒙德,C。; Holte,R.C4.5,《阶级失衡与成本敏感性:为什么欠采样胜过过采样》。 2003年8月21日,美国华盛顿特区,学习不平衡数据集II研讨会论文集。 [ 谷歌学者 ]