基于深度学习可视化的恶意软件家族分类

doi:10.3778/j.issn.1002-8331.2007-0291

摘要/摘要

摘要：

计算机网络技术的快速发展，导致恶意软件数量不断增加。针对恶意软件家族分类问题，提出一种基于深度学习可视化的恶意软件家族分类方法。该方法采用恶意软件操作码特征图像生成的方式，将恶意软件操作码转化为可直视的灰度图像。使用递归神经网络处理操作码序列，不仅考虑了恶意软件的原始信息，还考虑了将原始代码与时序特征相关联的能力，增强分类特征的信息密度。利用SimHash公司将原始编码与递归神经网络的预测编码融合，生成特征图像。基于相同族的恶意代码图像比不同族的具有更明显相似性的现象，针对传统分类模型无法解决自动提取分类特征的问题，使用卷积神经网络对特征图像进行分类。实验部分使用10?868个样本（包含9个恶意家族）对深度学习可视化进行有效性验证，分类精度达到98.8%，且能够获得有效的、信息增强的分类特征。

关键词: 恶意软件家族, 恶意代码可视化, 递归神经网络（RNN），卷积神经网络（美国有线电视新闻网）， SimHash公司

摘要：

计算机网络技术的快速发展导致了恶意软件的数量不断增加。针对恶意软件家族分类问题，提出了一种基于深度学习可视化的恶意软件家族划分方法。在这种方法中，恶意软件操作码被转换为可以直接查看的灰色图像。通过使用递归神经网络（RNN）处理操作码序列，本文不仅考虑了恶意软件的原始信息，还考虑了将原始代码与时序特征相关联的能力，从而提高了分类特征的信息密度。然后，使用SimHash将原始代码与RNN中的预测代码进行融合，生成特征图像。最后，基于同一系列的恶意代码图像比基于不同系列的更相似。传统的分类模型无法完成分类特征的自动提取。为了解决这个问题，本文使用卷积神经网络（CNN）对特征图像进行分类。该方法已在9个家族的10868个恶意软件实例上实现和测试，分类准确率达到98.8%，能够获得有效的增强信息的分类特征。

关键词： 恶意软件家族，恶意代码可视化，递归神经网络（RNN），卷积神经网络（CNN）， SimHash公司

陈小寒，魏书宁，覃正泽. 基于深度学习可视化的恶意软件家族分类[J] ●●●●。计算机工程与应用, 2021, 57(22): 131-138.

陈晓翰、魏顺宁、秦正泽。基于深度学习可视化的恶意软件族分类[J]。计算机工程与应用，2021，57（22）：131-138。

参考文献

[1] Rad帽子。什么是恶意软件?[EB/OL]。（2019-01-12）[2020-04-24].https://www.redhat.com/zh/topics/security/what-is-malware。
Rad帽子。什么是恶意软件？[EB/OL]。（2019-01-12）[2020-04-24].https://www.redhat.com/zh/topics/security/what-is-malware。
[2] 国家互联网应急中心.网络安全信息与动态周报[EB/OL]。（2020-04-23）[2020-04-24].https://www.cert.org.cn/publish/main/44/2020/202004231516189661418/2020 0423151618
969661418_.html。
国家计算机网络应急响应技术团队/中国协调中心。网络安全信息和趋势周报[EB/OL]。（2020-04-23）[2020-04-24].https://www.cert.org.cn/publish/main/44/2020/20200423151618969661418/202004231516188661418_.html。
[3] 金炳初，文辉，石志强，等.基于行为路径树的恶意软件分类方法[J] ●●●●。计算机工程与应用，2020，56（11）：98-104.
金碧C，温赫，史志强，等.基于行为路径树的恶意软件分类方法[J]。计算机工程与应用，2020,56（11）：98-104。
[4] 陈志锋，李清宝，张平，等.基于数据特征的内核恶意软件检测[J] .报告，2016,27（12）：3172-3191。
陈振发，李秋波，张鹏，等.基于数据特征的内核恶意软件检测[J]。软件期刊，2016，27（12）：3172-3191。
[5] 郭敏，曾颖明，姚金利，等.基于大数据样本的软件行为安全分析[J] ●●●●。信息网络安全，2017，17（9）：153-156.
郭明，曾义明，姚建林，等.基于大数据样本的软件行为安全分析[J]。Netinfo Security，2017,17（9）：153-156。
[6] 陈琪，蒋国平，夏玲玲.基于静态结构的恶意代码同源性分析[J] ●●●●。计算机工程与应用，2017，53（14）：93-98.
陈奇，姜国平，夏磊.基于功能结构的恶意软件同源性分析[J]。计算机工程与应用，2017,53（14）：93-98。
[7] NATARAJ L，KARTHIKEYAN S，JACOB G，et al.恶意软件图像：可视化与自动分类[C]//8国际网络安全可视化研讨会，匹兹堡，2011年7月20日.纽约：ACM，2011:21-29。
[8] 冯胥睿瑞，刘嘉勇，程芃森.基于特征提取的恶意软件行为及能力分析方法研究[J] ●●●●。信息网络安全，2019，19（12）：72-78.
FENG X R R，LIU J Y，CHENG P G.基于特征提取的恶意软件行为和功能相关文本分析[J]。Netinfo Security，2019,19（12）：72-78。
[9] TOBIYAMA S，YAMAGUCHI Y，SHIMADA H，et al.使用过程行为的深度神经网络恶意软件检测[C]//IEEE第40届计算机软件和应用年会，亚特兰大，2016年6月10日至14日。皮斯卡塔韦：IEEE，2016:577-582。
[10] 孙国顺，泉清.识别恶意软件家族的深度学习和可视化[J]。IEEE可靠和安全计算汇刊，2021,18（1）：283-295。
[11] 韩克生，林俊华，康波，等。基于可视化图像和熵图的恶意软件分析[J]。国际信息安全杂志，2015,14（1）：1-14。
[12] 刘亚姝，王志海，侯跃然，等.信息密度增强的恶意代码可视化与自动分类方法[J] .执行报告(自然科学版），2019，59（1）：9-14.
刘永生，王振华，HOU Y R，等.增强信息密度的恶意软件可视化与自动分类[J]。清华大学学报（科技版），2019,59（1）：9-14。
[13] KOLOSNJAJI B，ZARRAS A，WEBSTER G，et al.恶意软件系统调用序列分类的深度学习[C]//LNCS 9992:澳大利亚人工智能联合会议，2016年11月29日。Cham:Springer，2016:137-149。
[14] 赵炳麟，孟曦，韩金，等.基于图结构的恶意代码同源性分析[J] 《通信报》，2017,38（S2）：86-93。
赵伯乐，孟X，韩杰，等。基于图的恶意软件同源性分析[J]。通讯杂志，2017,38（S2）：86-93。
[15] 赵永中，徐春英，鲍波，等。MalDeep：基于纹理可视化的恶意软件变体深度学习分类框架[J]。安全与通信网络，2019（8）：1-11。
[16] 张弛弘，辛阳.基于灰度图的恶意软件检测方法研究[EB/OL]。（2019-12-30）【2020-04-24】http://www.paper.edu.cn/releasepaper/content/201912-125。
张春华，辛毅。基于灰度图像的恶意软件分类研究[EB/OL]。（2019-12-30）[2020-04-24].http://www.paper.edu.cn/releasepaper/content/201912-125。
[17] PASCANU R，STOKES J W，SANOSSIAN H，等.基于递归网络的恶意软件分类[C]//2015 IEEE国际声学会议，布里斯班，2015年4月19日至24日。皮斯卡塔韦：IEEE，2015:1916-1920。
[18] EUI C R S，DAWN S，REZA M.用神经网络识别二进制函数[C]//24届USENIX安全研讨会，华盛顿，2015年8月12日至14日。伯克利：USENIX，2015:611-626。
[19] TOBIYAMA S，YAMAGUCHI Y，SHIMADA H，et al.使用过程行为的深度神经网络恶意软件检测[C]//2016 IEEE第40届计算机软件和应用年会，亚特兰大，2016年6月10日至14日。皮斯卡塔韦：IEEE，2016:577-582。
[20] UDDIN M S，ROY C K，SCHNEIDER K A，等.simHash在大规模软件系统中检测近缺失克隆的有效性[C]//第18届逆向工程工作会议，利默里克，2011年10月17日至20日。皮斯卡塔韦：IEEE，2011:13-22。
[21] 乔延臣.恶意代码同源判断技术研究[D] ●●●●。北京：中国科学院大学，2016
乔玉C.恶意代码同源性判断技术研究[D]。北京：中国科学院大学，2016年。
[22]卡格尔。Microsoft恶意软件分类挑战（big2015）
[DB/OL]。（2015）[2020-04-24].https://www.kaggle.com/c/malware-classification/datxiu。