蔡,D.迈克尔;玛雅·戈哈勒;詹姆斯·泰勒 特征选择和分类算法在识别恶意可执行文件中的比较。 (英语) Zbl 1161.62459号 计算。统计数据分析。 51,第6号,3156-3172(2007). 摘要:恶意可执行文件通常以电子邮件附件的形式传播,对计算机系统和相关网络造成严重的安全威胁。我们研究了使用字节序列频率自动区分恶意和良性可执行文件而不实际执行它们的方法。在一系列实验中,我们比较了七种特征选择方法、四种分类算法和可变字节序列长度的分类精度。我们发现,单字节模式提供了令人惊讶的可靠特性,可以将恶意可执行文件与良性可执行文件分开。在分类器和特征选择方法之间,模型的整体性能更多地取决于分类器的选择,而不是特征选择方法。支持向量机(SVM)分类器在预测精度、训练时间和避免过拟合方面表现出优越性。 引用于2文件 MSC公司: 62页99 统计学的应用 90B18号机组 运筹学中的通信网络 68米10 计算机系统中的网络设计和通信 62H30型 分类和歧视;聚类分析(统计方面) 68T05型 人工智能中的学习和自适应系统 关键词:特征选择;支持向量机;朴素贝叶斯分类器;恶意可执行文件;电子邮件筛选 软件:利比亚支持向量机;SVM灯 PDF格式BibTeX公司 XML格式引用 \textit{D.M.Cai}等人,计算。统计数据分析。51,第6号,3156--3172(2007;Zbl 1161.62459) 全文: 内政部 参考文献: [1] Arnold,W.,Tesauro,G.,2000年。自动生成的Win32启发式病毒检测。2000年国际病毒通报会议记录。;Arnold,W.,Tesauro,G.,2000年。自动生成的Win32启发式病毒检测。2000年国际病毒通报会议记录。 [2] Burges,C.J.C.,模式识别、数据挖掘和知识发现支持向量机教程,121-167(1998) [3] Chang,C.-C.,Lin,C.-J.,\(2001年。LIBSVM语言;)网址:http://www.csie.ntu.edu.tw/\(\sim;\rangle;\);Chang,C.-C.,Lin,C.-J.,\(2001年。LIBSVM语言;)网址:http://www.csie.ntu.edu.tw/\(\sim;\rangle;\) [4] Cohen,F.,《完整性保护的密码校验和》,《计算机与安全》,6505-510(1987) [5] 科尔特斯,C。;Vapnik,V.,支持向量网络,机器学习,20,273-297(1995)·Zbl 0831.68098号 [6] Crawford,R.、Lo,R.,Crossley,J.、Fink,G.、Kerchen,P.、Ho,W.、Levitt,K.、Olsson,R.和Archer,M.,1991年。恶意代码检测的测试平台:静态和动态分析技术的综合。能源部计算机安全小组会议记录,第17卷,第1-23页。;Crawford,R.、Lo,R.,Crossley,J.、Fink,G.、Kerchen,P.、Ho,W.、Levitt,K.、Olsson,R.和Archer,M.,1991年。恶意代码检测的试验台:静态和动态分析技术的综合。《能源部计算机安全小组会议记录》,第17卷,第1-23页。 [7] 克罗克,S.,波佐,M.M.,1989年。对恶意代码检测进行验证的建议。IEEE计算机学会安全与隐私研讨会论文集,第319-324页。;克罗克,S.,波佐,M.M.,1989年。对恶意代码检测进行验证的建议。IEEE计算机学会安全与隐私研讨会论文集,第319-324页。 [8] Dumais,S.、Platt,J.、Heckeman,D.、Sahami,M.,1998年。文本分类的归纳学习算法和表示。《第七届信息检索和知识管理国际会议记录》(ACM-CIKM-98),第148-155页。;Dumais,S.、Platt,J.、Heckeman,D.、Sahami,M.,1998年。文本分类的归纳学习算法和表示。《第七届信息检索和知识管理国际会议记录》(ACM-CIKM-98),第148-155页。 [9] Forman,G.,《文本分类特征选择度量的广泛实证研究》,J.Mach。学习。第3号决议,1289-1306(2003年)·Zbl 1102.68553号 [10] Joachimes,T.,《使大规模SVM学习实用化》(Schölkopf,B.;Burges,C.J.C.;Smola,A.J.,《内核方法的进展——支持向量学习》(1998),麻省理工学院出版社:麻省理学学院出版社剑桥,MA)·Zbl 0935.68084号 [11] Joachimes,T.,1998年b。使用支持向量机进行文本分类:使用许多相关功能进行学习。欧洲机器学习会议(ECML),第137-142页。;Joachimes,T.,1998年b。使用支持向量机进行文本分类:使用许多相关功能进行学习。欧洲机器学习会议(ECML),第137-142页。 [12] Keerthi,S.S。;Shevade,S.K。;巴塔查里亚,C。;Murthy,K.R.K.,对支持向量机分类器设计的Platt SMO算法的改进,神经计算。,13, 637-649 (2001) ·Zbl 1085.68629号 [13] Kephart,J.O.,Arnold,W.C.,1994年。自动提取计算机病毒特征。第四届国际病毒通报会议记录,第179-194页。;Kephart,J.O.,Arnold,W.C.,1994年。计算机病毒特征的自动提取。第四届国际病毒通报会议记录,第179-194页。 [14] Kohavi,R。;John,G.H.,特征子集选择的包装器,人工智能,97273-324(1997)·Zbl 0904.68143号 [15] Kolter,J.Z.,Maloof,M.A.,2004年。学习在野外检测恶意可执行文件。KDD’04,第470-478页。;Kolter,J.Z.,Maloof,M.A.,2004年。学习在野外检测恶意可执行文件。KDD'04,第470-478页·Zbl 1222.68236号 [16] Lee,W.,Stolfo,S.,Mok,K.,1999年。用于构建入侵检测模型的数据挖掘框架。IEEE安全与隐私研讨会,第120-132页。;Lee,W.,Stolfo,S.,Mok,K.,1999年。用于构建入侵检测模型的数据挖掘框架。IEEE安全与隐私研讨会,第120-132页。 [17] Lewis,D.,1992年。文本分类任务中短语和聚类表示的评估。第十五届ACM SIGER国际信息检索研究与开发年会,哥本哈根,第37-50页。;Lewis,D.,1992年。文本分类任务中短语和聚类表示的评估。第15届ACM SIGER国际信息检索研究与开发年会,哥本哈根,第37-50页。 [18] Lewis,D.,Ringuette,M.,1994年。文本分类的两种学习算法的比较。第三届文献分析和信息检索年度研讨会论文集(SDAIR’94),第82-93页。;Lewis,D.,Ringuette,M.,1994年。文本分类的两种学习算法的比较。第三届文献分析和信息检索年度研讨会论文集(SDAIR’94),第82-93页。 [19] Lo,R.、Kerchen,P.、Crawford,R.,Ho,W.、Crossley,J.、Fink,G.、Levitt,K.、Olsson,R.和Archer,M.,1991年。朝向恶意代码检测的测试台。IEEE计算机学会国际会议,第160-166页。;Lo,R.、Kerchen,P.、Crawford,R.,Ho,W.、Crossley,J.、Fink,G.、Levitt,K.、Olsson,R.和Archer,M.,1991年。朝向恶意代码检测的测试台。IEEE计算机学会国际会议,第160-166页。 [20] Lo,R。;莱维特,K。;Olsson,R.A.,MCF:恶意代码过滤器,计算。安全,14541-566(1995) [21] McCallum,A.,Nigam,K.,1998年。Naıve Bayes文本分类的事件模型比较。AAAI-98文本分类学习研讨会。;McCallum,A.,Nigam,K.,1998年。Na¨ve Bayes文本分类事件模型的比较。AAAI-98文本分类学习研讨会。 [22] 麦凯,D.J.C.,《信息理论、推理和学习算法》(2003),剑桥大学出版社:剑桥大学出版社,马萨诸塞州剑桥·Zbl 1055.94001号 [23] Platt,J.C.,《使用序列最小优化快速训练支持向量机》(Schölkopf,B.;Burges,C.J.C.;Smola,A.J.,《内核方法的进展——支持向量学习》(1998),麻省理工学院出版社:麻省理学学院出版社剑桥,MA)·兹比尔0935.68084 [24] M.G.舒尔茨、E.埃斯金、E.扎多克、S.J.斯托尔福,2001a。用于检测新恶意可执行文件的数据挖掘方法。IEEE安全与隐私研讨会论文集,加利福尼亚州奥克兰。;M.G.舒尔茨、E.埃斯金、E.扎多克、S.J.斯托尔福,2001a。用于检测新恶意可执行文件的数据挖掘方法。IEEE安全与隐私研讨会论文集,加利福尼亚州奥克兰。 [25] M.G.Schultz、E.Eskin、S.J.Stolfo,2001b。恶意电子邮件过滤器—检测恶意windows可执行文件的UNIX邮件过滤器。USENIX年度技术会议记录-FREENIX Track,马萨诸塞州波士顿。;M.G.Schultz、E.Eskin、S.J.Stolfo,2001b。恶意电子邮件过滤器—检测恶意windows可执行文件的UNIX邮件过滤器。USENIX年度技术会议记录-FREENIX Track,马萨诸塞州波士顿。 [26] Tesauro,G。;Kephart,J.O。;Sorkin,G.B.,计算机病毒识别的神经网络,IEEE专家,11,5-6(1996) [27] Vapnik,V.,《统计学习理论》(1998),威利出版社:威利纽约·Zbl 0935.62007号 [28] Wang,J.-H.,Deng,P.S.,Fan,Y.-S.,Jaw,L.-J.,Liu,Y.-C.,2003年。使用数据挖掘技术进行病毒检测。IEEE年度国际卡纳汉安全技术会议,第71-77页。;Wang,J.-H.,Deng,P.S.,Fan,Y.-S.,Jaw,L.-J.,Liu,Y.-C.,2003年。使用数据挖掘技术进行病毒检测。IEEE年度国际卡纳汉安全技术会议,第71-77页。 [29] Yang,Y.,Ghani,R.,2002年。超文本分类方法研究。J.智能通知。系统18(2/3),219-241。;Yang,Y.,Ghani,R.,2002年。超文本分类方法研究。J.智能信息。系统18(2/3),219-241。 [30] Yang,Y.Y.,Liu,X.,1999年。重新检查文本分类方法。ACM SIGIR信息检索研究与开发会议记录(SIGIR’99),第42-49页。;Yang,Y.Y.,Liu,X.,1999年。重新检查文本分类方法。ACM SIGIR信息检索研究与开发会议记录(SIGIR’99),第42-49页。 [31] Yang,Y.,Pedersen,J.O.,1997年。文本分类中特征选择的比较研究。第十四届机器学习国际会议记录(ICML'97),第412-420页。;Yang,Y.,Pedersen,J.O.,1997年。文本分类中特征选择的比较研究。《第十四届国际机器学习会议记录》(ICML'97),第412-420页。 此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。