Learning to Detect and Classify Malicious Executables in the Wild

J. Zico Kolter; Marcus A. Maloof

我们描述了使用机器学习和数据挖掘来当恶意可执行文件在野外出现时，对其进行检测和分类。我们收集了1971个良性可执行文件和1651个恶意可执行文件，并对其进行编码每个都作为一个训练示例，使用n个-字节码的克数作为特征。此类处理导致超过2.55亿n个-克。选择最相关的n个-克用于预测，我们评估了各种归纳方法，包括朴素贝叶斯，决策树、支持向量机和boosting。最终，增强的决策树优于其他方法下面有一个区域世界车王争霸赛曲线0.996。结果表明，我们的方法将扩展到更大的集合可执行文件的数量。我们还评估了基于可执行文件的方法分类的好坏有效载荷的功能，例如打开后门和大众健身。以下区域世界车王争霸赛有效载荷功能检测曲线接近0.9，小于检测任务。然而，我们将这种表现的下降归因于较少的培训实例以及获得适当标记的实例的挑战，而不是方法的失败或固有的困难分类任务的。最后，我们将检测器应用于291个恶意可执行文件在我们收集原始收藏品后发现，并且增强的决策树在以下方面达到了0.98的真阳性率理想的假阳性率为0.05。这一结果尤其重要，因为它表明方法可以用作操作系统的基础用于检测以前未发现的恶意可执行文件。

学习在野外检测和分类恶意可执行文件

摘要