安德烈·布拉特科;戈登·五·科马克。;博格丹·菲利皮奇;托马斯·勒纳姆。;布拉泽祖潘 使用统计数据压缩模型进行垃圾邮件过滤。 (英语) Zbl 1222.68079号 J.马赫。学习。物件。 7, 2673-2698 (2006). 摘要:垃圾邮件过滤是文本分类中的一个特殊问题,其定义特征是过滤器面对的是一个主动的对手,该对手不断试图逃避过滤。由于垃圾邮件不断演变,大多数实际应用都是基于在线用户反馈的,因此该任务需要快速、,增量和鲁棒学习算法。本文研究了一种基于自适应统计数据压缩模型的垃圾邮件过滤新方法。这些模型的性质允许它们被用作基于字符级或二进制序列的概率文本分类器。通过将消息建模为序列,标记化和其他容易出错的预处理步骤被完全省略,从而产生了一种非常健壮的方法。模型的构建速度也很快,并且可以增量更新。我们评估了两种不同压缩算法的滤波性能;通过部分匹配进行动态马尔可夫压缩和预测。我们的实证评估结果表明,压缩模型的性能优于当前建立的垃圾邮件过滤器以及之前研究中提出的一些方法。 引用于2文件 理学硕士: 68页30 编码和信息理论(压缩、压缩、通信模型、编码方案等)(计算机科学方面) 62M20型 随机过程的推断与预测 关键词:文本分类;垃圾邮件过滤;马尔可夫模型;动态马尔可夫压缩;部分匹配预测 软件:SVM灯 PDF格式BibTeX公司 XML格式引用 \textit{A.Bratko}等人,J.Mach。学习。第7号决议,2673--2698(2006年;Zbl 1222.68079) 全文: 链接