文件Zbl 1222.68079-zbMATH Open

安德烈·布拉特科;戈登·五·科马克。;博格丹·菲利皮奇;托马斯·勒纳姆。;布拉泽祖潘

使用统计数据压缩模型进行垃圾邮件过滤。（英语） Zbl 1222.68079号

J.马赫。学习。物件。 7, 2673-2698 (2006).

摘要：垃圾邮件过滤是文本分类中的一个特殊问题，其定义特征是过滤器面对的是一个主动的对手，该对手不断试图逃避过滤。由于垃圾邮件不断演变，大多数实际应用都是基于在线用户反馈的，因此该任务需要快速、，增量和鲁棒学习算法。本文研究了一种基于自适应统计数据压缩模型的垃圾邮件过滤新方法。这些模型的性质允许它们被用作基于字符级或二进制序列的概率文本分类器。通过将消息建模为序列，标记化和其他容易出错的预处理步骤被完全省略，从而产生了一种非常健壮的方法。模型的构建速度也很快，并且可以增量更新。我们评估了两种不同压缩算法的滤波性能；通过部分匹配进行动态马尔可夫压缩和预测。我们的实证评估结果表明，压缩模型的性能优于当前建立的垃圾邮件过滤器以及之前研究中提出的一些方法。

引用于2文件

理学硕士：

68页30	编码和信息理论（压缩、压缩、通信模型、编码方案等）（计算机科学方面）
62M20型	随机过程的推断与预测

关键词：

文本分类;垃圾邮件过滤;马尔可夫模型;动态马尔可夫压缩;部分匹配预测

软件：

SVM灯

PDF格式 BibTeX公司 XML格式引用

全文：链接

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
ab公司	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文件类型(j个：期刊文章；b条：book；一：图书文章）

一&b条	逻辑和
一\|b条	逻辑或
!ab公司	逻辑不
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

领域

操作员

使用统计数据压缩模型进行垃圾邮件过滤。（英语） Zbl 1222.68079号

理学硕士：

关键词：

软件：

示例

领域

操作员

使用统计数据压缩模型进行垃圾邮件过滤。 （英语） Zbl 1222.68079号

理学硕士：

关键词：

软件：

使用统计数据压缩模型进行垃圾邮件过滤。（英语） Zbl 1222.68079号