×

一种用于文本分类的分割信息理论特征聚类算法。 (英语) Zbl 1102.68545号

摘要:文本的高维性可能会阻碍将支持向量机等复杂学习器应用于文本分类任务。为了降低文本数据的维数,特征聚类是特征选择的有力替代方法。在本文中,我们提出了一种新的特征/词聚类的信息论分裂算法,并将其应用于文本分类。现有的词汇“分布聚类”技术本质上是聚合的,导致(i)次优的词汇聚类和(ii)高计算成本。为了在信息论框架中明确地捕获词簇的最优性,我们首先导出了特征聚类的全局准则。然后,我们提出了一种快速的除法算法,单调地降低这个目标函数值。我们证明了我们的算法最小化了“簇内Jensen-Shannon散度”,同时最大化了“簇间Jensen_Shannon散度”。与之前提出的聚合策略相比,我们的除法算法更快,并且达到了相当或更高的分类精度。我们进一步表明,特征聚类是在层次分类中构建小类模型的有效技术。我们使用朴素贝叶斯和支持向量机对20个新闻组数据集和从开放目录项目(www.dmoz.org)收集的HTML文档的3级层次结构提供了详细的实验结果。

理学硕士:

68T05型 人工智能中的学习和自适应系统
68吨10 模式识别、语音识别
94甲17 信息的度量,熵
PDF格式BibTeX公司 XML格式引用
全文: 内政部