文件Zbl 1102.68545-zbMATH Open

迪尔隆（Dhillon，Inderjit S.）。;苏布拉马尼亚姆·马利拉;拉胡尔·库马尔

一种用于文本分类的分割信息理论特征聚类算法。（英语） Zbl 1102.68545号

J.马赫。学习。物件。 3，第7-8号，1265-1287（2003）.

摘要：文本的高维性可能会阻碍将支持向量机等复杂学习器应用于文本分类任务。为了降低文本数据的维数，特征聚类是特征选择的有力替代方法。在本文中，我们提出了一种新的特征/词聚类的信息论分裂算法，并将其应用于文本分类。现有的词汇“分布聚类”技术本质上是聚合的，导致（i）次优的词汇聚类和（ii）高计算成本。为了在信息论框架中明确地捕获词簇的最优性，我们首先导出了特征聚类的全局准则。然后，我们提出了一种快速的除法算法，单调地降低这个目标函数值。我们证明了我们的算法最小化了“簇内Jensen-Shannon散度”，同时最大化了“簇间Jensen_Shannon散度”。与之前提出的聚合策略相比，我们的除法算法更快，并且达到了相当或更高的分类精度。我们进一步表明，特征聚类是在层次分类中构建小类模型的有效技术。我们使用朴素贝叶斯和支持向量机对20个新闻组数据集和从开放目录项目（www.dmoz.org）收集的HTML文档的3级层次结构提供了详细的实验结果。

引用于22文件

理学硕士：

68T05型	人工智能中的学习和自适应系统
68吨10	模式识别、语音识别
94甲17	信息的度量，熵

关键词：

熵;Kullback-Leibler散度;支持向量机

PDF格式 BibTeX公司 XML格式引用

全文：内政部

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
ab公司	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文件类型(j个：期刊文章；b条：book；一：图书文章）

一&b条	逻辑和
一\|b条	逻辑或
!ab公司	逻辑不
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

领域

操作员

一种用于文本分类的分割信息理论特征聚类算法。（英语） Zbl 1102.68545号

理学硕士：

关键词：

示例

领域

操作员

一种用于文本分类的分割信息理论特征聚类算法。 （英语） Zbl 1102.68545号

理学硕士：

关键词：

一种用于文本分类的分割信息理论特征聚类算法。（英语） Zbl 1102.68545号