×

一种基于类别相关因子的线性文本分类算法。 (英语) Zbl 1031.68708号

Lim,Ee-Peng(编辑)等,《数字图书馆:人、知识和技术》。第五届亚洲数字图书馆国际会议,ICADL 2002,新加坡,2002年12月11-14日。诉讼程序。柏林:斯普林格。莱克特。注释计算。科学。2555, 88-98 (2002).
摘要:在本文中,我们提出了一种称为CRF的线性文本分类算法。CRF使用类别相关因子计算属于同一类别的训练文档的特征向量。基于这些特征向量,CRF归纳出每个类别的轮廓向量。对于新的未标记文档,CRF采用修改的余弦度量来获取这些文档和类别之间的相似性,并将它们分配到具有最大相似性分数的类别。在CRF中,参与计算文档和类别之间相似性的是轮廓向量,而不是所有培训文档的向量。我们在路透社-21578和20个新闻组文本集合的子集上评估了我们的算法,并将其与(k)-NN和SVM进行了比较。实验结果表明,CRF优于(k)-NN,并且与SVM具有竞争性。
关于整个系列,请参见[兹比尔1014.68980].

MSC公司:

68单位99 计算方法和应用
68单位35 信息系统的计算方法(超文本导航、接口、决策支持等)
68第20页 数据的信息存储和检索
PDF格式BibTeX公司 XML格式引用
全文: 链接