×

朴素贝叶斯文本分类的约束域最大似然估计。 (英语) Zbl 1426.62179号

摘要:文本分类中的朴素贝叶斯假设的优点是大大简化了未知类条件词出现概率的最大似然估计。然而,这些估计通常通过应用启发式参数平滑技术进行修改,以避免(过拟合)零估计。在这项工作中,我们提倡减少参数域而不是参数平滑。这导致了一个约束域最大似然估计问题,为此我们提供了一种迭代算法来优化求解。

MSC公司:

62H30型 分类和区分;聚类分析(统计方面)
2015年1月62日 贝叶斯推断

软件:

PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Boyd S,Vandenberghe L(2004)凸优化。剑桥大学出版社,伦敦·Zbl 1058.90049号
[2] Hoare Z(2007)天真贝叶斯分类器的景观。模式分析应用11(1):59–72
[3] Juan A,Ney H(2002)反转和平滑多项式朴素贝叶斯文本分类器。在2002年PRIS会议记录中,第200-212页
[4] Juan A、Vilar D、Ney H(2007)《跨越朴素贝叶斯和最大熵之间的差距》。《2007年PRIS会议记录》,Funchal(葡萄牙),第59-65页
[5] Lewis DD(1998)《四十岁的朴素贝叶斯:信息检索中的独立性假设》。摘自:《1998年欧洲反洗钱会议记录》,第4-15页
[6] McCallum A(1998)Bow:一个用于统计语言建模、文本检索、分类和聚类的工具包。http://www.cs.umass.edu/ccallum/bow/rainbow
[7] McCallum A(2002)工业部门数据集。http://www.cs.umass.edu/ccallum/code-data.html
[8] McCallum A,Nigam K(1998)Naive Bayes文本分类事件模型的比较。摘自:AAAI/IMCL-98文本分类学习研讨会论文集,第41-48页
[9] Rennie J(2001)原始20个新闻组数据集,people.cail.mit.edu/jrennie/20Newsgroups
[10] Vidal E等人(2000)ESPRIT研究项目30268最终报告(EuTrans)
[11] Vilar D,Ney H,Juan A,Vidal E(2004)特征平滑方法在文本分类任务中的效果。摘自:PRIS 2004会议记录,第108–117页
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。