×

短文本数据有监督和无监督分类的Dirichlet多项式分布的混合。 (英语) Zbl 1459.62102号

摘要:短文本数据中的主题检测是一项具有挑战性的任务,因为其表示为高维和极稀疏的文档术语矩阵。在本文中,我们重点讨论了基于文本数据(唯一)主题的分类问题。对于非监督分类,一种流行的称为“单字混合”的方法是在字数上考虑多项分布的混合,每个成分对应不同的主题。多项式分布可以在Dirichlet多项式分布的复合混合之前用Dirichlet-多项式分布轻松地进行扩展,这对于稀疏数据更可取。我们提出了一种梯度下降估计方法来拟合模型,并研究了监督和非监督分类在实际经验问题上的性能。

MSC公司:

62H30型 分类和区分;聚类分析(统计方面)
68T05型 人工智能中的学习和自适应系统
68单位15 文本处理的计算方法;数学排版
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] 安布罗斯,C。;戈沃特,G。;基尔斯,哈尔;Rasson,J-P;格罗南,PJF;Schader,M.,部分已知标签的Em算法,数据分析,分类和相关方法,161-166(2000),柏林:施普林格出版社,柏林·Zbl 1029.62056号 ·doi:10.1007/978-3-642-59789-326
[2] Breiman,L.,《随机森林》,《马赫学习》,第45、1、5-32页(2001年)·Zbl 1007.68152号 ·doi:10.1023/A:1010933404324
[3] 布雷曼,L。;弗里德曼,J。;Olshen,R。;Stone,C.,《分类和回归树》(1984年),贝尔蒙特:沃兹沃思,贝尔蒙·Zbl 0541.62042号
[4] 科尔特斯,C。;Vapnik,V.,《支持向量网络》,《Mach Learn》,第20、3、273-297页(1995年)·Zbl 0831.68098号
[5] 盖,T。;Hart,P.,最近邻模式分类,IEEE Trans-Inf理论,13,21-27(1967)·兹比尔0154.44505 ·doi:10.1109/TIT.1967.1053964
[6] Feinerer I,Hornik K(2018)tm:text采矿包。R包版本0.7-6
[7] 费内尔,I。;霍尼克,K。;Meyer,D.,R的文本挖掘基础设施,J Stat Softw,25,5,1-54(2008)·doi:10.18637/jss.v025.i05
[8] Hand,D。;Yu,K.,白痴的贝叶斯——毕竟不是那么愚蠢吗?,国际统计修订版,69,385-398(2001)·Zbl 1213.62010年
[9] Harris,ZS,分布结构,Word,10,2-3,146-162(1954)·doi:10.1080/00437956.1954.11659520
[10] 福尔摩斯一世。;哈里斯·K。;Quince,C.,Dirichlet多项式混合物:微生物宏基因组学的生成模型,PLoS ONE,7,2,e30126(2012)·doi:10.1371/journal.pone.0030126
[11] John G,Langley P(1995)估计贝叶斯分类器中的连续分布。摘自:第十一届人工智能不确定性会议记录,第338-345页
[12] A.Khan。;巴哈鲁丁,B。;Lee,LH;Khan,K。;Tronoh,UTP,文本文档分类的机器学习算法综述,J Adv Inf Technol,1,4-20(2010)
[13] Ko Y(2012)使用类别信息进行文本分类的术语权重方案研究。主题:SIGIR’12-ACM SIGIR信息检索研究与开发国际会议记录
[14] Kohavi R等人(1995年),精度估计和模型选择的交叉验证和引导研究。摘自:第14届国际人工智能联合会议记录,第2卷。加拿大蒙特利尔,第1137-1145页
[15] Kumbhar,P。;Mali,M.,《高效文本分类的特征选择技术和分类算法研究》,国际科学研究杂志,5,5,9(2016)
[16] Lai S,Xu L,Liu K,Zhao J(2015)用于文本分类的递归卷积神经网络。摘自:第二十九届AAAI人工智能会议论文集,AAAI'15。AAAI出版社,第2267-2273页
[17] Nigam,K。;麦卡勒姆,A。;特隆,S。;Mitchell,T.,使用EM对标记和未标记文档进行文本分类,Mach Learn,39103-134(2000)·Zbl 0949.68162号 ·doi:10.1023/A:1007692713085
[18] Rigouste,L。;O·卡佩。;Yvon,F.,文本聚类多项式混合模型的推断和评估,Inf Process Manag,43,5,1260-1280(2007)·doi:10.1016/j.ipm.2006.11.001
[19] Sebastiani,F.,自动文本分类中的机器学习,ACM Compute Surv,34,1,1-47(2002)·doi:10.1145/505282.505283
[20] Tibshirani,R。;哈斯蒂,T。;Narasimhan,B。;Chu,G.,最近收缩质心的类别预测,及其在DNA微阵列中的应用,《统计科学》,18,104-117(2003)·Zbl 1048.62109号 ·doi:10.1214/ss/1056397488
[21] Yin J,Wang J(2014)基于Dirichlet多项式混合模型的短文本聚类方法。摘自:第20届ACM SIGKDD KDDM国际会议论文集,KDD’14,纽约。ACM,第233-242页
[22] 朱,X。;Goldberg,AB,《半监督学习导论》(2009),圣拉斐尔:Morgan&Claypool出版社,圣拉菲尔·Zbl 1209.68435号 ·doi:10.2200/S00196ED1V01Y200906AIM006
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。