×

用于词聚类的长距离二元模型。 (英文) Zbl 1207.68262号

摘要:提出了两种新的基于长距离二元语言模型的词聚类技术。第一种技术建立在层次聚类算法的基础上,在聚类合并后,将所有单词的马氏距离之和从合并产生的类的质心最小化。第二种技术采用概率潜在语义分析(PLSA)。接下来,在上述聚类技术的背景下考虑插值长距离二元图。在英语Gigaword语料库(第二版)上进行的实验表明:(1)在所研究的两种聚类技术中使用长距离双词时,产生的词簇质量优于基线双词;(2) 插值长距离二元图在相同方面优于长距离二元图;(3) 长距离二元图的表现优于包含不同距离选择的触发点的二元图;以及(4)通过使用插值的长距离二元图的PLSA来实现最佳单词聚类。
这两种方法都优于基于k均值的谱聚类。为了客观地评估所创建的聚类的质量,我们估计了相关的聚类有效性指数,并利用从WordNet中提取的基本事实计算了平均聚类检测精度、平均聚类检测召回率和(F)-测度。

MSC公司:

68吨10 模式识别、语音识别
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Jain,A.K。;Murty,M.N。;Flynn,P.J.,《数据聚类:综述》,ACM计算调查,31264-323(1999)
[2] Goodman,J.T.,《语言建模的一点进展》,《计算机语音和语言》,第15期,第403-434页(2001年)
[3] 山本,H。;Isogai,S。;Sagisaka,Y.,多类复合N元语言模型,Elsevier Speech Communication,41,369-379(2003)
[4] R.Rosenfeld,《自适应统计语言建模:最大熵方法》,卡内基梅隆大学计算机科学学院博士论文,宾夕法尼亚州匹兹堡,1994年。;R.Rosenfeld,《自适应统计语言建模:最大熵方法》,卡内基梅隆大学计算机科学学院博士论文,宾夕法尼亚州匹兹堡,1994年。
[5] 黄,X。;阿勒瓦,F。;尊敬的H.-W。;黄光裕。;Lee,K.-F。;Rosenfeld,R.,《SPHINX-II语音识别系统:概述》,《计算机语音与语言》,2137-148(1993)
[6] M.Simons,H.Ney,S.C.Martin,使用最大熵的远程二元语言建模,摘自:IEEE声学、语音和信号处理国际会议论文集,1997年,第787-790页。;M.Simons,H.Ney,S.C.Martin,使用最大熵的远程二元语言建模,摘自:IEEE声学、语音和信号处理国际会议论文集,1997年,第787-790页。
[7] D.Klakow,语言模型的对数线性插值,载《IEEE口语处理国际会议论文集》,1998年,第1695-1698页。;D.Klakow,语言模型的对数线性插值,载《IEEE口语处理国际会议论文集》,1998年,第1695-1698页。
[8] Beccetti,C。;Ricotti,L.P.,《语音识别系统:理论与C++实现》(1999),Wiley:Wiley Chichester,英格兰
[9] Hofmann,T.,通过概率潜在语义分析进行无监督学习,机器学习,42,177-196(2001)·Zbl 0970.68130号
[10] N.Bassiou,C.Kotropoulos,稳健词聚类的内插距离二元语言模型,摘自:《非线性信号和图像处理学报》,日本札幌,2005年,第12-15页。;N.Bassiou,C.Kotropoulos,稳健词聚类的内插距离二元语言模型,摘自:《非线性信号和图像处理学报》,日本札幌,2005年,第12-15页。
[11] 格拉夫博士。;Kong,J。;Chen,K。;Maeda,K.,English Gigaword(2005),语言数据联盟:宾夕法尼亚州语言数据联盟
[12] Fellbaum,C.,《WordNet:电子词汇数据库》(1998年),麻省理工学院出版社:麻省理学院出版社剑桥·Zbl 0913.68054号
[13] 帕克,Y.C。;Choi,K.S.,使用贝叶斯网络自动构建同义词库,信息处理管理,32543-553(1996)
[14] 霍奇,V.J。;Austin,J.,《分层词聚类-自动同义词库生成》,神经计算,48819-846(2002)·Zbl 1006.68766号
[15] Grefenstette,G.,《自动同义词库发现探索》(Explorations in Automatic Tesaurus Discovery)(1994年),Kluwer Academic Publishers:Kluwer-Academical Publishers Dordrecht,荷兰·Zbl 0818.68069号
[16] Lin,D。;Pantel,P.,从自然语言文本中归纳语义类,(第七届ACM知识发现和数据挖掘国际会议论文集(2001),ACM出版社:纽约ACM出版社),317-322
[17] D.Yarowsky,《无监督词义消歧与监督方法的比较》,载《计算语言学协会第33届年会会议记录》,1995年,第189-196页。;D.Yarowsky,无监督的词义消歧与有监督的方法相抗衡,载于:计算语言学协会第33届年会论文集,1995年,第189-196页。
[18] D.Lin,利用句法依赖作为局部语境解决词义歧义,载《计算语言学协会第35届年会论文集》,1997年,第64-71页。;D.Lin,《使用句法依赖作为局部语境解决词义歧义》,载《计算语言学协会第35届年会论文集》,1997年,第64-71页。
[19] T.Pedersen,《构建用于词义消歧的朴素贝叶斯分类器集成的简单方法》,载于:《应用自然语言处理会议论文集》,西雅图,华盛顿州,2000年,第63-69页。;T.Pedersen,《构建用于词义消歧的朴素贝叶斯分类器集成的简单方法》,载于:《应用自然语言处理会议论文集》,西雅图,华盛顿州,2000年,第63-69页。
[20] Pantel,P。;Lin,D.,从文本中发现词义,(第八届ACM知识发现和数据挖掘国际会议论文集(2002),ACM出版社:纽约ACM出版社),613-619
[21] Li,H.,基于共现数据的词聚类和消歧,自然语言工程,8,25-42(2002)
[22] Bordag,S.,《词义归纳:基于三元组的聚类和自动》,(计算语言学协会欧洲分会第十一届会议论文集,计算机语言学协会(2006))
[23] S.Brody,M.Lapata,Bayesian词义归纳,载《计算语言学协会欧洲分会第11届会议论文集》,希腊雅典,2009年,第103-111页。;S.Brody,M.Lapata,Bayesian词义归纳,载于《计算语言学协会欧洲分会第十一届会议论文集》,希腊雅典,2009年,第103-111页。
[24] Brown,P.F。;Pietra,V.J.D。;德索萨,P.V。;赖,J.C。;Mercer,R.L.,自然语言的基于类的语法模型,计算语言学,18467-479(1992)
[25] J.麦克马洪。;Smith,F.,用自动生成的单词层次结构改进统计语言模型性能,计算语言学,22217-247(1996)
[26] 马丁·S。;利尔曼,J。;Ney,H.,二元和三元词聚类算法,语音通信,24,19-37(1998)
[27] J.Uszkoreit,T.Brants,《机器翻译中大规模基于类的语言建模的分布式词聚类》,载《第46届计算语言学协会年会论文集:人类语言技术》,2008年,第755-762页。;J.Uszkoreit,T.Brants,《机器翻译中大规模基于类的语言建模的分布式词聚类》,摘自:《第46届计算语言学协会年会论文集:人类语言技术》,2008年,第755-762页。
[28] A.Emami,F.Jelinek,语言建模的随机聚类,摘自:IEEE声学、语音和信号处理国际会议论文集,第1卷,2005年,第581-584页。;A.Emami,F.Jelinek,语言建模的随机聚类,摘自:IEEE声学、语音和信号处理国际会议论文集,第1卷,2005年,第581-584页。
[29] J.Gao,J.T.Goodman,G.Cao,H.Li,《探索统计语言建模的非对称聚类》,载《计算语言学协会第40届年会论文集》,2002年,第183-190页。;J.Gao,J.T.Goodman,G.Cao,H.Li,《探索统计语言建模的非对称聚类》,载《计算语言学协会第40届年会论文集》,2002年,第183-190页。
[30] Bellegarda,J.R.,《大词汇量语音识别的多跨语言建模框架》,IEEE语音音频处理汇刊,6,456-467(1998)
[31] 贝克,L.D。;McCallum,A.K.,《用于文本分类的单词分布聚类》(Croft,W.B.;Moffat,A.;van Rijsbergen,C.J.;Wilkinson,R.;Zobel,J.,《第21届ACM国际研究与开发信息检索会议论文集》(1998),ACM出版社:ACM出版社纽约),96-103
[32] 温良,C。;兴志,C。;惠珍,W。;Z.Jingbo。;天顺,Y.,利用全球信息进行文本分类的自动词聚类,(信息检索技术,计算机科学讲义,第3411卷(2005),施普林格:施普林格-柏林),1-11
[33] N.Slonim,N.Tishby,《词簇在文本分类中的作用》,载《第23届欧洲信息检索研究学术讨论会论文集》,2001年。;N.Slonim,N.Tishby,《词簇在文本分类中的作用》,载于《第23届欧洲信息检索研究学术讨论会论文集》,2001年。
[34] F.Pereira,N.Tishby,L.Lee,英语单词的分布聚类,收录于:《计算语言学协会年会论文集》,1993年,第183-190页。;F.Pereira,N.Tishby,L.Lee,英语单词的分布聚类,收录于:计算语言学协会年会会议记录,1993年,第183-190页。
[35] 迪伦,I.S。;马莱拉,S。;Kumar,R.,《用于分层文本分类的增强词聚类》,(第八届ACM知识发现和数据挖掘国际会议论文集(2002),ACM出版社:纽约ACM出版社),191-200
[36] Stolke,A.,基于熵的后退语言模型修剪,(美国国防高级研究计划局广播新闻转录和理解研讨会论文集(1998年),Morgan Kaufmann出版社:Morgan Kaufmann出版社,弗吉尼亚州Lansdowne),270-274
[37] Jelinek,F.,《语音识别的统计方法》(1998年),麻省理工学院出版社:麻省理学院出版社剑桥
[38] Ney,H。;马丁·S。;Wessel,F.,《使用leaving-one-out的统计语言建模》,(Young,S.;Bloothooft,G.,《语言和语音处理中基于语料库的方法》(1997),Kluwer学术出版社:Kluwer-学术出版社,荷兰多德雷赫特),174-207年·Zbl 0898.68061号
[39] Papoulis,A.,概率、随机变量和随机过程(1991),McGraw-Hill:McGraw-Hill纽约·Zbl 0191.46704号
[40] Dempster,A.P。;新墨西哥州莱尔德。;Rubin,D.B.,《通过EM算法从不完整数据中获得最大似然(带讨论)》,《皇家统计学会期刊》,B辑,39,1-38(1977)·Zbl 0364.62022号
[41] A.Y.Ng,M.I.Jordan,Y.Weiss,《关于光谱聚类:分析和算法》,摘自:《NIPS学报》,2002年,第849-856页。;A.Y.Ng,M.I.Jordan,Y.Weiss,《关于光谱聚类:分析和算法》,收录于:NIPS会议记录,2002年,第849-856页。
[42] M.Halkidi,M.Vazirirgiannis,聚类有效性评估:寻找数据集的最佳分割,收录于:IEEE国际数据挖掘会议论文集,2001年,第187-194页。;M.Halkidi,M.Vazirirgiannis,《聚类有效性评估:寻找数据集的最优划分》,载于:IEEE国际数据挖掘会议论文集,2001年,第187-194页。
[43] J.C.Bezdek,系统学和分类学的数学模型,收录于:G.Estabrook(Ed.),《第八届国际数值分类学会议论文集》,弗里曼,加利福尼亚州旧金山,1975年,第143-166页。;J.C.Bezdek,系统学和分类学的数学模型,载于:G.Estabrrook(编辑),《第八届国际数值分类学会议论文集》,加利福尼亚州旧金山弗里曼,1975年,第143-166页·Zbl 0362.62067号
[44] Porter,M.F.,后缀剥离算法,程序,14,130-137(1980)
[45] C.Tillmann,H.Ney,单词触发器和EM算法,摘自:《计算自然语言学习研讨会论文集》,1997年,第117-124页。;C.Tillmann,H.Ney,单词触发器和EM算法,摘自:《计算自然语言学习研讨会论文集》,1997年,第117-124页。
[46] W.-Y.Chen,Y.Song,H.Bai,C.-J.Lin,E.Y.Chang,分布式系统中的并行谱聚类,IEEE模式分析和机器智能学报doi:10.1109/TPAMI.2010.88;W.-Y.Chen,Y.Song,H.Bai,C.-J.Lin,E.Y.Chang,分布式系统中的并行谱聚类,IEEE模式分析和机器智能学报doi:10.1109/TPAMI.2010.88
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。