文件Zbl 1207.68262-zbMATH Open

用于词聚类的长距离二元模型。（英文） Zbl 1207.68262号

模式识别 44，第1期，145-158（2011）.

摘要：提出了两种新的基于长距离二元语言模型的词聚类技术。第一种技术建立在层次聚类算法的基础上，在聚类合并后，将所有单词的马氏距离之和从合并产生的类的质心最小化。第二种技术采用概率潜在语义分析（PLSA）。接下来，在上述聚类技术的背景下考虑插值长距离二元图。在英语Gigaword语料库（第二版）上进行的实验表明：（1）在所研究的两种聚类技术中使用长距离双词时，产生的词簇质量优于基线双词；（2）插值长距离二元图在相同方面优于长距离二元图；（3）长距离二元图的表现优于包含不同距离选择的触发点的二元图；以及（4）通过使用插值的长距离二元图的PLSA来实现最佳单词聚类。
这两种方法都优于基于k均值的谱聚类。为了客观地评估所创建的聚类的质量，我们估计了相关的聚类有效性指数，并利用从WordNet中提取的基本事实计算了平均聚类检测精度、平均聚类检测召回率和（F）-测度。

MSC公司：

68吨10

模式识别、语音识别

关键词：

单词聚类;语言建模;距离二元图;概率潜在语义分析;相对聚类有效性指数;触发脉冲;光谱聚类;簇分散;聚类检测精度;集群感知召回;WordNet（文字网）

软件：

WordNet（文字网）;狮身人面像II

PDF格式 BibTeX公司 XML格式引用

全文：内政部

参考文献：

[1]	Jain，A.K。；Murty，M.N。；Flynn，P.J.，《数据聚类：综述》，ACM计算调查，31264-323（1999）
[2]	Goodman，J.T.，《语言建模的一点进展》，《计算机语音和语言》，第15期，第403-434页（2001年）
[3]	山本，H。；Isogai，S。；Sagisaka，Y.，多类复合N元语言模型，Elsevier Speech Communication，41，369-379（2003）
[4]	R.Rosenfeld，《自适应统计语言建模：最大熵方法》，卡内基梅隆大学计算机科学学院博士论文，宾夕法尼亚州匹兹堡，1994年。；R.Rosenfeld，《自适应统计语言建模：最大熵方法》，卡内基梅隆大学计算机科学学院博士论文，宾夕法尼亚州匹兹堡，1994年。
[5]	黄，X。；阿勒瓦，F。；尊敬的H.-W。；黄光裕。；Lee，K.-F。；Rosenfeld，R.，《SPHINX-II语音识别系统：概述》，《计算机语音与语言》，2137-148（1993）
[6]	M.Simons，H.Ney，S.C.Martin，使用最大熵的远程二元语言建模，摘自：IEEE声学、语音和信号处理国际会议论文集，1997年，第787-790页。；M.Simons，H.Ney，S.C.Martin，使用最大熵的远程二元语言建模，摘自：IEEE声学、语音和信号处理国际会议论文集，1997年，第787-790页。
[7]	D.Klakow，语言模型的对数线性插值，载《IEEE口语处理国际会议论文集》，1998年，第1695-1698页。；D.Klakow，语言模型的对数线性插值，载《IEEE口语处理国际会议论文集》，1998年，第1695-1698页。
[8]	Beccetti，C。；Ricotti，L.P.，《语音识别系统：理论与C++实现》（1999），Wiley:Wiley Chichester，英格兰
[9]	Hofmann，T.，通过概率潜在语义分析进行无监督学习，机器学习，42，177-196（2001）·Zbl 0970.68130号
[10]	N.Bassiou，C.Kotropoulos，稳健词聚类的内插距离二元语言模型，摘自：《非线性信号和图像处理学报》，日本札幌，2005年，第12-15页。；N.Bassiou，C.Kotropoulos，稳健词聚类的内插距离二元语言模型，摘自：《非线性信号和图像处理学报》，日本札幌，2005年，第12-15页。
[11]	格拉夫博士。；Kong，J。；Chen，K。；Maeda，K.，English Gigaword（2005），语言数据联盟：宾夕法尼亚州语言数据联盟
[12]	Fellbaum，C.，《WordNet:电子词汇数据库》（1998年），麻省理工学院出版社：麻省理学院出版社剑桥·Zbl 0913.68054号
[13]	帕克，Y.C。；Choi，K.S.，使用贝叶斯网络自动构建同义词库，信息处理管理，32543-553（1996）
[14]	霍奇，V.J。；Austin，J.，《分层词聚类-自动同义词库生成》，神经计算，48819-846（2002）·Zbl 1006.68766号
[15]	Grefenstette，G.，《自动同义词库发现探索》（Explorations in Automatic Tesaurus Discovery）（1994年），Kluwer Academic Publishers:Kluwer-Academical Publishers Dordrecht，荷兰·Zbl 0818.68069号
[16]	Lin，D。；Pantel，P.，从自然语言文本中归纳语义类，（第七届ACM知识发现和数据挖掘国际会议论文集（2001），ACM出版社：纽约ACM出版社），317-322
[17]	D.Yarowsky，《无监督词义消歧与监督方法的比较》，载《计算语言学协会第33届年会会议记录》，1995年，第189-196页。；D.Yarowsky，无监督的词义消歧与有监督的方法相抗衡，载于：计算语言学协会第33届年会论文集，1995年，第189-196页。
[18]	D.Lin，利用句法依赖作为局部语境解决词义歧义，载《计算语言学协会第35届年会论文集》，1997年，第64-71页。；D.Lin，《使用句法依赖作为局部语境解决词义歧义》，载《计算语言学协会第35届年会论文集》，1997年，第64-71页。
[19]	T.Pedersen，《构建用于词义消歧的朴素贝叶斯分类器集成的简单方法》，载于：《应用自然语言处理会议论文集》，西雅图，华盛顿州，2000年，第63-69页。；T.Pedersen，《构建用于词义消歧的朴素贝叶斯分类器集成的简单方法》，载于：《应用自然语言处理会议论文集》，西雅图，华盛顿州，2000年，第63-69页。
[20]	Pantel，P。；Lin，D.，从文本中发现词义，（第八届ACM知识发现和数据挖掘国际会议论文集（2002），ACM出版社：纽约ACM出版社），613-619
[21]	Li，H.，基于共现数据的词聚类和消歧，自然语言工程，8，25-42（2002）
[22]	Bordag，S.，《词义归纳：基于三元组的聚类和自动》，（计算语言学协会欧洲分会第十一届会议论文集，计算机语言学协会（2006））
[23]	S.Brody，M.Lapata，Bayesian词义归纳，载《计算语言学协会欧洲分会第11届会议论文集》，希腊雅典，2009年，第103-111页。；S.Brody，M.Lapata，Bayesian词义归纳，载于《计算语言学协会欧洲分会第十一届会议论文集》，希腊雅典，2009年，第103-111页。
[24]	Brown，P.F。；Pietra，V.J.D。；德索萨，P.V。；赖，J.C。；Mercer，R.L.，自然语言的基于类的语法模型，计算语言学，18467-479（1992）
[25]	J.麦克马洪。；Smith，F.，用自动生成的单词层次结构改进统计语言模型性能，计算语言学，22217-247（1996）
[26]	马丁·S。；利尔曼，J。；Ney，H.，二元和三元词聚类算法，语音通信，24，19-37（1998）
[27]	J.Uszkoreit，T.Brants，《机器翻译中大规模基于类的语言建模的分布式词聚类》，载《第46届计算语言学协会年会论文集：人类语言技术》，2008年，第755-762页。；J.Uszkoreit，T.Brants，《机器翻译中大规模基于类的语言建模的分布式词聚类》，摘自：《第46届计算语言学协会年会论文集：人类语言技术》，2008年，第755-762页。
[28]	A.Emami，F.Jelinek，语言建模的随机聚类，摘自：IEEE声学、语音和信号处理国际会议论文集，第1卷，2005年，第581-584页。；A.Emami，F.Jelinek，语言建模的随机聚类，摘自：IEEE声学、语音和信号处理国际会议论文集，第1卷，2005年，第581-584页。
[29]	J.Gao，J.T.Goodman，G.Cao，H.Li，《探索统计语言建模的非对称聚类》，载《计算语言学协会第40届年会论文集》，2002年，第183-190页。；J.Gao，J.T.Goodman，G.Cao，H.Li，《探索统计语言建模的非对称聚类》，载《计算语言学协会第40届年会论文集》，2002年，第183-190页。
[30]	Bellegarda，J.R.，《大词汇量语音识别的多跨语言建模框架》，IEEE语音音频处理汇刊，6，456-467（1998）
[31]	贝克，L.D。；McCallum，A.K.，《用于文本分类的单词分布聚类》（Croft，W.B.；Moffat，A.；van Rijsbergen，C.J.；Wilkinson，R.；Zobel，J.，《第21届ACM国际研究与开发信息检索会议论文集》（1998），ACM出版社：ACM出版社纽约），96-103
[32]	温良，C。；兴志，C。；惠珍，W。；Z.Jingbo。；天顺，Y.，利用全球信息进行文本分类的自动词聚类，（信息检索技术，计算机科学讲义，第3411卷（2005），施普林格：施普林格-柏林），1-11
[33]	N.Slonim，N.Tishby，《词簇在文本分类中的作用》，载《第23届欧洲信息检索研究学术讨论会论文集》，2001年。；N.Slonim，N.Tishby，《词簇在文本分类中的作用》，载于《第23届欧洲信息检索研究学术讨论会论文集》，2001年。
[34]	F.Pereira，N.Tishby，L.Lee，英语单词的分布聚类，收录于：《计算语言学协会年会论文集》，1993年，第183-190页。；F.Pereira，N.Tishby，L.Lee，英语单词的分布聚类，收录于：计算语言学协会年会会议记录，1993年，第183-190页。
[35]	迪伦，I.S。；马莱拉，S。；Kumar，R.，《用于分层文本分类的增强词聚类》，（第八届ACM知识发现和数据挖掘国际会议论文集（2002），ACM出版社：纽约ACM出版社），191-200
[36]	Stolke，A.，基于熵的后退语言模型修剪，（美国国防高级研究计划局广播新闻转录和理解研讨会论文集（1998年），Morgan Kaufmann出版社：Morgan Kaufmann出版社，弗吉尼亚州Lansdowne），270-274
[37]	Jelinek，F.，《语音识别的统计方法》（1998年），麻省理工学院出版社：麻省理学院出版社剑桥
[38]	Ney，H。；马丁·S。；Wessel，F.，《使用leaving-one-out的统计语言建模》，（Young，S.；Bloothooft，G.，《语言和语音处理中基于语料库的方法》（1997），Kluwer学术出版社：Kluwer-学术出版社，荷兰多德雷赫特），174-207年·Zbl 0898.68061号
[39]	Papoulis，A.，概率、随机变量和随机过程（1991），McGraw-Hill:McGraw-Hill纽约·Zbl 0191.46704号
[40]	Dempster，A.P。；新墨西哥州莱尔德。；Rubin，D.B.，《通过EM算法从不完整数据中获得最大似然（带讨论）》，《皇家统计学会期刊》，B辑，39，1-38（1977）·Zbl 0364.62022号
[41]	A.Y.Ng，M.I.Jordan，Y.Weiss，《关于光谱聚类：分析和算法》，摘自：《NIPS学报》，2002年，第849-856页。；A.Y.Ng，M.I.Jordan，Y.Weiss，《关于光谱聚类：分析和算法》，收录于：NIPS会议记录，2002年，第849-856页。
[42]	M.Halkidi，M.Vazirirgiannis，聚类有效性评估：寻找数据集的最佳分割，收录于：IEEE国际数据挖掘会议论文集，2001年，第187-194页。；M.Halkidi，M.Vazirirgiannis，《聚类有效性评估：寻找数据集的最优划分》，载于：IEEE国际数据挖掘会议论文集，2001年，第187-194页。
[43]	J.C.Bezdek，系统学和分类学的数学模型，收录于：G.Estabrook（Ed.），《第八届国际数值分类学会议论文集》，弗里曼，加利福尼亚州旧金山，1975年，第143-166页。；J.C.Bezdek，系统学和分类学的数学模型，载于：G.Estabrrook（编辑），《第八届国际数值分类学会议论文集》，加利福尼亚州旧金山弗里曼，1975年，第143-166页·Zbl 0362.62067号
[44]	Porter，M.F.，后缀剥离算法，程序，14，130-137（1980）
[45]	C.Tillmann，H.Ney，单词触发器和EM算法，摘自：《计算自然语言学习研讨会论文集》，1997年，第117-124页。；C.Tillmann，H.Ney，单词触发器和EM算法，摘自：《计算自然语言学习研讨会论文集》，1997年，第117-124页。
[46]	W.-Y.Chen，Y.Song，H.Bai，C.-J.Lin，E.Y.Chang，分布式系统中的并行谱聚类，IEEE模式分析和机器智能学报doi:10.1109/TPAMI.2010.88；W.-Y.Chen，Y.Song，H.Bai，C.-J.Lin，E.Y.Chang，分布式系统中的并行谱聚类，IEEE模式分析和机器智能学报doi:10.1109/TPAMI.2010.88

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
ab公司	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文档类型(j个：期刊文章；b：书本；一：书籍文章）

一&b	逻辑和
一\|b	逻辑或
!ab公司	逻辑不
作业成本法*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

领域

操作员

用于词聚类的长距离二元模型。（英文） Zbl 1207.68262号

MSC公司：

关键词：

软件：

参考文献：

示例

领域

操作员

用于词聚类的长距离二元模型。 （英文） Zbl 1207.68262号

MSC公司：

关键词：

软件：

参考文献：

用于词聚类的长距离二元模型。（英文） Zbl 1207.68262号