邓、柯;彼得·K·波尔。;凯特·J·李。;刘军S。 关于特定领域汉语文本的非监督分析。 (英语) Zbl 1360.68864号 程序。国家。阿卡德。科学。美国 113,第22号,6154-6159(2016). 摘要:随着公开和私下数字化文本数据的日益普及,人们非常需要有效的计算工具来自动从文本中提取信息。由于汉语与基于字母的语言在不指定单词边界方面差异最大,因此大多数现有的汉语文本识别方法都需要预先指定的词汇和/或大型相关训练语料库,这在某些应用程序中可能不可用。我们介绍了一种无监督的方法,即自顶向下的单词发现和分词(TopWORDS),用于从大量非结构化中文文本中同时发现和分出单词和短语,并提出了对发现的单词进行排序和进行高级上下文分析的方法。TopWORDS对于挖掘潜在词汇未知或感兴趣的文本与可用培训语料库存在显著差异的在线文本和特定领域的文本特别有用。当TopWORDS的输出输入到上下文分析工具(如主题建模、单词嵌入和关联模式查找)中时,结果与使用监督分割方法的输出一样好或更好。 MSC公司: 68T50型 自然语言处理 62H30型 分类和区分;聚类分析(统计方面) 68吨10 模式识别、语音识别 68单位15 文本处理的计算方法;数学排版 软件:宾州树库;热门词汇;字谍 PDF格式BibTeX公司 XML格式引用 \textit{K.Deng}等人,Proc。国家。阿卡德。科学。美国113,编号226154——6159(2016;兹bl 1360.68864) 全文: 内政部 链接 参考文献: [1] 内政部:10.1109/MCI.2014.2307227·doi:10.1109/MCI.2014.2307227 [2] (1994)《中华紫海词典》(中华图书公司,北京)。 [3] Chen,《汉语普通话句子的单词识别》第1卷,载:《第十四届国际计算语言学会议论文集》第101页(1992年) [4] 内政部:10.1109/ICSLP.1996.607139·doi:10.1109/ICSLP.1996.607139 [5] 内政部:10.3115/1119250.1119271·数字对象标识代码:10.3115/1119250.1119271 [6] Shu X(2014)《汉语处理中的分词》。博士论文(伊利诺伊大学厄本那分校-香槟分校,伊利诺伊州厄本那)。 [7] Sproat,一种适用于汉语的随机有限状态分词算法,计算语言学家2(3)第377页–(1996) [8] 内政部:10.3115/1119250.1119280·数字对象标识代码:10.3115/1119250.1119280 [9] McCallum,信息提取和分割的最大熵马尔可夫模型,第17卷,收录于:第17届国际机器学习会议论文集,第591页–(2000) [10] Lafferty J McCallum A Pereira FCN(2001)条件随机场:序列数据分割和标记的概率模型。《第18届机器学习国际会议论文集》,编辑:Brodley CE Danyluk AP(Morgan Kaufmann Publishers Inc,旧金山),第282-289页。 [11] 薛,作为字符标记的汉语分词,国际计算机语言学家汉语语言程序8(1)第29页–(2003) [12] Peng F Feng F McCallum A(2004)使用条件随机场的中文分词和新词检测。《第20届国际计算语言学会议论文集》(计算语言学协会,宾夕法尼亚州斯特劳德斯堡),562页·doi:10.3115/1220355.1220436 [13] 内政部:10.1162/089120100561746·Zbl 01938401号 ·doi:10.1162/089120100561746 [14] Ge X Pratt W Smyth P(1999)从未分割文本中发现汉语单词。第22届ACM SIGIR信息检索研究与开发会议记录(ACM,纽约),第271-272页·数字对象标识代码:10.1145/312624.313472 [15] Wu,《基于规则的汉语系统中的统计增强新词识别》第12卷,载:第二届汉语处理研讨会论文集:与计算语言学协会第38届年会联合举行,第46页-(2000)·数字对象标识代码:10.3115/1117769.1117777 [16] 内政部:10.1162/08912010477363394·Zbl 06016121号 ·doi:10.1162/08912010477363394 [17] 李华煌C高俊凡X(2004)支持向量机在汉语新词识别中的应用。第一届国际自然语言联合会议记录,第497-504页。 [18] 内政部:10.1142/S0219427905001286·doi:10.1142/S0219427905001286 [19] 内政部:10.1080/00437956.1954.11659520·doi:10.1080/0437956.1954.11659520 [20] 内政部:10.1006/jmla.1996.0032·doi:10.1006/jmla.1996.0032 [21] Jelinek F(1997)《语音识别的统计方法》(麻省理工学院,剑桥,马萨诸塞州)。 [22] 内政部:10.1080/016909698386528·doi:10.1080/016909698386528 [23] Olivier DC(1968)《随机语法和语言习得机制》。博士论文(哈佛大学,剑桥,马萨诸塞州)。 [24] DOI:10.1016/S0010-0277(96)00719-6·doi:10.1016/S0010-0277(96)00719-6 [25] Chang,《汉语新词汇提取的无监督迭代方法》,国际计算机语言学家汉语语言程序1(1)第101–(1997)页 [26] Cohen,《投票专家:用于分割序列的无监督算法》,《智能数据分析》11(6),第607页–(2007) [27] 内政部:10.1073/pnas.180265397·doi:10.1073/pnas.180265397 [28] 内政部:10.1093/nar/gki492·Zbl 05437701号 ·数字对象标识代码:10.1093/nar/gki492 [29] Agrawal R Srikant R(1995)挖掘序列模式。第11届国际数据工程会议记录,Yu PS Chen ALP编辑(IEEE Computer Society,Washington,DC),第3-14页·doi:10.1109/ICDE.1995.380415 [30] Dempster,通过EM算法获得不完整数据的最大似然,J R Stat Soc B 39 pp 1–(1977)·Zbl 0364.62022号 [31] 内政部:10.1109/TAC.1974.1100705·兹伯利0314.62039 ·doi:10.1109/TAC.1974.1100705 [32] DOI:10.1214/aos/1176344136·Zbl 0379.62005年 ·doi:10.1214/aos/1176344136 [33] Tibshirani,通过Lasso回归收缩和选择,J R Stat Soc B 58(1),第267页–(1996)·Zbl 0850.62538号 [34] DOI:10.1162/jmlr.2003.3.4-5.993·Zbl 1112.68379号 ·doi:10.1162/jmlr.2003.3.4-5.993 [35] DOI:10.1073/pnas.0307752101·doi:10.1073/pnas.0307752101 [36] 内政部:10.1214/07-AOAS114·兹比尔1129.62122 ·doi:10.1214/07-AOAS114 [37] Agrawal R Srikant R(1994)挖掘关联规则的快速算法。《第20届超大数据库国际会议论文集》,Bocca JB Jarke M Zaniolo C版(Morgan Kaufmann Publishers Inc,旧金山),第487-499页。 [38] Zaki MJ(2000)生成非冗余关联规则。第六届ACM SIGKDD知识发现和数据挖掘国际会议记录(ACM,纽约),第34-43页·数字对象标识代码:10.1145/347090.347101 [39] DOI:10.1023/B:DAMI.0000005258.31418.83·Zbl 02040426号 ·doi:10.1023/B:DAMI.0000005258.31418.83 [40] 内政部:10.1007/s10994-007-5006-x·Zbl 1470.68195号 ·数字对象标识代码:10.1007/s10994-007-5006-x [41] 数字对象标识码:10.1111/rssb.12032·doi:10.1111/rssb.12032 [42] Bengio,神经概率语言模型,J Mach Learn Res 3 pp 1137–(2003)·Zbl 1061.68157号 [43] Levy O Goldberg Y(2014)作为隐式矩阵分解的神经词嵌入。神经信息处理系统进展2014。可从papers.nips.cc/paper/5477-scalable-non-liner-learning-with-adaptive-polynomial-expansions获得。2016年5月4日查阅。 [44] Borg I Groenen PJ(2005)《现代多维尺度:理论与应用》(Springer Science and Business Media,纽约)·兹比尔1085.62079 此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。