×

缩略语:识别、扩展和消除歧义。 (英语) Zbl 1444.68265号

摘要:缩略词——由短语的首字母组成的单词——对于各种自然语言处理应用程序,包括信息检索和机器翻译,都很重要。虽然存在手工编制的缩略语词典,但它们是有限的,需要经常更新。我们提出了一种新的基于机器学习的方法,可以从未注释的文本中自动构建首字母缩略词词典。这是第一种专门处理非本地首字母缩写词的技术,即可以确定首字母缩写的展开形式,即使展开形式与首字母缩写不出现在同一文档中。我们的方法使用上下文信息自动增强字典,以帮助解决首字母缩写词消歧任务(为上下文中的给定首字母缩写选择最合适的扩展),优于使用先前技术构建的字典。我们将该方法应用于现代希伯来语,这是一种有着悠久使用首字母缩写词传统的语言,其中的生产形态和独特的拼写增加了问题的复杂性。

MSC公司:

68T50型 自然语言处理
91层20 语言学
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Ashkenazi,S.,Yarden,D.:缩写词库。耶路撒冷Kiryat Sefer。希伯来语(1994年)
[2] 布莱,DM,概率主题模型,Commun。ACM,55,4,77-84(2012)·doi:10.1145/2133806.2133826
[3] 布莱,DM;Ng、AY;乔丹,密歇根州,潜在dirichlet分配,J.Mach。学习。决议,3,993-1022(2003)·Zbl 1112.68379号
[4] Chang,CC;Lin,CJ,LIBSVM:支持向量机库,ACM Trans。智力。系统。Technol,2,27:1-27:27(2011)·数字对象标识代码:10.1145/1961189.1961199
[5] Dannélls,D.,《首字母缩写识别:识别瑞典文本中的首字母缩写词》(2006年),哥德堡:哥德堡大学语言学系硕士论文
[6] Dannélls,D.:自动首字母缩写识别。摘自:计算语言学协会欧洲分会第十一届会议记录。意大利特伦托,第167-170页(2006)
[7] Dannélls,D.:使用特征组合的首字母缩略词分类(2007)
[8] HaCohen-Kerner,Y.,Kass,A.,Peretz,A.:犹太法律文件中缩写词自动消歧的基线方法。收录于:Vicedo,J.L.,Martínez-Barco,P.,Munoz,R.,Noeda,M.S.(编辑)《第四届自然语言进步国际会议论文集》,人工智能讲稿,第3230卷,第58-69页。施普林格,柏林(2004)
[9] HaCohen-Kerner,Y.,Kass,A.,Peretz,A.:缩略语消歧:用每个话语假设一种意义的各种变体进行实验。收录于:Kapetanios,E.,Sugumaran,V.,Spiliopoulou,M.(编辑)《计算机科学、自然语言和信息系统讲稿》,第5039卷。施普林格,第27-39页。10.1007/978-3-540-69858-6_5 (2008)
[10] HaCohen Kerner,Y.,Kass,A.,Peretz,A.:缩写词的单义组合消歧。摘自:人类语言技术计算语言学协会第46届年会论文集:简短论文,HLT-short'08。计算语言学协会,宾夕法尼亚州斯特鲁兹堡,美国,第61-64页。http://dl.acm.org/citation.cfm?id=1557690.1557707 (2008)
[11] HaCohen-Kerner,Y。;Kass,A。;Peretz,A.,HAADS:希伯来语-芳纶缩写消歧系统,J.Am.Soc.Inf.Sci。技术。,61, 9, 1923-1932 (2010) ·doi:10.1002/asi.21367
[12] HaCohen-Kerner,Y。;Kass,A。;Peretz,A.,《初始化消歧:人与机器》,J.Am.Soc.Inf.Sci。技术。,64, 10, 2133-2148 (2013) ·doi:10.1002/asi.22909
[13] 霍尔,M。;E.弗兰克。;霍姆斯,G。;普法林格,B。;Reutemann等人。;Witten,IH,WEKA数据挖掘软件:更新,SIGKDD Explorations,11,1,10-18(2009)·数字对象标识代码:10.1145/1656274.1656278
[14] 以色列国防军:缩略语和缩略语词典。希伯来语(2010)
[15] 艾泰,A。;Wintner,S.,希伯来语语言资源,语言资源。评估。,42, 1, 75-98 (2008) ·doi:10.1007/s10579-007-9050-8
[16] Jain,A.、Cucerzan,S.、Azzam,S.:缩略语——网络上的扩展识别和排名。In:信息重用和集成(IRI 2007)。IEEE,第209-214页(2007)
[17] Ji,X.,Xu,G.,Bailey,J.,Li,H.:挖掘、排名和使用缩略语模式。摘自:第十届亚太地区WWW研发进展网络会议记录,APWeb'08,第371-382页。施普林格,柏林(2008)。http://dl.acm.org/citation.cfm?id=1791734.1791779
[18] Li,C.,Ji,L.,Yan,J.:使用单词嵌入消除缩略语歧义。载:第29届AAAI人工智能会议记录,第4178-4179页。https://www.aaai.org/ocs/index.php/aaai/AAAI15/paper/view/9404 (2015)
[19] Mair,C.,《二十世纪英语:历史变化与标准化》。《英语研究》(2009),剑桥:剑桥大学出版社,剑桥
[20] Marwick,L.,《圣经和犹太教首字母缩写词》(1979),布鲁克林:KTAV出版社,布鲁克林
[21] McCallum,A.:MALLET:语言工具包的机器学习。http://mallet.cs.umass.edu (2002)
[22] Muchnik,M.,《当代希伯来语首字母缩略词的形态音位特征》,希伯来语语言学,54,53-66(2004)
[23] Nadeau,D.,Turny,P.D.:首字母缩写识别的监督学习方法。摘自:第18届加拿大人工智能进步学会会议记录,AI'05,第319-329页。施普林格,柏林(2005)。10.1007/11424918_34 ·Zbl 1121.68386号
[24] 冈崎,N。;阿纳尼亚杜,S。;Tsujii,J.,《为改进缩略语消歧构建高质量的意义清单》,生物信息学,26,9,1246-1253(2010)·doi:10.1093/bioinformatics/btq129
[25] Park,Y.,Byrd,R.J.:用于查找缩写及其定义的混合文本挖掘。摘自:2001年自然语言处理经验方法会议记录,第126-133页(2001)
[26] Platt,J.C.:使用序列最小优化快速训练支持向量机。收录:Schölkopf,B.,Burges,C.J.C.,Smola,A.J.(编辑)《内核方法的进展——支持向量学习》。麻省理工学院出版社。http://research.microsoft.com/~jplatt/smo.html(1998)
[27] Quinlan,JR,C4.5:机器学习程序(1993年),圣马特奥:Morgan Kaufmann出版社,圣马特奥
[28] Ravid,D.,《现代希伯来语新词构词手段的内部结构约束》,《语言集》,24289-348(1990)·doi:10.1515/flin.1990.24.3-4.289
[29] Schwartz,A.S.,Hearst,M.A.:识别生物医学文本中缩写定义的简单算法。摘自:《太平洋生物计算研讨会论文集》,第451-462页(2003年)·Zbl 1255.68142号
[30] Spiegel,Y.S.:使用不常见的缩写和首字母缩写。叶舒润。希伯来语(2002)
[31] Stevenson,M.,Guo,Y.,Al-Amri,A.,Gaizauskas,R.:消除生物医学缩写的歧义。摘自:生物医学自然语言处理当前趋势研讨会论文集,BioNLP’09。计算语言学协会,美国宾夕法尼亚州斯特鲁兹堡,第71-79页。http://dl.acm.org/citation.cfm?id=1572364.1572374 (2009)
[32] Tadmor,U.,以色列希伯来语首字母缩写,Leshoneinu La'Am,39,225-257(1988)
[33] 徐,J。;Huang,Y.,使用SVM从文本中提取首字母缩写词,软计算-基础、方法和应用的融合,11,369-373(2006)
[34] Yi,J.,Sundaresan,N.:利用模式和关系的双重性挖掘网络中的缩写词。摘自:第二届网络信息和数据管理国际研讨会论文集,WIDM’99,第48-52页。ACM,纽约(1999)。10.1145/319759.319782
[35] Zahariev,M.:自动获取首字母缩写词的高效首字母缩写扩展匹配。摘自:《信息和知识工程国际会议记录》,第32-37页(2003年)
此参考列表基于出版商或数字数学图书馆提供的信息。它的项目与zbMATH标识符启发式匹配,并且可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。