论搭配及其与句法和翻译的互动
摘要
1.简介
2.使用语法分析进行搭配识别
相对化
各种全球 挑战 我们不可避免地要 面对
2 钝化
这个 挑战 当今制药行业面临的挑战
三。 审问
哪个 挑战 做在线媒体 面对 就新闻自由而言?
3.使用翻译进行搭配识别
利用平行语料库或源-目标单语语料库对表示的翻译档案来识别MWE/搭配的翻译等价物的方法; 在检测和排序单语MWE/搭配候选词时考虑单词对齐信息的方法。
3.1. 第一个趋势:利用语料库进行搭配识别
3.2. 第二个趋势:利用词语对齐
4.利用搭配进行句法分析
5.在机器翻译中利用搭配
“SMT输出在短距离搭配方面往往出人意料地好,但在选择限制对远距离单词产生影响的情况下,往往会错过(……)正确的选择。”
依靠我们的人 给 满的 支持 当需要的时候,让我们充满信心 同行者 联合国 苏田 完整的数量 当然,这样做是正确的 给 大量的 支持 到这些地区[……]等 *唐纳 联合国 苏田 地块面积。
6.结论
致谢
利益冲突
工具书类
凹陷,I.A。; 鲍德温,T。; 债券,F。; Copestake,A。; Flickinger,D.多词表达:NLP的颈部疼痛。 第三届智能文本处理和计算语言学国际会议论文集(CICLING 2002),墨西哥墨西哥城,2002年2月17日至23日; 第1-15页。 维拉维森西奥,A。; 债券,F。; Korhonen,A。; McCarthy,D.多词表达专题介绍:攻克难题。 计算。 语音语言。 2005 , 19 , 365–377. [ 谷歌学者 ] [ 交叉参考 ] 美国海德。计算短语学:概述。 在 短语学:一个跨学科的视角 ; Granger,S.,Meunier,F.,编辑。; 约翰·本杰明斯:荷兰阿姆斯特丹,2008年; 第337-360页。 [ 谷歌学者 ] 杰肯多夫,R。 语言学院的架构 ; 麻省理工学院出版社:美国马萨诸塞州剑桥,1997年。 [ 谷歌学者 ] 梅尔切克,I.搭配和词汇功能。 在 短语学。 理论、分析和应用 ; Cowie,A.P.,编辑。; 克莱顿出版社:英国牛津,1998年; 第23-53页。 [ 谷歌学者 ] 埃尔曼,B。; 沃伦,B。成语原则和开放选择原则。 文本 2000 , 20 , 29–62. [ 谷歌学者 ] [ 交叉参考 ] 牛津英语搭配词典 ; 李·D·。; Runcie,M.(编辑)牛津大学出版社:英国牛津,2002年。 本森,M。; Benson,E。; R·伊尔森。 BBI英语单词组合词典 ; 约翰·本杰明斯:阿姆斯特丹,荷兰,费城,宾夕法尼亚州,美国,1986年。 [ 谷歌学者 ] Fontenelle,T.《语料库或词典中的搭配习得:比较》。 在I-II。 提交给1992年8月4日至9日在芬兰坦佩雷举行的第五届EURALEX国际词典编纂大会的论文; 第221-228页。 吉尔迪亚博士。; Palmer,M.谓词变元识别中解析的必要性。 2002年7月6日至12日,美国宾夕法尼亚州费城,计算语言学协会第40届年会会议记录; 第239-246页。 Daille,B.Approche Mixte Pour l’Extraction Automatique de Terminologie:统计词汇与过滤语言。 1994年,法国巴黎第七大学博士论文。 [ 谷歌学者 ] Pearce,D.搭配提取技术的比较评估。 2002年5月29日至31日在西班牙拉斯帕尔马斯举行的第三届国际语言资源与评价会议记录; 第1530-1536页。 Evert,S.《单词共现性统计:单词对和搭配》。 2004年,德国斯图加特大学博士论文。 [ 谷歌学者 ] Pecina,P.词汇联想测量:搭配提取。 2008年捷克共和国布拉格查尔斯大学博士论文。 [ 谷歌学者 ] 斯塔布斯,M。 词汇和短语:词汇语义语料库研究 ; 布莱克威尔:牛津,英国,2002年。 [ 谷歌学者 ] Church,K。; 单词联想规范、相互信息和词典编纂。 计算。 语言学家。 1990 , 16 , 22–29. [ 谷歌学者 ] Justeson,J.S。; Katz,S.M.技术术语:文本识别的一些语言属性和算法。 自然语言工程。 1995 , 1 , 9–27. [ 谷歌学者 ] [ 交叉参考 ] Zaiu Inkpen博士。; Hirst,G.获取近义词之间的词汇选择搭配。 2002年7月6日至12日,美国宾夕法尼亚州费城,《非监督词汇习得研讨会论文集》(ACL-02); 第67-76页。 托迪拉什·cu,A。; 图菲什,D。; 海德,美国。; 格利德希尔,C。; ⑩tefnescu,D。; 韦勒,M。; Rousselot,F.提取和分类动词+名词结构的混合方法。 2008年5月28日至30日,摩洛哥马拉喀什,第六届国际语言资源与评估会议记录(LREC’08)。 Smadja,F.从文本中检索搭配:Xtract。 计算。 语言学家。 1993 , 19 ,143-177。 [ 谷歌学者 ] Breidt,E.从文本语料库中提取V-N搭配:德语的可行性研究。 1993年6月22日,美国俄亥俄州哥伦布,《超大语料库:学术和工业视角研讨会论文集》; 第74–83页。 Kim,S。; Yoon,J。; Song,M.从韩语文本中自动提取搭配。 计算。 人性。 2001 , 35 , 273–297. [ 谷歌学者 ] [ 交叉参考 ] Heid,U。《单词的组合方式——词汇组合学研究课题》。 1994年8月30日至9月3日在荷兰阿姆斯特丹举行的第六届欧洲词汇学国际大会(Euralex’94)会议记录; 第226-257页。 Krenn,B.搭配挖掘:利用语料库进行搭配识别和表示。 在Sprachkommunikation会议记录中,Vorträge der gemeinsamen Veranstaltung 5。 Konferenz zur Verarbeitung natürlicher Sprache(KONVENS 2000),德国伊尔梅瑙,2000年10月9日至12日; 第209-214页。 Schulte im Walde,S.A德语动词和名词搭配数据库。 2003年4月3日,匈牙利布达佩斯,第七届计算词典学和语料库研究会议论文集。 吕,Y。; 周,M.使用单语语料库进行搭配翻译习得。 2004年7月21日至26日在西班牙巴塞罗那举行的计算语言学协会第42次会议记录(ACL’04); 第167-174页。 Villada Moirón,M.B.n.数据驱动固定表达的识别及其可修改性。 2005年,荷兰格罗宁根大学博士论文。 [ 谷歌学者 ] 奥利亚克,B。; Dillinger,M.机器翻译中的搭配提取。 2003年9月23日至27日在美国路易斯安那州新奥尔良举行的机器翻译峰会第九届会议记录; 第292-298页。 Blaheta博士。; Johnson,M.《多词动词的无监督学习》。 2001年7月6日至7日在法国图卢兹举行的ACL搭配研讨会论文集:计算提取、分析和开发; 第54-60页。 Pearce,D.搭配提取中的同义词。 2001年6月2日至7日,美国宾夕法尼亚州匹兹堡,NAACL WordNet和其他词汇资源:应用、扩展和定制研讨会论文集; 第41-46页。 Lin,D.从文本语料库中提取搭配。 1998年8月15日,加拿大蒙特利尔,第一届计算术语研讨会论文集; 第57-63页。 Lin,D.非合成短语的自动识别。 1999年6月20日至26日在美国马里兰州大学帕克举行的计算语言学协会第37届年会会议记录; 第317–324页。 夏雷斯特,S。; 布鲁内尔,E。; Fontaine,J。; Pelletier,B.Élaboration Automatique d‘un Dictionnaire de Cooccurrences Grand Public。 在2007年6月5日至8日于法国图卢兹举行的《自然语言自动机会议记录》(TALN 2007)中; 第283-292页。 Pecina,P.词汇联想测量和搭配提取。 语言资源。 评估。 2010 , 1 , 137–158. [ 谷歌学者 ] [ 交叉参考 ] Church,K。; 加尔,W。; Hanks,P。; Hindle,D.Parsing,《单词联想和典型的谓词-论元关系》。 1989年8月28日至31日,美国宾夕法尼亚州匹兹堡,《解析技术国际研讨会论文集》; 第103–112页。 Wermter,J。; Hahn,U.。复杂多词术语提取的范式可修改性统计。 2005年10月6日至8日,加拿大温哥华,人类语言技术和自然语言处理经验方法会议记录(HLT'05); 第843-850页。 莱克斯特·布瑞高(D.LEXTER)对语言“助手”的含义进行了解释。 《Connaissances 3èmes Journées d’acquisition des Connaissences法案》 1992年4月,法国杜丹。 [ 谷歌学者 ] Jacquemin,C。; Klavans,J.L。; Tzoukermann,E.使用形态学和句法进行索引和检索的多词术语扩展。 1997年7月7日至12日在西班牙马德里举行的计算语言学协会第35届年会会议记录; 第24-31页。 基尔加里夫,A。; Rychly,P。; Smrz,P。; 塔格韦尔,D.素描引擎。 2004年7月15日至19日在法国洛里昂举行的第十一届EURALEX国际大会会议记录; 第105–116页。 Wehrli,E.Fips,“深层”语言多语言解析器。 2007年6月28日在捷克共和国布拉格举行的ACL 2007深度语言处理研讨会会议记录; 第120-127页。 Dunning,T.意外和巧合统计的精确方法。 计算。 语言学家。 1993 , 19 , 61–74. [ 谷歌学者 ] 梅纳德,D。; Ananiadou,S.《术语语境聚类的语言学方法》,《环太平洋自然语言研讨会论文集》,1999年11月5日至7日,中国北京; 第346–351页。 南卡罗来纳州帕多。; Lapata,M.基于依赖关系的语义空间模型构建。 计算。 语言学家。 2007 , 33 , 161–199. [ 谷歌学者 ] [ 交叉参考 ] V·塞雷坦。 基于句法的搭配提取、文本、语音和语言技术 ; 施普林格:荷兰多德雷赫特,2011年。 [ 谷歌学者 ] Kupiec,J.在双语语料库中查找名词短语对应关系的算法。 1993年6月22日至26日,美国俄亥俄州哥伦布,计算语言学协会第31届年会会议记录; 第17-22页。 Van der Eijk,P.《双语术语自动获取》。 1993年6月22日至26日,荷兰乌得勒支,计算语言学协会欧洲分会第六届会议记录; 第113-119页。 达根,I。; 英国丘奇。 特尔梅 :识别和翻译技术术语。 1994年10月13日至15日在德国斯图加特举行的第四届应用自然语言处理会议记录; 第34-40页。 Smadja,F。; McKeown,K。; Hatzivassilogou,V.双语词汇的搭配翻译:统计方法。 计算。 语言学家。 1996 , 22 , 1–38. [ 谷歌学者 ] Bai,M.H。; 你,J.M。; Chen,K.J。; Chang,J.S.通过归一化相关频率获得多词表达的翻译等价性。 《2009年自然语言处理实证方法会议记录》,新加坡,2009年8月6日至7日; 第478–486页。 维拉达·莫伊隆,B.n。; Tiedemann,J.使用自动词语对齐识别习语表达。 在2006年4月3日于意大利特伦托举行的多语种背景下的多语言表达研讨会会议记录中; 第33-40页。 H.D.M.卡塞利。; 拉米什,C。; das Graças Volpe Nunes,M。; Villavicencio,A.基于对齐的多词表达式提取。 语言资源。 评估。 2010 , 44 , 59–77. [ 谷歌学者 ] [ 交叉参考 ] 曼宁,C.D。; H·施策。 统计自然语言处理基础 ; 麻省理工学院出版社:美国马萨诸塞州剑桥市,1999年。 [ 谷歌学者 ] 塞雷坦,V。; 基于句子对齐和句法分析的搭配翻译。 2007年6月5日至8日,法国图卢兹,TALN,2007年,《自然语言自动机会议记录》; 第401-410页。 Wehrli,E。; Nerima,L。; Scherrer,Y.深度语言多语言翻译和双语词典。 2009年4月30日至31日,希腊雅典,第四届统计机器翻译研讨会论文集; 第90-94页。 Koehn,P.Europarl:统计机器翻译的平行语料库。 第十届机器翻译峰会(MT Summit X)会议记录,2005年9月12日至16日,泰国普吉岛; 第79-86页。 Hindle,D。; 结构歧义和词汇关系。 计算。 语言学家。 1993 , 19 , 103–120. [ 谷歌学者 ] Alshawi,H。; Carter,D.消除歧义的训练和缩放偏好函数。 计算。 语言学家。 1994 , 20 , 635–648. [ 谷歌学者 ] Berthouzoz,C。; Merlo,P.基于原则的分析的统计歧义解决。 在 自然语言处理的最新进展:RANLP’97论文集,语言学理论的当前问题 ; 尼科洛夫,N.,米特科夫,R.,编辑。; 约翰·本杰明斯:阿姆斯特丹,荷兰,费城,宾夕法尼亚州,美国,1997年; 第179-186页。 [ 谷歌学者 ] Wehrli,E.解析和搭配。 在 自然语言处理 ; Christodulakis,D.编辑。; 施普林格·弗拉格:德国柏林/海德堡,2000年; 第272-282页。 [ 谷歌学者 ] Brun,C.《计算LFG的有限状态预处理术语》。 1998年8月10日至14日在加拿大蒙特利尔举行的计算语言学协会第36届年会和第17届国际计算语言学会议记录; 第196-200页。 Zhang,Y。; 科尔多尼,V。; 维拉维森西奥,A。; Idiart,M.《语法工程中的多词表达自动预测》,《多词表达:识别和利用潜在属性研讨会论文集》,澳大利亚悉尼,2006年7月23日; 第36-44页。 Alegria,I.N。; Ansa,O。; Artola,X.公司。; 北埃泽扎。; Gojenola,K。; Urizar,R.巴斯克语中多词表达的表征和处理。 2004年7月26日,西班牙巴塞罗那,第二届ACL多词表达:整合处理研讨会论文集; 第48-55页。 维拉维森西奥,A。; 科尔多尼,V。; Zhang,Y。; Idiart,M。; Ramisch,C.《语法工程中自动获取的多词表达式的验证和评估》,2007年6月28日至30日在捷克共和国布拉格举行的2007年自然语言处理和计算自然语言学习经验方法联合会议论文集; 第1034–1043页。 Ratnaparkhi,A.非监督介词短语连接的统计模型。 1998年8月10日至14日在加拿大蒙特利尔举行的计算语言学协会第36届年会和第17届国际计算语言学会议记录; 第1079–1085页。 Pantel,P。; Lin,D.使用上下文相似词的介词短语连接的非监督方法。 2000年10月1日至8日,中国香港,计算语言学协会第38届年会会议记录; 第101-108页。 Volk,M.结合无监督和监督方法消除PP附件歧义。 2002年8月24日至9月1日,台湾台北,第19届国际计算语言学会议(COLING’02)论文集; 第25-32页。 Wehrli,E。; Seretan,V.公司。; 句子分析和搭配识别。 《多词表达:从理论到应用研讨会论文集》,MWE 2010,中国北京,2010年8月28日; 第27-35页。 《经济学人》。 可在线访问 http://www.economist.com网站 (2002年至2013年访问)。 海伦·D·。; 麦克斯韦,K.G。; Verhagen,M.词汇功能与机器翻译。 《第十五届国际计算语言学会议论文集》(COLING 1994),日本京都,1994年8月5日至9日; 第1240–1244页。 菲尔莫尔,C。; Kay,P。; 奥康纳,C.语法结构中的规则性和惯用性: 更不用说 。 语言 1988 , 64 ,501–538。 [ 谷歌学者 ] [ 交叉参考 ] 海德,美国。; Raab,S.《多语世代中的搭配》。 1989年4月10日至12日,英国曼彻斯特,计算语言学协会欧洲分会第四届会议记录; 第130–136页。 刘,Z。; Wang,H。; Wu,H。; Li,S.用单语搭配改进统计机器翻译。 2010年7月11日至16日,瑞典乌普萨拉,计算语言学协会第48届年会会议记录; 第825-833页。 刘,Z。; Wang,H。; Wu,H。; 刘,T。; Li,S.用源语言搭配重新排序。 2011年6月19日至24日,美国俄勒冈州波特兰市,计算语言学协会第49届年会论文集:人类语言技术; 第1036-1044页。 Tsvetkov,Y。; Wintner,S.从小型平行语料库中提取多单词表达式。 2010年《科林学报:海报》,中国北京,2010年8月23日至27日; 第1256–1264页。 Bouamor,D。; 塞玛,N。; Zweigenbaum,P.识别统计机器翻译中的双语多词表达式。 2012年5月23日至25日,土耳其伊斯坦布尔,第八届国际语言资源与评估会议(LREC’12)会议记录。 巴比奇,B。; Eberle,K。; 盖伊,J。; Ginestí-罗塞尔,M。; 哈特利,A。; 拉普,R。; 沙洛夫,S。; Thomas,M.混合式高质量机器翻译系统的设计。 2012年4月23日至24日,法国阿维尼翁,《利用信息检索与机器翻译(ESIRMT)和机器翻译混合方法(HyTra)之间的协同作用联合研讨会论文集》; 第101-112页。 基于句法的无监督机器翻译:不连续短语的贡献。 2007年9月10日至14日在丹麦哥本哈根举行的第十一届机器翻译峰会会议记录; 第51-56页。 Wehrli,E。; 塞雷坦,V。; Nerima,L。; Russo,L.在基于规则的机器翻译系统中的搭配:对其翻译充分性的案例研究评估。 2009年5月14日至15日,西班牙巴塞罗那,欧洲机器翻译协会第十三届年会论文集; 第128–135页。 Carpuat,M。; Diab,M.基于任务的多词表达评估:统计机器翻译的初步研究。 《人类语言技术学报:计算语言学协会北美分会2010年年会》,美国加利福尼亚州洛杉矶,2010年6月2-4日; 第242-245页。 Naskar,S.K.公司。; 托拉尔,A。; Gaspari,F。; Way,A.基于语言检查点的机器翻译诊断评估框架。 2011年9月19日至23日在中国厦门举行的第十三届机器翻译峰会会议记录; 第529-536页。
1 读者参考[ 三 ]以获取多词表达式的详细分类及其计算处理的概述。 2 采用双样本t检验比较两种方法输出的语法对数量。 产量有显著差异:t(982)=10.78, 。 三。 进行了类似的双样本t检验,以比较词典中被认为值得存储的对的数量。 差异具有统计学意义:两个样本t(982)=2.90, 。 4 进行了两次样本t检验,以比较:(1)语法对的数量; (2) 认为值得存储在词典中的对; (3)标记为搭配的配对。 获得的差异具有统计学意义:(1)两个样本t(1435)=26.65, ); (2) 两个样本t(1435)=11.04, ; 3) 两个样本t(1435)=9.15, 。 5 我们试验了使用和不使用词典信息(在我们的例子中,是Its-2内部机器翻译系统的词汇数据库[ 54 ]). 6 进行了McNemar测试,以比较翻译变得更好的案例数量 与。 更糟糕。 对于英语和法语,差异(14 与。 4) 具有统计显著性( ). 对于意大利-法国,差异(16 与。 3) 具有非常显著的统计意义( )。