期刊/特刊的下一篇文章
使用协作标记进行文本分类:从文本分类到观点挖掘
 
 
订购文章重印
字体类型:
宋体 佐治亚州 宋体,Verdana
字体大小:
澳大利亚 澳大利亚 澳大利亚
行距:
列宽:
背景:
审查

论搭配及其与句法和翻译的互动

通过
维奥莱塔·塞雷坦
日内瓦大学笔译学院翻译技术系,瑞士日内瓦1211杜邦杜阿尔维博士40号
信息学 2014,1(1) ,11月31日;https://doi.org/10.3390/informatics1010011
收到的提交文件:2013年9月1日/修订日期:2013年10月3日/接受时间:2013年10月16日/发布日期:2013年10月25日
(本文属于特刊自然语言处理的进展)

摘要

以下为:
我们在句法分析和机器翻译这两个主要应用的背景下,解决了自动处理搭配的问题,这是一个具有高度形态句法灵活性的多词表达子类。我们表明,句法分析和搭配识别是相互关联、相互受益的过程,因为句法信息对于从语料库中获取搭配至关重要,反之亦然搭配信息可以用于提高解析性能。同样,我们关注搭配和机器翻译之间的相互关系,强调翻译信息用于多语言搭配识别,以及搭配知识用于改进翻译。我们对现有的相关工作进行了概述,并将文献调查与我们自己的实验(包括符号解析器和基于规则的翻译系统)进行了比较。结果表明,与相应任务解耦的方法相比,该方法有了显著改进。

1.简介

多单词表达——“跨越单词边界的特殊解释”[1]-被广泛认为是自然语言处理(NLP)的关键问题。事实上,他们被视为NLP的“头疼”[1]或“难以攻克的难题”[2]. 多单词表达(以下简称MWE)涵盖了广泛的现象,1例如命名实体、多词虚词、名词性复合词、动词助词结构、动词短语、习语、谚语等,它们都有一个共同的事实,即它们必须作为一个整体而不是逐字处理,因此需要在NLP系统中进行特殊的整体处理。
MWE的一个特别重要的子类是由所谓的“制度化”短语或搭配(例如。,大雨,重度吸烟者,重伤,满足需求,表示感谢,深爱着). 搭配是从句法和语义角度来看相对规则的表达,但在统计上具有特殊性。原则上,这些组成词是通过常规语法过程联系在一起的,例如名词与修饰语的组合产生一个名词短语,其含义可以从各部分的含义中推断出来。然而,这种表达的独特性、特质性或不规则性在于,它们比其他词汇化更受欢迎:例如,比较,交通灯,这是一个搭配,一个制度化的短语,与以下组合*交通指挥员*交叉口调节器,几乎不出现在语言中(例如[1]). 这种组合是高度特定于语言的,并且它们在很大程度上指示语言话语或NLP系统产生的输出的流利程度。即使它们可以分解为多个部分,也必须由计算系统以整体的方式处理,以避免不自然或尴尬的公式。
根据一些研究人员(例如[4,5,6]),在所有类型的MWE中,搭配数量最多。事实上,“任何一篇自然的英语口语或书面语都不能完全摆脱搭配”[7]. 搭配的重要性在于“无处不在”[5]. 值得注意的是,与大多数其他类型的多词表达不同,搭配可能出现在多种句法模式中。以下是英语中常见的与搭配相关的句法结构列表:形容词-noun(重度吸烟者),名词-(谓词)-形容词(全力以赴),名词-名词(自杀式袭击),名词-介词-名词(一轮谈判),名词介词(调查),形容词前置(痴迷于),主题-verb(出现问题),verb对象(符合要求),动词-介词-参数(使沸腾),动词介词(依靠),副词-verb(完全支持),副词形容词(非常重要),形容词-协调形容词(又好又暖和). 此外,词典学证据表明,这个列表可以大大扩展[8]. 综上所述,搭配是一种特殊的组合组合,并不局限于特定的词类或特定的句法模式[9].
长期以来,研究人员一直试图从多个不同的角度来描述词语搭配现象。然而,目前还没有统一的定义,搭配概念一般伴随着模糊和混淆。与其他类型的MWE(尤其是习语)相比,搭配研究较少,也不太容易理解(踢水桶),轻动词结构(去散步)或动词助词结构(向上看)。
在这篇文章中,我们强调了一个特殊的方面,它将搭配与其他表达式区分开来,并使它们特别难以通过计算系统进行处理:搭配的高度形态句法灵活性。原则上,搭配中的组成词可能会经历各种形态和句法转换,这些转换对于语言中的常规组合来说是可能的(参见实施例12). 相反,其他表达式,如命名实体(纽约市),化合物(轮椅)或习语(飞越月球“非常高兴”),相对固定或固定,此特征作为有用的判别特征,允许更局部(因此,计算更便宜)的自动处理。
关于搭配的灵活性,值得注意的是,在NLP和翻译领域,ISO 12620数据类别标准将搭配描述为“[a]以衔接为特征的循环词组合,即搭配的组成部分必须在一个或一系列话语中同时出现,即使它们不一定要保持彼此的直接接近”(强调部分补充)。这个定义突出了搭配的一个基本特征,即组成词的不连续性,这是这些表达的句法灵活性的结果。
事实上,这种不一致性可以说是NLP系统在处理搭配时面临的最大挑战之一。由于搭配表现出(几乎)完全的句法可变性,处理它们需要处理搭配可能发生的广泛句法转换。它们的高度可变性要求采用复杂的语言方法,能够在许多句法环境中准确识别搭配,并考虑到长距离依赖,以便最终在句法分析或翻译等应用中正确处理它们。
我们工作的另一个重点是将搭配集成到实际的NLP管道中,即它们在客户端自然语言应用程序中的使用。几十年来,发展准确的搭配识别技术一直是NLP领域的主要关注点;然而,在其他NLP应用中对搭配的利用却很少受到关注。在本文中,我们解决了将搭配提取(或识别)的应用与两个主要的NLP应用(即句法分析和机器翻译)联系起来的问题。我们研究了协同方法(一种在搭配识别任务和其他两个任务之间共享信息的方法)是否比标准方法更有效,标准方法的任务是相互独立执行的。
本文探讨了到目前为止,NLP领域或多或少追求的四个主要工作方向。通过关注搭配识别任务和句法分析任务之间的相互关系,我们看到了依靠句法分析进行搭配提取可以获得的好处,反之亦然,因为在解析期间使用搭配。然后,通过关注搭配识别和翻译之间的相互关系,我们研究了翻译技术是否有助于自动检测文本语料库中的搭配,反之,搭配是否对机器翻译有用。对于每个主要主题,都提供了一个文献综述,并与我们自己的实验报告进行了对比,证实协同方法优于单独方法。支持协同方法的其他研究结果(例如,使用句法分析进行语义分析[10])这些结果表明,NLP工作(通常是零散的)将从不同任务之间的更大交互中受益。
文章结构如下。第2节,我们重点研究了使用句法分析进行搭配提取。我们调查了相关的工作并概述了我们自己的提取方法,该方法依赖于完整的句法分析来从多种语言的文本语料库中获取搭配。第3节,我们回顾了使用句子和单词对齐等翻译相关技术识别搭配的工作。此外,我们还概述了我们自己通过利用翻译档案来检测搭配的翻译等价物的方法。第4节第5节注重利用搭配知识进行句法分析和翻译。第4节我们讨论了句法分析系统中目前考虑搭配的程度;然后,我们提出了一种方法,即搭配识别和句法分析是同时进行的,而不是像以前的工作那样单独进行。第5节解决了将搭配和其他类型的多词表达集成到机器翻译系统中的问题。它还提出了一项旨在评估搭配对内部基于规则的翻译系统结果的影响的研究。最后,第6节最后,本文总结了目前对搭配的处理方法,并在适当的情况下指出了更合适的处理方法。

2.使用语法分析进行搭配识别

发展搭配提取作为一个研究领域,越来越多的人将语言分析作为一个重要的预处理步骤。这一步可以更准确地识别候选人,然后使用统计方法,特别是所谓的关联度量(例如,相互信息、t核、z分数、, χ 2 ,对数似然比;参见[11,12,13,14]关联度量的描述和比较评估)。
随着越来越先进的技术的出现,预处理技术逐渐从较浅的分析形式演变为较深的分析形式,从标记化、词干化和词元化到分块、浅层分析、依赖分析或完全分析。对输入文本进行语言分析的必要性是合理的,因为有必要解释搭配的高形态句法变化特征。树桩[15]例如,分析了这一对的出现情况轴承重新装配在语料库中,发现动词成分的屈折形式分布如下,承受以下为:18%,11%,令人厌烦11%,轴承4%。综上所述,这些形式在名词搭配总数中占很大比例(44%)相似(1,085).示例1用Stubbs的符号总结了这些信息。
示例1。搭配中的形态变化:Stubbs表示组合屈折形式的符号。
相似性1085<轴承18%,轴承11%,轴承11%>轴承44%
此示例说明了执行词汇分析为了更好地确定潜在的搭配。事实上,大量的搭配提取工作[16,17,18,19]依赖词汇分析,结合基于部分语言(POS)的组合过滤,在一个名为搭配跨度
除了词汇分析之外句法分析人们经常认为输入文本的词序是必要的,尤其是对于表现出更自由语序的语言,如德语或韩语。对于这些语言,为英语开发的提取技术(例如Xtract[20])效率低下,因为它们无法恢复系统的长距离依赖关系,也无法解释参数的位置模糊性。例如,正如Breidt报道的那样[21],即使在德语中,如果不进行语法分析,也很难区分主语和宾语。因此,作者建议将搭配跨度缩短为三个单词,以排除与动词无关的名词。这种策略提高了精确度,但这种改进是以召回为代价的。同样,Kim. [22]报告称像Xtract这样的技术[20]在英语中非常流行,它是基于在文本中以稳定距离共现的词对中选择搭配候选词而设计的,由于其高度的句法灵活性,它完全不适用于韩语。
鉴于搭配具有显著的灵活性,一些研究人员指出,搭配提取应该理想地依赖于对源语料库的句法分析[12,13,20,23,24]. 然而,尽管他们有理论上的争论,但句法分析只在少数实际作品中使用。在这种(例外)情况下,搭配候选词被识别为句法关系中的成对词,而不是普遍采用的无句法方法中的搭配跨度中的成双词。例如,有一些关于搭配工作利用完全句法分析对于德语[25],中文[26]和荷兰语[27]. 对英语也进行了类似的工作[28],一种语言,在该语言中,还通过使用手动注释的句法树库进行了搭配提取实验[29,30]. 此外,依赖项分析已用于多种语言,包括英语[31,32],法语[33]和捷克语[34]. 此外,基于浅层句法分析例如,对于英语[35],德语[36],法语[11,37,38]尤其是在素描引擎多语言系统中[39].
区分这些基于语法的提取系统的一个重要因素是所涉及的解析器的性能。在某些情况下,作者报告了相当高的解析错误率以及健壮性问题,导致他们排除了由20个单词或更多单词组成的长句[27,31,32]. 在其他情况下,语法分析器的语法覆盖范围被报告为有限,提取系统无法处理某些类型的语法转换,如相对化[28].
除了底层的预处理技术和用于对候选对象进行排序的特定关联度量之外,提取系统在考虑的句法配置范围内也有很大差异。一些系统识别单一类型或一些特定句法类型的候选词,例如动词介词[29],介词-名词-介词,介词短语-动词[27],动宾,名词形容词,动词副词[26]或名词短语[11,37,38]. 然而,其他系统旨在扩大覆盖范围,例如[25,39].
尽管通常认为获得高质量结果是必要的,但在NLP社区中,基于语法的提取并不总是被视为可行的解决方案。有时,由于语法分析器不可用,它被丢弃;在其他情况下,不使用语法分析器对源语料库进行预处理的原因是基于各种参数,例如时间效率低、缺乏准确性或缺乏鲁棒性。为了增加怀疑,没有进行任何比较评估来明确证明基于句法的提取相对于简单的无句法的替代方法的优越性。
我们自己的工作[44]致力于设计一种基于完整句法分析的完整提取方法。我们依赖于Fips多语言解析器[40]对源语料库进行预处理,并选择特定句法关系中的单词组合作为候选词(参见第1节). 可以应用一系列关联度量对选定的候选人进行排名;默认情况下提出的衡量标准是对数似然比,它被认为对高频和低频数据都有效[41]. 最初为英语和法语开发的提取系统后来扩展到Fips解析器支持的新语言,即西班牙语、意大利语、德语、希腊语和罗马尼亚语。
Fips是一个基于生成语法概念的健壮符号解析器。它对输入句子进行“深入”的句法分析,利用共索引来跟踪推断成分,即由于句法转换而从初始(规范)位置“移动”到表面位置的成分,如示例2以下为:
示例2。搭配中的句法变化:示例转换。
  • 相对化
  • 各种全球挑战我们不可避免地要面对
2
钝化
  • 这个挑战当今制药行业面临的挑战
三。
审问
  • 哪个挑战做在线媒体面对就新闻自由而言?
解析器解释外部位置的能力对于处理搭配中的长距离依赖情况至关重要,因为这些组合词可能不会出现在同一子句中。示例1例如,动词面对出现在从句中,而其宾语挑战在主句中。从中可以看出示例3在显示(简化的)解析输出时,解析器正确地标识了面对通过创建联合索引链(标记为)包含动词宾语位置的空成分面对, e(电子) ,关系代词那个和以开头的名词短语挑战。由于此机制,verb-object对面对面交流可以成功地确定为潜在搭配。
为了评估句法分析对搭配提取结果质量的影响,进行了两个大规模的评估实验。使用基于句法的提取方法获得的结果与无句法基线的结果进行了比较。基线包括将所谓的滑动窗口方法应用于旅元化和POS过滤的数据,这意味着五个单词窗口内符合所选POS模式的所有可能组合都被视为候选。对数似然比度量[41]这两种情况都适用。
第一个实验是在单语环境中进行的,基于加拿大议会议事录Hansard语料库中的法语数据,总计约120万个单词。三位评委对前500对类型进行了手动评估,结果表明,在无句法基线方面,精确度有了显著提高(99%与。语法性78.3%2; 65.9%与。就结果的词典学兴趣而言,占57%。)
示例3。示例解析输出(A=形容词,Adv=副词,C=补语,D=决定词,N=名词,P=短语,T=时态,V=动词)。
信息学01 00011 i001
第二个实验是跨语言的,使用来自欧洲议会会议记录的Europarl语料库的法语、英语、意大利语和西班牙语平行数据,每种语言平均约370万个单词。采用分层抽样策略选择评估数据,从输出列表中的各个级别(前0%、1%、3%、5%和10%)抽取50对类型的序列。由两名评委组成的团队共对2000对选手进行了手动评估。结果再次显示,与基线相比,有统计学意义的改善(88.8%与。平均语法准确率33.2%;43.2%与。平均词典编纂精度17.2%;和32.9%与。12.8%平均搭配精度4)。
值得注意的是,基线的最顶层结果相对来说是无噪声的,因为关联度量成功地从顶层位置消除了许多错误对。然而,对于位置较低的项目,精度会迅速下降:随着成对频率的降低,单独的测量在消除噪声方面效率低下。相反,基于语法的方法保证了更好的结果的全局质量,这意味着即使分数较低的候选人也没有噪音。这一点尤其重要,因为词汇数据具有倾斜的Zipfian分布,并且大多数候选组合因其低共现频率而得分较低;然而,从词典学的角度来看,它们可能很有趣。在无噪音列表上进行词典编纂工作是基于句法的搭配提取方法的主要优点之一。
这些实验的结果消除了人们对基于句法的搭配提取方法可行性的怀疑,并显示了与无句法方法相比所获得的好处。他们证实了解析信息有助于在统计上显著提高搭配提取性能,并证实了通过使用基于语法的方法进行其他任务(如术语提取)所获得的类似发现[42],语义角色标记[10]和语义相似度计算[43].

3.使用翻译进行搭配识别

在本节中,我们将重点介绍基于翻译的方法来识别多词表达(MWE),特别是搭配。在有关该主题的文献报道中,我们区分了两种不同的趋势:
  • 利用平行语料库或源-目标单语语料库对表示的翻译档案来识别MWE/搭配的翻译等价物的方法;
  • 在检测和排序单语MWE/搭配候选词时考虑单词对齐信息的方法。

3.1. 第一个趋势:利用语料库进行搭配识别

第一种趋势是一种传统且更受欢迎的趋势,例如[26,45,46,47,48,49]. 中的工作[45,46,47]致力于获得名词短语的翻译等价物,而[26,48,53]处理几种句法类型的搭配[49]与MWE一般。在下文中,我们提供了这项工作的进一步细节。(请注意,在这类工作中,评估结果是系统报告的,而对于搭配提取,它们可能会丢失或被小输出样本取代。)
在[45]Kupiec依靠句子对齐的Hansard平行语料库来识别英语和法语之间的名词短语对应关系。源语料库和目标语料库都带有POS标记,然后使用有限状态识别器检测NP。匹配是通过使用期望最大化(EM)进行的,这是一种迭代重新估计算法。对于获得的前100个翻译,报告的精确度为90%。
同样的,范德艾克[46]对语言对荷兰语-英语使用了类似的方法,但匹配是使用两种主要的启发式进行的:目标名词短语的选择取决于(a)它在目标句子中的频率;(b)它在源句中的相对位置。报告的表现较低(68%的准确率和64%的覆盖率),这是因为评估是在1100个名词短语的更大测试集上进行的。
此外,Dagan和Church[47]利用词对齐在平行语料库中寻找名词短语的候选翻译。一旦确定了源名词短语,则建议将短语的第一个单词和最后一个单词对齐之间的文本跨度作为翻译候选。候选人按频率递减顺序排序。作者认为,与以前的系统不同,他们的系统Termay具有查找翻译的优势,即使是不常用的术语。该方法在192份英语-德语信函上进行了测试,达到了40%的精确度(仅考虑第一种翻译方案时)。
上述所有系统仅限于特定类型的结构,即相对固定的标称化合物。相比之下,Smadja建造的Champollion系统. [48]是第一个专门用于搭配的系统,它可以处理刚性和柔性组合。它依赖于Xtract英语搭配提取器[20]. 对于每个来源搭配,它试图从汉萨德语料库中的对齐法语句子中检测出等效翻译。匹配依赖于统计相关度量,即Dice系数。所使用的方法需要额外的后处理步骤,在该步骤中,如果目标端没有进行句法分析,则可以确定灵活搭配中单词的顺序。该系统已由三个注释器进行了评估,在两个不同的测试集(每组300个搭配)上的精确度分别为77%和61%。这些搭配是在中频结果中随机选择的。第二组搭配的频率较低,这解释了获得的精度差异。
吕和周的方法[26]还可以处理灵活的搭配;此外,这些是经过验证的语法成分,因为它们是使用解析器提取的。所考虑的句法类型有动词宾语、形容词名词和副词动词。通过对依存解析器识别的句法相关对应用对数似然比测度,从英汉单语语料库中提取搭配。使用统计翻译模型对源和目标搭配进行匹配,该模型使用EM估计单词翻译。该方法(报告覆盖率为83.98%)在1000个随机选择的搭配的测试集上进行了评估。根据句法类型的不同,它的准确率在50.85%到68.15%之间。双语词典的可用性和质量对该方法的性能至关重要。
我们自己在平行语料库中寻找搭配翻译等价物的方法[53]由源端和目标端并置提取组成,使用中所示的系统执行第2节以及一种语言动机匹配程序,用于将源语搭配与其潜在翻译配对。匹配过程考虑了搭配的句法类型,要求翻译候选者具有兼容的句法类型(例如,英语中的动宾搭配可能有法语中的动宾或动介词自变量等价物:面对挑战,放松德菲;满足需求,雷蓬德雷贝松). 在试图精确定位等效翻译时,也会考虑频率。保留最常见的目标候选词作为潜在翻译;在平分结果的情况下,这些结果根据其关联得分进行排名。如果源搭配中涉及的特定单词可用,也可以使用双语词典中的信息。5更准确地说,我们利用搭配的翻译基础仅:根据理论规定[5],的基础也就是说,搭配的语义自主成分可以逐字翻译,而搭配,语义上依赖于基的组件不能。例如,在满足需求,底座需要按字面意思翻译为贝松; 因此,与名词的组合贝松被视为潜在的翻译等价物。该方法已在从Europarl语料库中提取的4000对样本上进行了评估[55]英语、法语、西班牙语和意大利语。结果表明,根据F度量,该方法的性能为81.6%(准确率为84.1%,召回率为79.2%),这意味着我们的方法优于以前的方法。
Bai的最新方法. [49]使用解析器检测从中文语料库中提取的MWE的英文等价物。匹配方法与[48],也利用了Dice系数,但应用了额外的频率滤波器。通过执行基于任务的评估对性能进行了外部测量,其中提取的翻译等价物用于统计机器翻译;这些都被发现可以显著提高翻译结果。

3.2. 第二个趋势:利用词语对齐

除了从(平行)语料库中检测翻译等价物的方法之外,我们还发现了一类新兴的方法,其中翻译信息,特别是单词对齐,用于MWE的单语识别[50,51]. 这种基于对齐的方法依赖于使用源自统计机器翻译的标准模型的工具。
例如,维拉达·莫伊隆和蒂德曼提出的假设[50]是MWE的习性反映在它们的翻译熵中:与常规(组合)结构不同,习语表达式的组成部分不是按字面翻译的,而是更难翻译。因此,它们有更多的翻译链接,因此,这些表达式的平均熵更高。作者首先使用解析和关联方法提取荷兰语中的动词介词-名词候选词,然后计算它们在英语、西班牙语和德语中的平均翻译熵,以便对这些候选词进行重新排序。他们通过使用UAP(无可匹敌的平均精度)将新排名与旧排名进行比较,对前200名候选人的方法进行评估[52]. 结果发现,对齐显著提高了候选表达式的排名,从而提高了提取性能。
在卡塞利的工作中. [51],单词对齐用于MWE的实际识别,而不是像[50]. 作者将与同一目标序列系统对齐的单词序列视为MWE候选词,而不考虑后者的长度。候选对象经过后滤波,并应用频率阈值。当考虑到人类的判断进行评估时,他们的方法显示出49.28%的总体精度。高频候选词和特定模式(如动词介词/助词)的精确度更高。

4.利用搭配进行句法分析

如Sag所述. [1],MWE是自然语言处理的一个关键问题,因为它们不能用合成方法来处理,因为这会导致过度生成(例如,生成像这样的短语*交叉口调节器而不是交通灯). 此外,由于它们是特殊的(例如,表达式排成一行缺少限定词:*在队列中)。
为了解释语言中存在的MWE,实际的NLP工作通常采用了一种解决方案,包括在词典中列出MWE并通过使用带空格的单词识别MWE的方法。这种方法有两个主要缺点。首先是缺乏灵活性,因为许多表达式允许词汇材料出现在组成词之间,而单词与空格的方法不足以处理这种情况。第二个是词汇增殖问题是,由于表达式通常会表现出变异,所以在词典中列出所有可能的形式是不切实际的。因此,“带空格的单词”方法无法进行泛化,并且处理变化也很糟糕[1].
在搭配的情况下,这些问题更为严重。如中所述第1节,在所有类型的MWE中,搭配是最灵活的,这使得带空格的词完全不适合它们的表示和处理。对搭配成分(例如动词)的形式数量、搭配成分的顺序或可能相互干扰的单词数量没有系统的限制(参见示例2). 搭配位于词汇和语法的交叉点;因此,它们不能仅由解析系统的词汇组件来解释。相反,它们还必须集成到语法组件中,因为解析器必须考虑所有可能的语法实现。
作为单词空间预处理方法的替代方法,语法分析器可以在对输入句子进行分析后识别搭配,方法如下所述第2节再次,从句法分析的角度来看,这种方法并不完全合适,原因在于先前的搭配知识与句法分析高度相关这一重要观察结果。搭配偏好以及其他类型的信息,如选择限制和次范畴化框架,是结构消歧的主要手段。事实上,事实证明,在为句子生成的所有解析树中,句子中单词之间的搭配关系对于选择最合理的树很有用[56,57,58,59]. 正如我们将在本节稍后介绍的那样,一种更合适的方法是将搭配纳入解析器的语法组件中,以便搭配的识别和解析树的构建成为相互作用的过程,这些过程同时发生并相互通知。
在接下来的内容中,我们回顾了MWE/搭配知识在多大程度上被纳入解析系统,以提高其性能。许多研究提供了经验证据,事实上,识别MWE/搭配可以获得更好的解析结果。例如,Brun[60]比较了在预处理阶段使用和不使用术语识别的法语解析器的覆盖范围。她发现,在解析器的预处理组件中集成210个名词性术语后,可供选择的解析器数量显著减少(从平均4.21个减少到2.79个)。作者报告说,删除的语法分析在语义上是不可取的,并且没有排除有效的分析。同样,Zhang. [61]用373个额外的MWE词条扩展了词典,英语解析器的语法覆盖率显著增加(从4.3%增加到18.7%)。
在上述情况下,使用了“带空间的单词”方法来表示MWE。相比之下,阿莱格里亚. [62]和维拉维琴西奥. [63]采用合成方法编码MWE,能够捕获更多形态句法上不灵活的MWE。阿莱格里亚. [62]结果表明,在巴斯克语解析器(开发中)的预处理阶段使用MWE处理器,可以显著提高词性标注精度。维拉维琴西奥. [63]研究发现,在词汇中简单添加21个新的MWE,语法覆盖率显著增加(从7.1%增加到22.7%),但语法准确性没有改变。
此外,句法分析的一个深入研究领域专门涉及使用词汇偏好、共现频率、搭配和上下文相似的词来消除介词短语(PP)的附加歧义。因此,大量的非监督方法[56,64,65],监督方法[57,58]和组合方法[66]已经发展到这一目的。然而,正如[56],这部分工作的瓶颈是解析器缺少解决歧义所需的基于corpus的信息。因此,执行语法分析和识别搭配是一个循环问题,以前的文献没有提供解决方案。
在本节的其余部分中,我们概述了一种与Fips解析器开发相关的新的搭配处理方法,包括同时执行句子分析和搭配识别这两个任务[67]. 简而言之,其思想是,当解析器处理在词典中标记为搭配的一部分的词汇项时,在尝试将其附加到另一项时,它首先检查搭配词典中是否有语法兼容的条目,如果找到,它将对附加两个组件的结构给予高优先级。因此,并置标识机制被纳入解析器的成分附加过程中。
众所周知,鉴于词汇歧义的频繁出现和自然语言语法的高度非确定性,基于语法的解析器面临着许多选择,这些选择随着输入句子的长度呈指数级增长。解析算法使用各种启发式方法来限制备选方案的数量,从而确保解析性能对于处理大型语料库是令人满意的。搭配通过帮助解析器通过迷宫般的备选方案,对消除歧义过程起着至关重要的作用。因此,并置的识别不是一个需要解决的额外任务,而是一个帮助解析器的过程。搭配通常是由高度模糊的单词组成的,识别它们有助于在备选方案中做出选择。例如,在打破记录这两个组件如果单独使用,则会产生歧义,正是它们的组合有助于解析器选择适当的类别和读数。
除词汇消歧外,搭配还有助于结构消歧,如示例4下面是短语人力资源管理.在相互竞争的分析中作出决定,例如,在一个分析中人类已附加到资源和一个连接到管理,解析器利用其搭配词典中的信息。前提是该条目人力资源如果找到,则语法分析器倾向于第一种分析,而不是第二种分析,因为它适应词典中指定的结构。
示例4。短语的替代分析人力资源管理
信息学01 00011 i002
为了测量搭配识别和解析任务耦合的影响,我们进行了实验,将新版本的解析器与之前的解析剂进行了比较,之前的解释器没有使用搭配进行连接决策。我们评估了连接句法分析和搭配识别的过程对句法分析和词语搭配识别这两项任务的性能的影响。关于来自《经济学人》[68]总计超过50万个单词,我们得到了语法分析器覆盖范围的明显增加,以完全解析的句子数量表示(83.3%与。81.7%),以及配置识别精度的提高(93.7%与。81.6%).
结果与之前关于将MWE纳入解析系统的影响的报告一致;不同之处在于,我们的方法充分考虑了MWE的句法灵活性。总之,这些结果表明了这些表达式在语言分析系统的性能中所起的重要作用。

5.在机器翻译中利用搭配

除了对涉及语言分析的NLP应用程序有用之外,从语料库中获得的搭配信息对处理文本生成的应用程序(如自然语言生成和机器翻译)也是至关重要的。在这些应用中,配置被认为是产生更可接受输出的关键因素[28,69].
尽管搭配的含义相对透明,但从语言生产的角度来看,它还是带来了重大问题,因为它们是“编码习语”[70]. 词汇选择仅限于常规形式,这是语言依赖的。因此,常规的选择以及机器翻译中的直译都是不合适的,因为它们可能会导致不自然的(如果不是尴尬的话)表述,即反分配[30](例如。,*指责拖延,法语的直译原告拖延,“体验延迟”)。
为了说明搭配在机器翻译中的重要性,考虑一下法语组合引人注目,大改道大礼仪,其中形容词重大的“big”修饰名词注意,多样性速度.直译会导致英语表述不充分:*大关注、大多样性、大速度正确的翻译,高度关注,范围广泛高速,说明在目的语中使用搭配的必要性:相同的形容词,重大的,有三种不同的翻译方式,具体取决于它所修饰的名词。
如中所述第3节,大量的工作致力于从语料库中提取翻译等价物,例如[26,45,47,48]以及将搭配知识表示为计算词典,用于机器翻译和自然语言生成[69,71]. 然而,很少有关于在这种系统中实际使用搭配知识的报告。
其中一份报告提到了Logos机器翻译系统,该系统使用Orliac和Dillinger方法提取的搭配[28]. 有人认为,通过搭配实现对目标词汇的语境依赖性选择,“显著提高了译文的可读性和感知质量”[28]. 另一篇报道,作者:刘. [72],涉及搭配到统计机器翻译(SMT)系统的集成。作者表明,他们的方法显著提高了单词对齐的性能和翻译质量。在随后的实验中,刘. [73]使用源语言搭配对SMT进行重新排序,再次实现了显著的改进。
更广泛地说,就MWE而言,报告中有更多证据表明,将双语MWE纳入SMT系统会提高翻译结果的质量。例如,白. [49]在他们的SMT系统中增加了1171名中英文MWE,双语评估理解(BLEU)分数有了显著提高。同样,Tsvetkov和Wintner[74]报告称,通过在希伯来语-英语SMT系统中添加2955对MWE翻译对,他们在BLEU和Meteor分数方面取得了统计上显著的改善。此外,Bouamor. [75]使用不同的策略将从100000个句子训练语料库中提取的双语短语整合到他们的英法SMT系统中,发现BLEU和Meteor分数有所增加。
值得注意的是,基于短语的SMT系统已经结合了MWE/搭配知识,作为在大型(并行)语料库上训练其语言和翻译模型的效果。这些系统在处理局部搭配方面很成功,但可能不适合处理组件彼此不太接近的搭配。作为巴比奇. [76]放进去,
“SMT输出在短距离搭配方面往往出人意料地好,但在选择限制对远距离单词产生影响的情况下,往往会错过(……)正确的选择。”
同样的,博德[77]他指出,不连续短语对SMT系统来说是一个真正的挑战,并提供了经验证据,证明这些短语对提高翻译准确性有很大贡献。事实上,我们还发现SMT系统对源搭配的句法环境和词汇环境都非常敏感[78]. 如图所示示例5,同一来源搭配在特定语境中被正确地从英语翻译成法语,而在另一语境中被错误地翻译:
例5。英语到法语的搭配翻译。
  • 依靠我们的人满的支持当需要的时候,让我们充满信心同行者联合国苏田完整的数量
  • 当然,这样做是正确的大量的支持到这些地区[……]等*唐纳联合国苏田地块面积。
最近,Carpuat和Diab[79]进一步证明了MWE对SMT性能的影响。通过对训练和测试句子进行分割,将WordNet中的500个英语多单词(相当于约900个标记)作为“带空格的单词”集成到英语-阿拉伯语SMT中,他们在BLEU和翻译错误率(TER)方面的性能得到了提高。另一个策略是识别系统短语表中500个最常见的n-gram,并使系统偏向于使用不破坏这些n-gram的短语。就自动度量分数而言,这种策略对翻译绩效的影响不太重要,但仍然是积极的。
在我们自己的工作中,我们评估了搭配知识对基于规则的翻译系统,即Its-2系统的影响[54]基于Fips解析器(囊性纤维变性第2节). 通过将搭配添加到底层解析系统中,以间接的方式将其集成到该系统中。更准确地说,集成搭配识别的新解析策略(如第4节)替换了旧的解析策略。这项评估是在200个随机抽取的Europarl句子中进行的,其中一半是英语,一半是意大利语,其中包含动词-宾语搭配。这些句子被翻译成法语,输出由两名法官手动评估。对于这两种语言对,结果表明,当搭配知识以这种特定的方式整合到翻译系统中时,搭配翻译的充分性在统计上有显著的提高。6这些发现与前面提到的关于SMT的发现一致。他们证实了搭配在基于规则的机器翻译场景中的积极影响。
与相关工作不同,我们对搭配的翻译质量进行了重点评估,而不是对句子的整体翻译质量进行评估。我们不太愿意衡量对BLEU分数的影响,因为这一指标更适合于对目标句子的整体评估,而且上下文可能很容易掩盖为搭配选择错误翻译的影响。BLEU通过给句子中的单词同等的权重,低估了为基本单词选择正确搭配的重要性。我们的评估策略与后来创造的评估相对应语言检查点[80]即针对特定语言现象的机器翻译性能评估。
需要进一步调查,以检查改进的搭配翻译的积极效果是否伴随着整体句子质量的类似改善。然而,鉴于搭配在语言中的大量存在及其对语言流利性的作用,我们假设提高搭配的翻译是提高翻译整体质量的主要因素之一。

6.结论

长期以来,多词表达一直是NLP工作的一个重要方面。特别是在开发从文本语料库获取特定类型MWE(如搭配)的技术方面取得了很大进展。然而,这项研究在一定程度上仍然是内生的:尽管人们普遍认识到这类表达式对解析和翻译的重要性,但并没有多少努力致力于将获得的表达式实际集成到这些应用程序中。
在这篇论文中,我们一方面关注多词表达,特别是搭配之间的交互作用,另一方面关注句法分析和机器翻译的应用。我们强调了利用搭配信息提高句法分析和翻译性能的现有工作,反之亦然,使用解析和翻译信息改进基于语料库的搭配识别的工作。除了对这些领域以前的工作进行概述外,我们还描述了我们自己的方法和实验,这些方法和实验源于在多语言、语法感知的环境中持续致力于搭配处理的工作。我们的研究表明,解析和翻译技术对文本语料库中搭配的自动检测有很大的帮助。我们还重点研究了句法分析和机器翻译中搭配的利用,并给出了实验结果,显示了在这两个任务中采用搭配感知方法可以获得的好处。
与MWE/搭配处理相关的最敏感问题之一是句法灵活性。我们的工作特别关注这个问题,并补充了现有的“带空间的单词”方法,这些方法更容易实现,但不太适合建模MWE(囊性纤维变性. [1]). 我们期待着将来在NLP领域进一步集成解析和翻译技术,基于句法的SMT的兴趣不断增加就是明证,我们希望(灵活的)MWE在解析和翻译领域都能占据更突出的位置。我们希望我们目前的发现将有助于理解搭配知识和解析/翻译信息在更好地处理自然语言中所起的相互作用。

致谢

这项工作主要是在作者隶属于语言技术实验室(日内瓦大学)时进行的,由埃里克·韦尔利(Eric Wehrli)负责监督。作者谨感谢他的支持和合作,特别感谢他提供了使这项工作成为可能的解析和翻译基础设施。

利益冲突

作者声明没有利益冲突。

工具书类

  1. 凹陷,I.A。;鲍德温,T。;债券,F。;Copestake,A。;Flickinger,D.多词表达:NLP的颈部疼痛。第三届智能文本处理和计算语言学国际会议论文集(CICLING 2002),墨西哥墨西哥城,2002年2月17日至23日;第1-15页。
  2. 维拉维森西奥,A。;债券,F。;Korhonen,A。;McCarthy,D.多词表达专题介绍:攻克难题。计算。语音语言。 2005,19, 365–377. [谷歌学者] [交叉参考]
  3. 美国海德。计算短语学:概述。短语学:一个跨学科的视角; Granger,S.,Meunier,F.,编辑。;约翰·本杰明斯:荷兰阿姆斯特丹,2008年;第337-360页。[谷歌学者]
  4. 杰肯多夫,R。语言学院的架构; 麻省理工学院出版社:美国马萨诸塞州剑桥,1997年。[谷歌学者]
  5. 梅尔切克,I.搭配和词汇功能。短语学。理论、分析和应用; Cowie,A.P.,编辑。;克莱顿出版社:英国牛津,1998年;第23-53页。[谷歌学者]
  6. 埃尔曼,B。;沃伦,B。成语原则和开放选择原则。文本 2000,20, 29–62. [谷歌学者] [交叉参考]
  7. 牛津英语搭配词典; 李·D·。;Runcie,M.(编辑)牛津大学出版社:英国牛津,2002年。
  8. 本森,M。;Benson,E。;R·伊尔森。BBI英语单词组合词典; 约翰·本杰明斯:阿姆斯特丹,荷兰,费城,宾夕法尼亚州,美国,1986年。[谷歌学者]
  9. Fontenelle,T.《语料库或词典中的搭配习得:比较》。在I-II。提交给1992年8月4日至9日在芬兰坦佩雷举行的第五届EURALEX国际词典编纂大会的论文;第221-228页。
  10. 吉尔迪亚博士。;Palmer,M.谓词变元识别中解析的必要性。2002年7月6日至12日,美国宾夕法尼亚州费城,计算语言学协会第40届年会会议记录;第239-246页。
  11. Daille,B.Approche Mixte Pour l’Extraction Automatique de Terminologie:统计词汇与过滤语言。1994年,法国巴黎第七大学博士论文。[谷歌学者]
  12. Pearce,D.搭配提取技术的比较评估。2002年5月29日至31日在西班牙拉斯帕尔马斯举行的第三届国际语言资源与评价会议记录;第1530-1536页。
  13. Evert,S.《单词共现性统计:单词对和搭配》。2004年,德国斯图加特大学博士论文。[谷歌学者]
  14. Pecina,P.词汇联想测量:搭配提取。2008年捷克共和国布拉格查尔斯大学博士论文。[谷歌学者]
  15. 斯塔布斯,M。词汇和短语:词汇语义语料库研究; 布莱克威尔:牛津,英国,2002年。[谷歌学者]
  16. Church,K。;单词联想规范、相互信息和词典编纂。计算。语言学家。 1990,16, 22–29. [谷歌学者]
  17. Justeson,J.S。;Katz,S.M.技术术语:文本识别的一些语言属性和算法。自然语言工程。 1995,1, 9–27. [谷歌学者] [交叉参考]
  18. Zaiu Inkpen博士。;Hirst,G.获取近义词之间的词汇选择搭配。2002年7月6日至12日,美国宾夕法尼亚州费城,《非监督词汇习得研讨会论文集》(ACL-02);第67-76页。
  19. 托迪拉什·cu,A。;图菲什,D。;海德,美国。;格利德希尔,C。;⑩tefnescu,D。;韦勒,M。;Rousselot,F.提取和分类动词+名词结构的混合方法。2008年5月28日至30日,摩洛哥马拉喀什,第六届国际语言资源与评估会议记录(LREC’08)。
  20. Smadja,F.从文本中检索搭配:Xtract。计算。语言学家。 1993,19,143-177。[谷歌学者]
  21. Breidt,E.从文本语料库中提取V-N搭配:德语的可行性研究。1993年6月22日,美国俄亥俄州哥伦布,《超大语料库:学术和工业视角研讨会论文集》;第74–83页。
  22. Kim,S。;Yoon,J。;Song,M.从韩语文本中自动提取搭配。计算。人性。 2001,35, 273–297. [谷歌学者] [交叉参考]
  23. Heid,U。《单词的组合方式——词汇组合学研究课题》。1994年8月30日至9月3日在荷兰阿姆斯特丹举行的第六届欧洲词汇学国际大会(Euralex’94)会议记录;第226-257页。
  24. Krenn,B.搭配挖掘:利用语料库进行搭配识别和表示。在Sprachkommunikation会议记录中,Vorträge der gemeinsamen Veranstaltung 5。Konferenz zur Verarbeitung natürlicher Sprache(KONVENS 2000),德国伊尔梅瑙,2000年10月9日至12日;第209-214页。
  25. Schulte im Walde,S.A德语动词和名词搭配数据库。2003年4月3日,匈牙利布达佩斯,第七届计算词典学和语料库研究会议论文集。
  26. 吕,Y。;周,M.使用单语语料库进行搭配翻译习得。2004年7月21日至26日在西班牙巴塞罗那举行的计算语言学协会第42次会议记录(ACL’04);第167-174页。
  27. Villada Moirón,M.B.n.数据驱动固定表达的识别及其可修改性。2005年,荷兰格罗宁根大学博士论文。[谷歌学者]
  28. 奥利亚克,B。;Dillinger,M.机器翻译中的搭配提取。2003年9月23日至27日在美国路易斯安那州新奥尔良举行的机器翻译峰会第九届会议记录;第292-298页。
  29. Blaheta博士。;Johnson,M.《多词动词的无监督学习》。2001年7月6日至7日在法国图卢兹举行的ACL搭配研讨会论文集:计算提取、分析和开发;第54-60页。
  30. Pearce,D.搭配提取中的同义词。2001年6月2日至7日,美国宾夕法尼亚州匹兹堡,NAACL WordNet和其他词汇资源:应用、扩展和定制研讨会论文集;第41-46页。
  31. Lin,D.从文本语料库中提取搭配。1998年8月15日,加拿大蒙特利尔,第一届计算术语研讨会论文集;第57-63页。
  32. Lin,D.非合成短语的自动识别。1999年6月20日至26日在美国马里兰州大学帕克举行的计算语言学协会第37届年会会议记录;第317–324页。
  33. 夏雷斯特,S。;布鲁内尔,E。;Fontaine,J。;Pelletier,B.Élaboration Automatique d‘un Dictionnaire de Cooccurrences Grand Public。在2007年6月5日至8日于法国图卢兹举行的《自然语言自动机会议记录》(TALN 2007)中;第283-292页。
  34. Pecina,P.词汇联想测量和搭配提取。语言资源。评估。 2010,1, 137–158. [谷歌学者] [交叉参考]
  35. Church,K。;加尔,W。;Hanks,P。;Hindle,D.Parsing,《单词联想和典型的谓词-论元关系》。1989年8月28日至31日,美国宾夕法尼亚州匹兹堡,《解析技术国际研讨会论文集》;第103–112页。
  36. Wermter,J。;Hahn,U.。复杂多词术语提取的范式可修改性统计。2005年10月6日至8日,加拿大温哥华,人类语言技术和自然语言处理经验方法会议记录(HLT'05);第843-850页。
  37. 莱克斯特·布瑞高(D.LEXTER)对语言“助手”的含义进行了解释。《Connaissances 3èmes Journées d’acquisition des Connaissences法案》1992年4月,法国杜丹。[谷歌学者]
  38. Jacquemin,C。;Klavans,J.L。;Tzoukermann,E.使用形态学和句法进行索引和检索的多词术语扩展。1997年7月7日至12日在西班牙马德里举行的计算语言学协会第35届年会会议记录;第24-31页。
  39. 基尔加里夫,A。;Rychly,P。;Smrz,P。;塔格韦尔,D.素描引擎。2004年7月15日至19日在法国洛里昂举行的第十一届EURALEX国际大会会议记录;第105–116页。
  40. Wehrli,E.Fips,“深层”语言多语言解析器。2007年6月28日在捷克共和国布拉格举行的ACL 2007深度语言处理研讨会会议记录;第120-127页。
  41. Dunning,T.意外和巧合统计的精确方法。计算。语言学家。 1993,19, 61–74. [谷歌学者]
  42. 梅纳德,D。;Ananiadou,S.《术语语境聚类的语言学方法》,《环太平洋自然语言研讨会论文集》,1999年11月5日至7日,中国北京;第346–351页。
  43. 南卡罗来纳州帕多。;Lapata,M.基于依赖关系的语义空间模型构建。计算。语言学家。 2007,33, 161–199. [谷歌学者] [交叉参考]
  44. V·塞雷坦。基于句法的搭配提取、文本、语音和语言技术; 施普林格:荷兰多德雷赫特,2011年。[谷歌学者]
  45. Kupiec,J.在双语语料库中查找名词短语对应关系的算法。1993年6月22日至26日,美国俄亥俄州哥伦布,计算语言学协会第31届年会会议记录;第17-22页。
  46. Van der Eijk,P.《双语术语自动获取》。1993年6月22日至26日,荷兰乌得勒支,计算语言学协会欧洲分会第六届会议记录;第113-119页。
  47. 达根,I。;英国丘奇。特尔梅:识别和翻译技术术语。1994年10月13日至15日在德国斯图加特举行的第四届应用自然语言处理会议记录;第34-40页。
  48. Smadja,F。;McKeown,K。;Hatzivassilogou,V.双语词汇的搭配翻译:统计方法。计算。语言学家。 1996,22, 1–38. [谷歌学者]
  49. Bai,M.H。;你,J.M。;Chen,K.J。;Chang,J.S.通过归一化相关频率获得多词表达的翻译等价性。《2009年自然语言处理实证方法会议记录》,新加坡,2009年8月6日至7日;第478–486页。
  50. 维拉达·莫伊隆,B.n。;Tiedemann,J.使用自动词语对齐识别习语表达。在2006年4月3日于意大利特伦托举行的多语种背景下的多语言表达研讨会会议记录中;第33-40页。
  51. H.D.M.卡塞利。;拉米什,C。;das Graças Volpe Nunes,M。;Villavicencio,A.基于对齐的多词表达式提取。语言资源。评估。 2010,44, 59–77. [谷歌学者] [交叉参考]
  52. 曼宁,C.D。;H·施策。统计自然语言处理基础; 麻省理工学院出版社:美国马萨诸塞州剑桥市,1999年。[谷歌学者]
  53. 塞雷坦,V。;基于句子对齐和句法分析的搭配翻译。2007年6月5日至8日,法国图卢兹,TALN,2007年,《自然语言自动机会议记录》;第401-410页。
  54. Wehrli,E。;Nerima,L。;Scherrer,Y.深度语言多语言翻译和双语词典。2009年4月30日至31日,希腊雅典,第四届统计机器翻译研讨会论文集;第90-94页。
  55. Koehn,P.Europarl:统计机器翻译的平行语料库。第十届机器翻译峰会(MT Summit X)会议记录,2005年9月12日至16日,泰国普吉岛;第79-86页。
  56. Hindle,D。;结构歧义和词汇关系。计算。语言学家。 1993,19, 103–120. [谷歌学者]
  57. Alshawi,H。;Carter,D.消除歧义的训练和缩放偏好函数。计算。语言学家。 1994,20, 635–648. [谷歌学者]
  58. Berthouzoz,C。;Merlo,P.基于原则的分析的统计歧义解决。自然语言处理的最新进展:RANLP’97论文集,语言学理论的当前问题; 尼科洛夫,N.,米特科夫,R.,编辑。;约翰·本杰明斯:阿姆斯特丹,荷兰,费城,宾夕法尼亚州,美国,1997年;第179-186页。[谷歌学者]
  59. Wehrli,E.解析和搭配。自然语言处理; Christodulakis,D.编辑。;施普林格·弗拉格:德国柏林/海德堡,2000年;第272-282页。[谷歌学者]
  60. Brun,C.《计算LFG的有限状态预处理术语》。1998年8月10日至14日在加拿大蒙特利尔举行的计算语言学协会第36届年会和第17届国际计算语言学会议记录;第196-200页。
  61. Zhang,Y。;科尔多尼,V。;维拉维森西奥,A。;Idiart,M.《语法工程中的多词表达自动预测》,《多词表达:识别和利用潜在属性研讨会论文集》,澳大利亚悉尼,2006年7月23日;第36-44页。
  62. Alegria,I.N。;Ansa,O。;Artola,X.公司。;北埃泽扎。;Gojenola,K。;Urizar,R.巴斯克语中多词表达的表征和处理。2004年7月26日,西班牙巴塞罗那,第二届ACL多词表达:整合处理研讨会论文集;第48-55页。
  63. 维拉维森西奥,A。;科尔多尼,V。;Zhang,Y。;Idiart,M。;Ramisch,C.《语法工程中自动获取的多词表达式的验证和评估》,2007年6月28日至30日在捷克共和国布拉格举行的2007年自然语言处理和计算自然语言学习经验方法联合会议论文集;第1034–1043页。
  64. Ratnaparkhi,A.非监督介词短语连接的统计模型。1998年8月10日至14日在加拿大蒙特利尔举行的计算语言学协会第36届年会和第17届国际计算语言学会议记录;第1079–1085页。
  65. Pantel,P。;Lin,D.使用上下文相似词的介词短语连接的非监督方法。2000年10月1日至8日,中国香港,计算语言学协会第38届年会会议记录;第101-108页。
  66. Volk,M.结合无监督和监督方法消除PP附件歧义。2002年8月24日至9月1日,台湾台北,第19届国际计算语言学会议(COLING’02)论文集;第25-32页。
  67. Wehrli,E。;Seretan,V.公司。;句子分析和搭配识别。《多词表达:从理论到应用研讨会论文集》,MWE 2010,中国北京,2010年8月28日;第27-35页。
  68. 《经济学人》。可在线访问http://www.economist.com网站(2002年至2013年访问)。
  69. 海伦·D·。;麦克斯韦,K.G。;Verhagen,M.词汇功能与机器翻译。《第十五届国际计算语言学会议论文集》(COLING 1994),日本京都,1994年8月5日至9日;第1240–1244页。
  70. 菲尔莫尔,C。;Kay,P。;奥康纳,C.语法结构中的规则性和惯用性:更不用说语言 1988,64,501–538。[谷歌学者] [交叉参考]
  71. 海德,美国。;Raab,S.《多语世代中的搭配》。1989年4月10日至12日,英国曼彻斯特,计算语言学协会欧洲分会第四届会议记录;第130–136页。
  72. 刘,Z。;Wang,H。;Wu,H。;Li,S.用单语搭配改进统计机器翻译。2010年7月11日至16日,瑞典乌普萨拉,计算语言学协会第48届年会会议记录;第825-833页。
  73. 刘,Z。;Wang,H。;Wu,H。;刘,T。;Li,S.用源语言搭配重新排序。2011年6月19日至24日,美国俄勒冈州波特兰市,计算语言学协会第49届年会论文集:人类语言技术;第1036-1044页。
  74. Tsvetkov,Y。;Wintner,S.从小型平行语料库中提取多单词表达式。2010年《科林学报:海报》,中国北京,2010年8月23日至27日;第1256–1264页。
  75. Bouamor,D。;塞玛,N。;Zweigenbaum,P.识别统计机器翻译中的双语多词表达式。2012年5月23日至25日,土耳其伊斯坦布尔,第八届国际语言资源与评估会议(LREC’12)会议记录。
  76. 巴比奇,B。;Eberle,K。;盖伊,J。;Ginestí-罗塞尔,M。;哈特利,A。;拉普,R。;沙洛夫,S。;Thomas,M.混合式高质量机器翻译系统的设计。2012年4月23日至24日,法国阿维尼翁,《利用信息检索与机器翻译(ESIRMT)和机器翻译混合方法(HyTra)之间的协同作用联合研讨会论文集》;第101-112页。
  77. 基于句法的无监督机器翻译:不连续短语的贡献。2007年9月10日至14日在丹麦哥本哈根举行的第十一届机器翻译峰会会议记录;第51-56页。
  78. Wehrli,E。;塞雷坦,V。;Nerima,L。;Russo,L.在基于规则的机器翻译系统中的搭配:对其翻译充分性的案例研究评估。2009年5月14日至15日,西班牙巴塞罗那,欧洲机器翻译协会第十三届年会论文集;第128–135页。
  79. Carpuat,M。;Diab,M.基于任务的多词表达评估:统计机器翻译的初步研究。《人类语言技术学报:计算语言学协会北美分会2010年年会》,美国加利福尼亚州洛杉矶,2010年6月2-4日;第242-245页。
  80. Naskar,S.K.公司。;托拉尔,A。;Gaspari,F。;Way,A.基于语言检查点的机器翻译诊断评估框架。2011年9月19日至23日在中国厦门举行的第十三届机器翻译峰会会议记录;第529-536页。
  • 1读者参考[]以获取多词表达式的详细分类及其计算处理的概述。
  • 2采用双样本t检验比较两种方法输出的语法对数量。产量有显著差异:t(982)=10.78, 第页 < 0.001
  • 三。进行了类似的双样本t检验,以比较词典中被认为值得存储的对的数量。差异具有统计学意义:两个样本t(982)=2.90, 第页 < 0.01
  • 4进行了两次样本t检验,以比较:(1)语法对的数量;(2) 认为值得存储在词典中的对;(3)标记为搭配的配对。获得的差异具有统计学意义:(1)两个样本t(1435)=26.65, 第页 < 0.001 ); (2) 两个样本t(1435)=11.04, 第页 < 0.001 ; 3) 两个样本t(1435)=9.15, 第页 < 0.001
  • 5我们试验了使用和不使用词典信息(在我们的例子中,是Its-2内部机器翻译系统的词汇数据库[54]).
  • 6进行了McNemar测试,以比较翻译变得更好的案例数量与。更糟糕。对于英语和法语,差异(14与。4) 具有统计显著性( 第页 = 0.0339 ). 对于意大利-法国,差异(16与。3) 具有非常显著的统计意义( 第页 = 0.0014 )。

分享和引用

MDPI和ACS样式

V·塞雷坦。搭配及其与句法分析和翻译的互动。信息学 2014,1, 11-31.https://doi.org/10.3390/informatics1010011

AMA风格

塞雷坦五世。搭配及其与句法分析和翻译的互动。信息学. 2014; 1(1):11-31。https://doi.org/10.3390/informatics1010011

芝加哥/图拉宾风格

维奥莱塔·塞雷坦。2014.“论搭配及其与句法分析和翻译的互动”信息学1号,编号:11-31。https://doi.org/10.3390/informatics1010011

文章指标

返回页首顶部