论文 博士学位

基于数据透视的形态丰富语言统计机器翻译

艾哈迈德·埃尔·科利

本文描述了形态学丰富语言(MRL)中基于枢轴的统计机器翻译(SMT)的研究工作。我们提供了一个框架来翻译形态丰富的语言,尤其是在源语言和目标语言之间很少或没有平行语料库的情况下。我们基本上解决了三个主要挑战。第一个是由于形态丰富导致的数据稀疏。第二个是最大限度地提高旋转过程本身的精度和召回率。最后一个是利用源语言和目标语言之间的任何并行数据。为了应对数据稀疏性的挑战,我们探索了标记化方案和规范化选项的空间。我们还研究了一组六种去核化技术,以评估去核化和正交校正(丰富)输出。我们提供了一个最佳设置的食谱,可以翻译成最具挑战性的语言之一,即阿拉伯语。我们的最佳模型将翻译质量提高了1.3 BLEU点。我们还研究了翻译和形态学生成分离的思想。我们比较了三种形态特征建模方法。特征可以建模为核心翻译的一部分。或者,可以使用目标单语上下文生成这些特征。最后,可以使用源信息和目标信息预测特征。在我们的实验结果中,我们的表现优于香草因子翻译模型。为了决定翻译、生成或预测哪些特征,应该对系统输出进行详细的错误分析。因此,我们提出了AMEANA,这是一个用于自然语言处理任务错误分析的开源工具,目标是形态丰富的语言。我们关心的第二个挑战是旋转过程本身。我们讨论了几种提高枢轴匹配精度和召回率的技术。一种改进召回的技术是在单词对齐的水平上工作的,这是一种通过在源语言和目标语言之间生成短语对来驱动的调整的优化过程。尽管提高枢轴匹配的调用可以提高整体翻译质量,但我们也需要提高枢轴质量的精度。为了实现这一点,我们引入了质量约束分数来确定源语言和目标语言之间的枢轴短语对的质量。我们对不同的语言对显示了积极的结果,这表明了我们方法的一致性。在我们最好的模型之一中,我们达到了1.2 BLEU点的改进。我们关心的第三个挑战是如何利用源语言和目标语言之间的任何并行数据。我们建立在提高枢轴旋转过程精度的方法以及枢轴系统和由并行数据构建的直接系统之间的组合方法的基础上。在其中一种方法中,我们将形态学约束分数添加到特征的对数线性空间中,以确定枢轴短语对的质量。我们比较了两种生成形态学约束的方法。一种方法是基于手工规则,依赖于我们对源语言和目标语言的知识;而在另一种方法中,形态学约束是从源语言和目标语言之间可用的并行数据中归纳出来的,我们也使用这些数据来构建直接翻译模型。然后,我们将枢轴模型和直接模型结合起来,以实现更好的覆盖率和整体翻译质量。使用诱导形态学约束优于手工制作的规则,并比我们以前所有方法的最佳模型改进了0.6个BLEU点(分别来自直接基线和枢轴基线的7.2/6.7个BLEU点)。最后,我们介绍了如何应用智能技术来组合枢轴模型和直接模型。我们表明,智能选择组合可以导致枢轴模型的大幅缩减,而不会影响性能,在某些情况下也会改善性能。

文件夹

  • Kholy_columbia_0054D_13159.pdf的拖尾 Kholy_columbia_0054D_13159.pdf 应用程序/pdf 1.59 MB 下载文件

关于本作品的更多信息

学术单位
计算机科学
论文顾问
丽贝卡·帕索内奥
学位
哥伦比亚大学博士
发布于此处
2016年2月9日