30,700发现的研究成果

    低资源神经机器翻译的语言模型优先

    获取PDF
    大型平行语料库的缺乏是神经网络的一个重要障碍机器翻译。一个常见的解决方案是利用语言知识在丰富的单语数据上训练的模型(LM)。在这项工作中,我们建议在神经翻译模型(TM)中加入LM的新方法。具体来说,我们添加了一个正则化项,它推动输出TM的分布在LM先验下是可能的,同时避免了错误当TM与LM“不一致”时的预测。本目标涉及知识蒸馏,其中LM可被视为向TM传授目标语言。该方法不影响解码速度,因为LM只在训练时使用,与以前的工作不同在推理过程中需要它。我们对以下影响进行了分析不同的方法对TM的分布有影响低资源机器翻译数据集显示出明显的改进,即使有限的单语数据

    超越并行数据进行神经机器翻译

    获取PDF
    神经机器翻译(NMT)的目标是构建一个端到端系统自动将句子从源语言翻译为目标语言。神经机器翻译已成为机器翻译的主导范式近年来,许多统计方法都比以前的统计方法有了很大的改进情节。然而,神经机器翻译在很大程度上依赖于并行语料库培训;即使对于拥有丰富单语资源(或拥有大量单语资源)的两种语言演讲者数量),这样的平行语料库可能很少。因此,重要的是制定在NMT培训中利用其他类型数据的方法。本论文探索增加神经机器翻译并行训练数据的方法非平行数据源。我们专注于两种主要的附加类型资料:单语语料库和结构注释。首先,我们提出一种方法将目标语言单语数据添加到神经机器翻译中,其中通过复制将单语数据转换为并行数据。因此,NMT系统接受过两项任务的培训:从源语言到目标语言的翻译,以及自动编码目标语言。我们表明,该模型在以下方面取得了改进低和中分辨率设置的BLEU分数。其次,我们认为零源NMT,无源目标并行训练数据可用,但是使用pivot语言的并行数据非常丰富。我们通过添加枢轴语言中的单语语料库,将该语料库翻译为源语言和源语言和目标语言来创建伪平行的源-目标语料库。在第二次在这篇论文的一半,我们将注意力转向语法,介绍添加的方法将源语言的句法注释转化为神经机器翻译。特别地,我们的多源模型,它利用额外的编码器注入语法在NMT模型中,与非语法NMT相比高资源翻译案例,同时对未分析的输入保持健壮性。我们还引入了一个多任务模型,该模型用语法增强了transformer体系结构;该模型改进了跨多个语言对的翻译。最后,我们考虑没有可用语法注释的情况(例如从资源极低的语言)。我们引入了一种无监督的分层编码器仅基于下游任务在源语句上归纳树结构翻译。虽然生成的层次结构与传统语法不同,该模型表明,对于低资源NMT,BLEU有了很大改进

    识别无注释平行文本中的语义差异

    全文链接
    认识到即使是正确的翻译也不总是语义上的等价地,我们自动检测平行句中的意义差异双语语义相似度的深层神经模型对针对任何并行语料库进行训练,无需任何手动注释。我们展示了我们的语义模型比基于表面的模型更准确地检测差异来自单词对齐的特征,这些差异对神经机器翻译。评论:作为NAACL 201的全文接受

    低资源语音翻译

    获取PDF
    我们探讨了语音到文本翻译(ST)的任务,其中语音是一种语言(源)转换为另一个(目标)中的文本。传统ST系统go通过一个中间步骤,首先将源语言语音转换为使用自动语音识别(ASR)系统的源语言文本,该系统然后使用机器翻译(MT)系统将其转换为目标语言文本。然而,这种基于管道的方法对于全世界数百万人无法自由和自动化谷歌翻译等翻译服务。缺乏此类翻译服务可能会具有重要的现实后果。例如,灾难发生后设想中,容易获得的翻译服务可以帮助更好地协调救援工作。我们如何扩大自动化ST系统的覆盖范围,以包括以下场景缺少源语言文本?在本论文中,我们研究了一种可能的解决方案:我们构建ST系统,将源语言语音直接翻译为目标语言文本,从而放弃对源语言文本的依赖。为了建立这样一个系统,我们只使用与文本翻译配对的语音数据作为训练数据。我们还特别专注于低资源环境,我们最多需要几十小时的培训数据适用于不成文或濒危语言。我们的工作大致可以分为三部分。首先,我们探索如何利用构建ST系统的前期工作。我们发现神经序列到序列模型一种有效且方便的ST翻译方法,但当在低资源环境中接受培训。在本文的第二部分,我们探索了提高翻译绩效的方法不需要标记附加语音的神经ST系统低资源语言中的数据,这是一个潜在的繁琐和昂贵的过程。相反我们将标记语音数据用于高资源语言,这种语言广泛可用而且相对容易获得。我们表明,用ASR数据预训练神经模型不同于源语言和目标ST语言的高资源语言,提高ST性能。在论文的最后一部分,我们研究了ST系统是否可以用于构建传统上依赖ASR系统可用性的应用程序,例如作为信息检索、聚类音频文档或问答。我们构建两个下游应用的概念验证系统:语音主题预测和跨语言关键词识别。我们的结果表明,低资源ST系统对于这些任务,仍然可以优于简单的基线,为进一步的任务敞开大门探索性工作。本论文首次深入研究了在真实多扬声器上跨一系列训练数据设置直接ST的任务语音语料库。我们的贡献包括一套开源工具,以鼓励进一步研究
    核心核心