发现的研究成果

    HUME:基于人类UCCA的机器翻译评估

    获取PDF
    机器翻译的人工评估通常使用句子级度量诸如相对排名或适当性尺度。然而,这些并不能提供深入的见解可能会出现错误,并且句子长度不能很好地调整。我们主张基于语义的评估,它捕获了什么是意义组件保留在MT输出中,从而提供对翻译质量,以及基于语义的机器翻译。我们提出了一种新的人类语义评估方法,human基于UCCA的机器翻译评估(HUME),基于UCCA语义表示方案。与以前的方法相比,HUME涵盖了更广泛的语义现象并且不依赖于潜在混淆的MT输出的语义注释。我们用四种语言对进行实验,证明HUME的广泛性适用性,报告良好的国家间协议率和相关性有人的适当性得分

    统计和神经机器翻译的句法和语义特征

    获取PDF
    具有长距离依赖和单词重新排序,例如德语-英语,容易产生词汇上的输出或句法不连贯。使用显性或隐性的统计MT(SMT)模型改进重新排序的语法,但未能捕获其他长距离依赖项。本文探讨了显式句子级句法信息如何改进翻译这种复杂的语言现象。特别是,我们在表达谓词-参数的句法-语义接口的层次结构。这些对于在翻译和SMT系统长期以来一直在努力为其建模。字符串到树SMT系统使用显式目标语法处理长距离重新排序,但做出强烈的独立假设,导致词汇不一致选择。为了解决这个问题,我们提出了一个选择性偏好功能使用解码器中可用的目标依赖关系。我们发现我们的功能不是在德语的字符串到树系统中有效英语通常是条件反射语境是错误的,因为动词翻译错误。为了改进动词翻译,我们提出了一个神经动词词汇模型(NVLM)从携带相关信息的源语中整合句子级句法语境动词消歧的语义信息。用作重新入账的附加功能时德国人的输出英文字符串到树系统,NVLM得到改进动词翻译准确率高达2.7%,召回率高达7.4%。虽然NVLM改进了翻译的某些方面,但其他句法和词汇方面不一致性并不是通过独立模型的线性组合来解决的。与SMT相比,神经机器翻译(NMT)避免了很强的独立性假设,从而生成更流畅的翻译并捕获一些远距离依赖关系。不过,加入额外的语言信息可以提高翻译质量质量。我们提出了一种在NMT中紧密耦合目标词和语法的方法解码器。为了显式地表示语法,我们使用了CCG超级标记,它对子类别进行编码信息,捕获远程依赖关系和附件。我们的该方法提高了几个困难语言结构的翻译质量,包括介词短语是最常见的谓词论元类型。这些在两种语言中,对强基线NMT系统的改进是一致的对:德语0.9 BLEU英语和1.2 BLEU(罗马尼亚语)英语
    核心核心