×

用于统计机器翻译的局部信息双语约束递归自动编码器。 (英语) Zbl 1390.68698号

摘要:学习高质量的短语向量表示是统计机器翻译的重要研究课题之一。在短语嵌入方面,现有的大多数研究主要探索短语内部单词之间的句法和语义线索,但由于缺乏上下文信息,这些线索不足以进行表征学习。在本文中,我们提出了用于SMT的主题信息双语约束递归自编码器,它通过两种方式利用潜在主题,大大扩展了传统的双语约束递归自动编码器。首先,我们引入主题语境来诱导主题短语嵌入。其次,利用潜在主题模型中的词-主题分配来约束词和主题嵌入的学习,这两者构成了该模型中上下文短语嵌入学习的基础。汉英翻译实验结果表明,该模型显著提高了NIST测试集的翻译质量。

MSC公司:

68T50型 自然语言处理
68T05型 人工智能中的学习和自适应系统
PDF格式BibTeX公司 XML格式引用
全文: 内政部