统计机器翻译中标记的处理

马蒂亚斯·米勒


摘要
我们介绍了在统计机器翻译(SMT)中处理XML标记的工作。我们提出的方法可以有效地保留标记(例如内联格式或结构),并将标记正确地放置在机器翻译的段中。我们使用自然包含标记的并行数据或插入标记以创建合成示例的位置来评估我们的方法。在我们的实验中,混合重新插入已被证明是处理标记的最准确方法,而对齐掩蔽和对齐重新插入应被视为可行的替代方法。我们提供所描述的所有方法的实现,它们作为开源框架免费提供。
选集ID:
宽17-4804
体积:
第三届机器翻译语篇研讨会论文集
月份:
九月
年份:
2017
地址:
丹麦哥本哈根
编辑:
邦妮·韦伯,安德烈·波佩斯库·贝利斯,约格·蒂德曼
地点:
DiscoMT公司
SIG公司:
出版商:
计算语言学协会
注:
页:
36–46
语言:
网址:
https://aclantology.org/W17-4804
内政部:
10.18653/v1/W17-4804
比比键:
引用(ACL):
马蒂亚斯·米勒。2017统计机器翻译中标记的处理.英寸第三届机器翻译语篇研讨会论文集,第36-46页,丹麦哥本哈根。计算语言学协会。
引用(非正式):
统计机器翻译中标记的处理(缪勒,DiscMT 2017)
复制引文:
PDF格式:
https://aclantology.org/W17-4804.pdf