Exploring Document-Level Literary Machine Translation with Parallel Paragraphs from World Literature

Thai, Katherine; Karpinska, Marzena; Krishna, Kalpesh; Ray, Bill; Inghilleri, Moira; Wieting, John; Iyyer, Mohit

计算机科学>计算与语言

arXiv:2210.14250（cs）

【2022年10月25日提交】

标题：利用世界文学中的平行段落探索文献级文学机器翻译

作者：凯瑟琳·泰语,马尔泽娜·卡平斯卡,卡尔佩什·克里希纳,比尔·雷,莫伊拉·英希勒里,约翰·维廷,莫希特·伊耶

查看PDF

摘要：文学翻译是一项文化意义重大的任务，但相对于世界各地出版的许多未翻译作品，只有少数合格的文学翻译家使其陷入了瓶颈。机器翻译（MT）有潜力通过改进培训程序和整体效率来补充人工翻译的工作。文学翻译比传统机器翻译受到的限制更小，因为译者必须平衡目标语言中的意义对等、可读性和批判性可解释性。这一特性，再加上文学文本中复杂的语篇级语境，也使得文学机器翻译的计算建模和评估更具挑战性。为了探索这项任务，我们收集了公共领域中非英语小说的数据集（Par3），每个数据集在段落级别都与人工翻译和自动英语翻译对齐。使用Par3，我们发现专家级文学翻译人员比机器翻译段落更喜欢参考人工翻译，比率为84%，而最先进的自动机器翻译度量与这些偏好无关。专家们指出，机器翻译的输出不仅包含误译，还包含干扰性错误和文体不一致。为了解决这些问题，我们训练了一个后编辑模型，该模型的输出优先于正常机器翻译输出，专家的输出率为69%。我们在公开发布Par3此https URL推动文学音乐的未来研究。

评论：	EMNLP 2022年
学科：	计算与语言（cs.CL）
引用为：	arXiv:2210.14250【cs.CL】
	（或 arXiv:2210.14250v1【cs.CL】对于此版本）
	https://doi.org/10.48550/arXiv.2210.14250

提交历史记录

发件人：Katherine Thai[查看电子邮件]
[第1版]2022年10月25日星期二18:03:34 UTC（7659 KB）

计算机科学>计算与语言

标题：利用世界文学中的平行段落探索文献级文学机器翻译

提交历史记录

访问纸张：

参考文献和引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目

计算机科学>计算与语言

标题：利用世界文学中的平行段落探索文献级文学机器翻译

提交历史记录

访问纸张：

参考文献和引文

BibTeX格式的引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目