无标准正字法方言机器翻译度量标准的评估基准

诺米·阿埃普利,Chantal Amrhein公司,弗洛里安·肖特曼,里科·森里奇


摘要
对于自然语言处理的合理进展,我们必须意识到我们使用的评估指标的局限性。在这项工作中,我们评估了非标准化方言的健壮性指标,即没有标准正字法的语言变体的拼写差异。为了研究这一点,我们收集了从英语到两种瑞士德语方言的自动机器翻译的人类翻译和人类判断数据集。我们进一步为方言变化创建了一个挑战集,并对现有指标的性能进行了基准测试。我们的结果表明,现有的指标无法可靠地评估瑞士-德国文本生成输出,尤其是在段级别。我们提出了初步的设计调整,以提高面对非标准化方言的鲁棒性,尽管仍有很大的改进空间。数据集、代码和模型可从以下位置获得:https://github.com/textshuttle/dialect_eval
选集ID:
2023.wmt-1.99年
体积:
第八届机器翻译会议记录
月份:
十二月
年份:
2023
地址:
新加坡
编辑:
菲利普·科恩,巴里·哈多,汤姆·科米,克里斯托夫·蒙兹
地点:
WMT公司
SIG公司:
SIGMT公司
出版商:
计算语言学协会
注:
页码:
1045–1065
语言:
网址:
https://aclantology.org/2023.wmt-1.99
内政部:
10.18653/v1/2023.wmt-1.99
比比键:
引用(ACL):
诺米·埃普利、香塔尔·阿姆莱因、弗洛里安·肖特曼和里科·森里奇。2023一种评估无标准正字法方言机器翻译指标的基准.英寸第八届机器翻译会议记录,第1045-1065页,新加坡。计算语言学协会。
引用(非正式):
无标准正字法方言机器翻译度量标准的评估基准(Aepli等人,WMT 2023)
复制引文:
PDF格式:
https://aclantology.org/2023.wmt-1.99.pdf