段落级训练和元评估机器翻译评估指标

丹尼尔·多伊奇,尤拉杰·尤拉斯卡,玛拉·芬克尔斯坦,马库斯·弗雷塔格


摘要
随着机器翻译研究转向句子级以外的文本翻译,目前尚不清楚自动评估指标在为较长翻译评分方面的有效性。在这项工作中,我们首先提出了一种从现有句子级数据创建段落级数据用于训练和元评估指标的方法。然后,我们使用这些新数据集对现有句子级指标以及段落级训练学习指标进行基准测试。有趣的是,我们的实验结果表明,使用句子级指标对整个段落进行评分与使用设计用于段落级的指标同样有效。我们推测,这一结果可归因于基于参考的评估任务的特性以及我们的数据集在捕捉段落级翻译中出现的所有类型的现象方面的局限性。
选集ID:
2023年3月至1.96年
体积:
第八届机器翻译会议记录
月份:
十二月
年份:
2023
地址:
新加坡
编辑:
菲利普·科恩,巴里·哈多,汤姆·科米,克里斯托夫·蒙兹
地点:
WMT公司
SIG公司:
SIGMT公司
出版商:
计算语言学协会
注:
页:
996–1013
语言:
网址:
https://aclantology.org/2023.wmt-1.96
内政部:
10.18653/v1/2023.wmt-1.96
比比键:
引用(ACL):
Daniel Deutsch、Juraj Juraska、Mara Finkelstein和Markus Freitag。2023段落级训练和元评估机器翻译评估指标.英寸第八届机器翻译会议记录,第996-1013页,新加坡。计算语言学协会。
引用(非正式):
段落级训练和元评估机器翻译评估指标(Deutsch等人,WMT 2023)
复制引文:
PDF格式:
https://aclantology.org/2023.wmt-1.96.pdf