Towards Explainable Evaluation Metrics for Machine Translation

Christoph Leiter; Piyawat Lertvittayakumjorn; Marina Fomicheva; Wei Zhao; Yang Gao; Steffen Eger

与BLEU等经典词汇重叠度量不同，机器翻译的大多数当前评估度量（例如COMET或BERTScore）都基于黑盒大型语言模型。它们通常与人类的判断有很强的相关性，但最近的研究表明，低质量的经典指标仍然占主导地位，其中一个潜在的原因是它们的决策过程更加透明。为了促进新的高质量指标的更广泛接受，解释性因此变得至关重要。在这篇概念论文中，我们确定了可解释机器翻译度量的关键属性和关键目标，并对最新技术进行了综合，将其与我们的既定目标和属性联系起来。在此背景下，我们还讨论了基于生成模型（如ChatGPT和GPT4）的最新可解释度量方法。最后，我们提出了下一代方法的愿景，包括自然语言解释。我们希望我们的工作能够有助于促进和指导未来对可解释评估指标的研究，并为更好、更透明的机器翻译系统做出贡献。

机器翻译的可解释评价指标

摘要