BLASER: A Text-Free Speech-to-Speech Translation Evaluation Metric

Mingda Chen; Paul-Ambroise Duquenne; Pierre Andrews; Justine Kao; Alexandre Mourachko; Holger Schwenk; Marta R. Costa-jussà

doi:10.18653/v1/2023.acl-long.504

蓝色：一种无文本的语音转换评估指标

陈明达,保尔·安布罗斯·杜昆,皮埃尔·安德鲁斯,贾斯汀·高,亚历山大·穆拉赫科,霍尔格·施文克,Marta R.Costa-jussá

摘要

端到端语音转换（S2ST）通常使用基于文本的指标进行评估。这意味着生成的语音必须自动转录，使评估取决于自动语音识别（ASR）系统的可用性和质量。本文提出了一种端到端S2ST的无文本评估指标BLASER，以避免对ASR系统的依赖。BLASER利用多语言多模式编码器将源输入、翻译输出和引用的语音片段直接编码到共享嵌入空间中，并计算翻译质量分数，该分数可用作人类评估的代理。为了评估我们的方法，我们从4万多个涵盖七个语言方向的人类注释中构建了训练和评估集。BLASER的最佳结果是通过培训获得的，并由人的评分进行监督。我们表明，当在句子水平上进行评估时，与ASR相关的指标（包括所有翻译方向的ASR-SENTBLEU和其中五个方向的ASR COMET）相比，BLASER与人类判断的相关性显著更好。我们的分析表明，将语音和文本作为BLASER的输入并不会增加与人类分数的相关性，但在使用语音时，相关性达到了最佳，这推动了我们的研究目标。此外，我们还表明，使用ASR作为参考对基于文本的度量是有害的。

选集ID：: 2023.acl长504
体积：: 计算语言学协会第61届年会论文集（第一卷：长篇论文）
月份：: 七月
年份：: 2023
地址：: 加拿大多伦多
编辑：: 安娜·罗杰斯,乔丹·博伊德·格雷伯,冈崎直（Naoaki Okazaki）
地点：: 国际计算语言学协会
信号：
出版商：: 计算语言学协会
注：
页：: 9064–9079
语言：
网址：: https://aclantology.org/2023.acl-long.504
内政部：: 10.18653/v1/2023.acl-long.504
比比键：
引用（ACL）：: 陈明达（Mingda Chen）、保罗·安布罗斯·杜昆（Paul-Ambroise Duquenne）、皮埃尔·安德鲁斯（Pierre Andrews）、高士廷（Justine Kao）、亚历山大·穆拉契科（Alexandre Mourachko）、霍尔格·施文克（Holger Schwenk）和玛塔·。2023BLASER：一种无文本的语音转换评估指标.英寸计算语言学协会第61届年会论文集（第一卷：长篇论文），第9064–9079页，加拿大多伦多。计算语言学协会。
引用（非正式）：: BLASER：一种无文本的语音转换评估指标（Chen等人，ACL 2023）
复制引文：
PDF格式：: https://aclantology.org/2023.acl-long.504.pdf
视频：: https://aclantology.org/2023.acl-long.504.mp4

PDF格式引用搜索视频