蓝色:一种无文本的语音转换评估指标

陈明达,保尔·安布罗斯·杜昆,皮埃尔·安德鲁斯,贾斯汀·高,亚历山大·穆拉赫科,霍尔格·施文克,Marta R.Costa-jussá


摘要
端到端语音转换(S2ST)通常使用基于文本的指标进行评估。这意味着生成的语音必须自动转录,使评估取决于自动语音识别(ASR)系统的可用性和质量。本文提出了一种端到端S2ST的无文本评估指标BLASER,以避免对ASR系统的依赖。BLASER利用多语言多模式编码器将源输入、翻译输出和引用的语音片段直接编码到共享嵌入空间中,并计算翻译质量分数,该分数可用作人类评估的代理。为了评估我们的方法,我们从4万多个涵盖七个语言方向的人类注释中构建了训练和评估集。BLASER的最佳结果是通过培训获得的,并由人的评分进行监督。我们表明,当在句子水平上进行评估时,与ASR相关的指标(包括所有翻译方向的ASR-SENTBLEU和其中五个方向的ASR COMET)相比,BLASER与人类判断的相关性显著更好。我们的分析表明,将语音和文本作为BLASER的输入并不会增加与人类分数的相关性,但在使用语音时,相关性达到了最佳,这推动了我们的研究目标。此外,我们还表明,使用ASR作为参考对基于文本的度量是有害的。
选集ID:
2023.acl长504
体积:
计算语言学协会第61届年会论文集(第一卷:长篇论文)
月份:
七月
年份:
2023
地址:
加拿大多伦多
编辑:
安娜·罗杰斯,乔丹·博伊德·格雷伯,冈崎直(Naoaki Okazaki)
地点:
国际计算语言学协会
信号:
出版商:
计算语言学协会
注:
页:
9064–9079
语言:
网址:
https://aclantology.org/2023.acl-long.504
内政部:
10.18653/v1/2023.acl-long.504
比比键:
引用(ACL):
陈明达(Mingda Chen)、保罗·安布罗斯·杜昆(Paul-Ambroise Duquenne)、皮埃尔·安德鲁斯(Pierre Andrews)、高士廷(Justine Kao)、亚历山大·穆拉契科(Alexandre Mourachko)、霍尔格·施文克(Holger Schwenk)和玛塔·。2023BLASER:一种无文本的语音转换评估指标.英寸计算语言学协会第61届年会论文集(第一卷:长篇论文),第9064–9079页,加拿大多伦多。计算语言学协会。
引用(非正式):
BLASER:一种无文本的语音转换评估指标(Chen等人,ACL 2023)
复制引文:
PDF格式:
https://aclantology.org/2023.acl-long.504.pdf
视频:
 https://aclantology.org/2023.acl-long.504.mp4