@正在进行{chen-etal-2023-blaser,title=“{BLASER}:A Text-Free Speech-to-Speech Translation Evaluation Metric”,author=“陈、明达和Duquenne、Paul-Ambroise和安德鲁斯、皮埃尔和高、贾斯汀和穆拉希科、亚历山大和Schwenk、Holger和Costa-juss{\`a},Marta R.“,editor=“罗杰斯、安娜和Boyd-Graber、Jordan和冈崎,直木“,booktitle=“计算语言学协会第61届年会会议记录(第1卷:长篇论文)”,月=七月,年=“2023”,address=“加拿大多伦多”,publisher=“计算语言学协会”,url=“https://aclantology.org/2023.acl-long.504”,doi=“10.18653/v1/2023.acl-long.504”,pages=“9064--9079”,abstract=“端到端语音到语音翻译(S2ST)通常使用基于文本的度量进行评估。这意味着生成的语音必须自动转录,这使得评估取决于自动语音识别(ASR)的可用性和质量系统。本文提出了一种端到端S2ST的无文本评估指标BLASER,以避免对ASR系统的依赖。BLASER利用多语言多模式编码器将源输入、翻译输出和引用的语音片段直接编码到共享嵌入空间中,并计算翻译质量分数,该分数可用作人类评估的代理。为了评估我们的方法,我们从4万多个涵盖七个语言方向的人类注释中构建了训练和评估集。BLASER的最佳结果是通过培训获得的,并由人的评分进行监督。我们表明,当在句子水平上进行评估时,与ASR相关的指标(包括所有翻译方向的ASR-SENTBLEU和其中五个方向的ASR COMET)相比,BLASER与人类判断的相关性显著更好。我们的分析表明,将语音和文本作为BLASER的输入并不会增加与人类分数的相关性,但在使用语音时,相关性达到了最佳,这推动了我们的研究目标。此外,我们还表明,使用ASR作为参考对基于文本的度量是有害的。",}
<?xml version=“1.0”encoding=“UTF-8”?><modsCollection xmlns=“http://www.loc.gov/mods/v3"><mods ID=“chen-etal-2023-blaser”><标题信息>BLASER:一种无文本语音转换评估指标</titleInfo><name type=“personal”>明达<namePart type=“family”>陈</namePart><角色>作者</角色></name><name type=“personal”><namePart type=“given”>Paul Ambroise</namePart>杜昆(Duquenne)<角色>作者</角色></name><name type=“personal”>皮埃尔安德鲁斯<角色>作者</角色></name><name type=“personal”><namePart type=“given”>Justine</namePart><namePart type=“family”>花王<角色>作者</角色></name><name type=“personal”>亚历山大穆拉赫科<角色>作者</角色></name><name type=“personal”>霍尔格Schwenk(施文克)<角色>作者</角色></name><name type=“personal”>玛尔塔<namePart type=“given”>R</namePart>Costa-jussá<角色>作者</角色></name><originInfo>发布日期:2023-07发布日期:</originInfo><typeOfResource>文本<relatedItem type=“主机”><标题信息>计算语言学协会第61届年会会议记录(第1卷:长篇论文)</titleInfo><name type=“personal”>安娜罗杰斯<角色>编辑器</角色></name><name type=“personal”>约旦博伊德·格雷伯<角色>编辑器</角色></name><name type=“personal”>Naoaki(Naoaki)冈崎<角色>编辑器</角色></name><originInfo>计算语言学协会<位置>加拿大多伦多</地点></originInfo>会议出版物</relatedItem>端到端语音转换(S2ST)通常使用基于文本的指标进行评估。这意味着生成的语音必须自动转录,使评估取决于自动语音识别(ASR)系统的可用性和质量。本文提出了一种端到端S2ST的无文本评估指标BLASER,以避免对ASR系统的依赖。BLASER利用多语言多模式编码器将用于源输入、翻译输出和参考的语音片段直接编码到共享嵌入空间中,并计算翻译质量的分数,该分数可以用作人类评估的代理。为了评估我们的方法,我们从4万多个涵盖七个语言方向的人类注释中构建了训练和评估集。BLASER的最佳结果是通过培训获得的,并由人的评分进行监督。我们表明,当在句子水平上进行评估时,与ASR相关的指标(包括所有翻译方向的ASR-SENTBLEU和其中五个方向的ASR COMET)相比,BLASER与人类判断的相关性显著更好。我们的分析表明,将语音和文本作为BLASER的输入并不会增加与人类分数的相关性,但在使用语音时,相关性达到了最佳,这推动了我们的研究目标。此外,我们还表明,使用ASR作为参考对基于文本的度量是有害的</摘要><identifier type=“citekey”>chen-etal-2023-blaser</identifier>10.18653/v1/2023.acl-long.504<位置><网址>https://aclantology.org/2023.acl-long.504</url></位置><部分>2023-07年<扩展单元=“page”><开始>9064</start><end>9079</范围></部分></mods></modsCollection>
%0会议记录%T BLASER:一种无文本的语音转换评估指标%陈明达%A Duquenne,Paul-Ambroise保罗·安布罗斯%A安德鲁斯,皮埃尔%贾斯汀·A Kao%亚历山大·穆拉赫科%霍尔格·施温克%A Costa-jussá,Marta R。%安娜·罗杰斯%Y Boyd-Graber,约旦%Y冈崎,直崎%计算语言学协会第61届年会论文集(第一卷:长篇论文)%D 2023年%7月8日%计算语言学协会%C加拿大多伦多%F chen-etal-2023-蓝色%X端到端语音转换(S2ST)通常使用基于文本的指标进行评估。这意味着生成的语音必须自动转录,使评估取决于自动语音识别(ASR)系统的可用性和质量。本文提出了一种端到端S2ST的无文本评估指标BLASER,以避免对ASR系统的依赖。BLASER利用多语言多模式编码器将源输入、翻译输出和引用的语音片段直接编码到共享嵌入空间中,并计算翻译质量分数,该分数可用作人类评估的代理。为了评估我们的方法,我们从4万多个涵盖七个语言方向的人类注释中构建了训练和评估集。BLASER的最佳结果是通过培训获得的,并由人的评分进行监督。我们表明,当在句子水平上进行评估时,与ASR相关的指标(包括所有翻译方向的ASR-SENTBLEU和其中五个方向的ASR COMET)相比,BLASER与人类判断的相关性显著更好。我们的分析表明,将语音和文本作为BLASER的输入并不会增加与人类分数的相关性,但在使用语音时,相关性达到了最佳,这推动了我们的研究目标。此外,我们还表明,使用ASR作为参考对基于文本的度量是有害的。%R 10.18653/v1/2023.acl-long.504%单位https://aclantology.org/2023.acl-long.504%单位https://doi.org/10.18653/v1/2023.acl-long.504%电话:9064-9079
降价(非正式)
[BLASER:一种无文本的语音转换评估指标](https://aclantology.org/2023.acl-long.504)(Chen等人,ACL 2023)
国际计算语言学协会
- 陈明达(Mingda Chen)、保罗·安布罗斯·杜昆(Paul-Ambroise Duquenne)、皮埃尔·安德鲁斯(Pierre Andrews)、高士廷(Justine Kao)、亚历山大·穆拉契科(Alexandre Mourachko)、霍尔格·施文克(Holger Schwenk)和玛塔·。2023BLASER:一种无文本的语音转换评估指标.英寸计算语言学协会第61届年会论文集(第一卷:长篇论文),第9064–9079页,加拿大多伦多。计算语言学协会。