SpeechMatrix: A Large-Scale Mined Corpus of Multilingual Speech-to-Speech Translations

Paul-Ambroise Duquenne; Hongyu Gong; Ning Dong; Jingfei Du; Ann Lee; Vedanuj Goswami; Changhan Wang; Juan Pino; Benoît Sagot; Holger Schwenk

doi:10.18653/v1/2023.acl-long.899

S公司喷嚏M（M）atrix：一个多语言语音到语音翻译的大规模挖掘语料库

保尔·安布罗斯·杜昆,洪玉宫,宁东,杜景飞,安·李,韦达努伊·戈斯瓦米,王长汉（Changhan Wang）,胡安·皮诺,贝诺西翁,霍尔格·施文克

摘要

我们展示了SpeechMatrix，这是一个大规模的多语言语料库，其中包含从欧洲议会录音的真实演讲中提取的演讲翻译。它包含136个语言对的语音对齐，总共41.8万小时的语音。为了评估这种并行语音的质量，我们仅对挖掘的数据训练双语语音转换模型，并在EuroParl-ST、VoxPopuli和FLEURS测试集上建立广泛的基线结果。借助SpeechMatrix的多语言性，我们还探索了多语言语音翻译，这是一个很少有其他作品涉及的主题。我们还证明了使用混合专家进行模型预训练和稀疏缩放可以大大提高翻译性能。挖掘的数据和模型将公开发布

选集ID：: 2023.acl长899
体积：: 计算语言学协会第61届年会论文集（第一卷：长篇论文）
月份：: 七月
年份：: 2023
地址：: 加拿大多伦多
编辑：: 安娜·罗杰斯,乔丹·博伊德·格雷伯,冈崎直（Naoaki Okazaki）
地点：: 国际计算语言学协会
信号：
出版商：: 计算语言学协会
注：
页：: 16251–16269
语言：
网址：: https://aclantology.org/2023.acl-long.899
内政部：: 10.18653/v1/2023.acl长899
比比键：
引用（ACL）：: 保罗·安布罗西·杜昆（Paul-Ambroise Duquenne）、龚红玉（Hongyu Gong）、董宁（Ning Dong）、杜敬飞（Jingfei Du）、李安（Ann Lee）、韦达努吉·戈斯瓦米（Vedanuj Goswami）、王长汉（Changhan Wang）、胡安·皮诺（Juan。2023SpeechMatrix：多语言语音翻译的大规模挖掘语料库.英寸计算语言学协会第61届年会论文集（第一卷：长篇论文），第16251–16269页，加拿大多伦多。计算语言学协会。
引用（非正式）：: SpeechMatrix：多语言语音翻译的大规模挖掘语料库（Duquenne等人，ACL 2023）
复制引文：
PDF格式：: https://aclantology.org/2023.acl-long.899.pdf
视频：: https://aclantology.org/2023.acl-long.899.mp4

PDF格式引用搜索视频