用于大规模语音挖掘的多模态和多语言嵌入

的一部分神经信息处理系统34的进展(NeurIPS 2021)

Biptex公司 纸类 评论和公众评论» 补充的

作者

保尔·安布罗斯·杜昆、龚红玉、霍尔格·施温克

摘要

我们提出了一种将语音信号编码为固定大小表示的方法,该方法利用现有的大规模多语言LASER文本嵌入空间将余弦损失降至最低。句子在这个嵌入空间中是紧密的,与它们的语言和情态无关,无论是文本还是音频。使用该多模态嵌入空间中的相似性度量,我们针对Common Crawl中数十亿个句子从Librivox中挖掘德语、法语、西班牙语和英语音频。这产生了两万多小时的统一语音翻译。为了评估自动挖掘的语音/文本语料库,我们针对多个语言对训练神经语音翻译系统。添加挖掘的数据,可以显著提高CoVoST2和MUST-C测试集的BLEU分数,使其与极具竞争力的基线相关。我们的方法还可以用于直接执行语音转换挖掘,而无需首先转录或翻译数据。我们用法语、德语、西班牙语和英语进行了超过一千三百个小时的统一演讲。由于自然端到端训练数据的稀缺性,该语音语料库有可能促进语音翻译的研究。将免费提供所有挖掘的多模态语料库。