Multimodal and Multilingual Embeddings for Large-Scale Speech Mining

Duquenne, Paul-Ambroise; Gong, Hongyu; Schwenk, Holger

用于大规模语音挖掘的多模态和多语言嵌入

的一部分神经信息处理系统34的进展（NeurIPS 2021）

Biptex公司纸类评论和公众评论» 补充的

作者

保尔·安布罗斯·杜昆、龚红玉、霍尔格·施温克

摘要

我们提出了一种将语音信号编码为固定大小表示的方法，该方法利用现有的大规模多语言LASER文本嵌入空间将余弦损失降至最低。句子在这个嵌入空间中是紧密的，与它们的语言和情态无关，无论是文本还是音频。使用该多模态嵌入空间中的相似性度量，我们针对Common Crawl中数十亿个句子从Librivox中挖掘德语、法语、西班牙语和英语音频。这产生了两万多小时的统一语音翻译。为了评估自动挖掘的语音/文本语料库，我们针对多个语言对训练神经语音翻译系统。添加挖掘的数据，可以显著提高CoVoST2和MUST-C测试集的BLEU分数，使其与极具竞争力的基线相关。我们的方法还可以用于直接执行语音转换挖掘，而无需首先转录或翻译数据。我们用法语、德语、西班牙语和英语进行了超过一千三百个小时的统一演讲。由于自然端到端训练数据的稀缺性，该语音语料库有可能促进语音翻译的研究。将免费提供所有挖掘的多模态语料库。

用于大规模语音挖掘的多模态和多语言嵌入

作者

摘要

名称更改策略