计算机科学>计算与语言
标题: SONAR:句子级多模态和语言认知表征
摘要: 我们引入了SONAR,一种新的多语言多模式固定大小的句子嵌入空间。 我们的单文本编码器覆盖200种语言,在xsim和xsim++多语言相似性搜索任务中,其性能大大优于现有的句子嵌入,如LASER3和LabSE。 使用在师生环境中对语音转录数据进行训练的特定语言语音编码器,可以将语音片段嵌入到相同的SONAR嵌入空间中。 我们的编码器在相似性搜索任务上优于现有的语音编码器。 我们还提供200种语言的文本解码器,允许我们执行文本到文本和语音到文本的机器翻译,包括零快照语言和情态组合。 尽管存在固定大小的瓶颈表示,但与最先进的NLLB~1B模型相比,我们的文本到文本结果具有竞争力。 我们的零快照语音到文本的翻译结果与强大的监督基线(如Whisper)相比,具有优势。