计算机科学>计算与语言
标题: 为数字时代准备一种濒危语言:以Judeo西班牙语为例
摘要: 我们开发机器翻译和语音合成系统,以补充振兴朱迪奥·斯潘尼什(Judeo-Spanish)的努力,这是塞卜哈德犹太人流亡的语言,它存活了几个世纪,但现在面临着数字时代灭绝的威胁。 基于土耳其塞卜哈德社区和其他地方创造的资源,我们创建了语料库和工具,将有助于为后代保存这种语言。 对于机器翻译,我们首先开发了一个基于西班牙语到Judeo-Spanish规则的机器翻译系统,以便在相关语言对(土耳其语、英语和西班牙语)中生成大量合成并行数据。 然后,我们使用这些合成数据和Sephardic社区翻译生成的真实并行数据训练基线神经机器翻译引擎。 对于文本到语音合成,我们提出了一个3.5小时的单说话人语音语料库,用于构建神经语音合成引擎。 资源、模型权重和在线推理引擎是公开共享的。