使用离散单元的直接语音转换

安·李,陈鹏仁,王长汉(Changhan Wang),顾嘉涛,斯拉维亚·波普里,许泰马,亚当·波利亚克,约西·阿迪,清河,云堂(Yun Tang),胡安·皮诺,徐伟宁


摘要
我们提出了一种直接语音转换(S2ST)模型,该模型将一种语言中的语音转换为另一种语言的语音,而不依赖中间文本生成。我们首先在目标语音上应用一个自监督的离散语音编码器,然后训练序列到序列的语音到单元转换(S2UT)模型来预测目标语音的离散表示,从而解决了这个问题。当目标文本抄本可用时,我们设计了一个语音和文本联合训练框架,使模型能够在同一推理过程中同时生成双模态输出(语音和文本)。在Fisher西班牙语-英语数据集上的实验表明,与预测谱图特征的基线直接S2ST模型相比,该框架提高了6.7 BLEU。当在没有任何文本转录本的情况下进行训练时,我们的模型性能与预测声谱图和使用文本监督进行训练的模型相当,这表明了我们的系统在不成文语言之间翻译的潜力。
选集ID:
2022.acl长235
体积:
计算语言学协会第60届年会论文集(第一卷:长篇论文)
月份:
五月
年份:
2022
地址:
爱尔兰都柏林
编辑:
斯玛兰达·穆雷桑,普雷斯拉夫·纳科夫,阿琳·维拉维琴西奥
地点:
国际计算语言学协会
SIG公司:
出版商:
计算语言学协会
注:
页:
3327–3339
语言:
网址:
https://aclantology.org/2022.acl-long.235
内政部:
10.18653/v1/2022.acl长度235
双钥匙:
引用(ACL):
李安(Ann Lee)、陈鹏仁(Peng-Jen Chen)、王长汉(Changhan Wang)、顾家涛(Jiatao Gu)、斯拉维亚·波武里(Sravya Popuri)、马旭泰(Xutai Ma)、亚当·波利亚(Adam Polyak)、约西·阿迪(Yossi Adi)、清河(Qing He。2022使用离散单元的直接语音转换.英寸计算语言学协会第60届年会论文集(第一卷:长篇论文),第3327-3339页,爱尔兰都柏林。计算语言学协会。
引用(非正式):
使用离散单元的直接语音转换(Lee等人,ACL 2022)
复制引文:
PDF格式:
https://aclantology.org/2022.acl-long.235.pdf
数据
自由演讲