Direct Speech-to-Speech Translation With Discrete Units

Ann Lee; Peng-Jen Chen; Changhan Wang; Jiatao Gu; Sravya Popuri; Xutai Ma; Adam Polyak; Yossi Adi; Qing He; Yun Tang; Juan Pino; Wei-Ning Hsu

doi:10.18653/v1/2022.acl-long.235

使用离散单元的直接语音转换

安·李,陈鹏仁,王长汉（Changhan Wang）,顾嘉涛,斯拉维亚·波普里,许泰马,亚当·波利亚克,约西·阿迪,清河,云堂（Yun Tang）,胡安·皮诺,徐伟宁

摘要

我们提出了一种直接语音转换（S2ST）模型，该模型将一种语言中的语音转换为另一种语言的语音，而不依赖中间文本生成。我们首先在目标语音上应用一个自监督的离散语音编码器，然后训练序列到序列的语音到单元转换（S2UT）模型来预测目标语音的离散表示，从而解决了这个问题。当目标文本抄本可用时，我们设计了一个语音和文本联合训练框架，使模型能够在同一推理过程中同时生成双模态输出（语音和文本）。在Fisher西班牙语-英语数据集上的实验表明，与预测谱图特征的基线直接S2ST模型相比，该框架提高了6.7 BLEU。当在没有任何文本转录本的情况下进行训练时，我们的模型性能与预测声谱图和使用文本监督进行训练的模型相当，这表明了我们的系统在不成文语言之间翻译的潜力。

选集ID：: 2022.acl长235
体积：: 计算语言学协会第60届年会论文集（第一卷：长篇论文）
月份：: 五月
年份：: 2022
地址：: 爱尔兰都柏林
编辑：: 斯玛兰达·穆雷桑,普雷斯拉夫·纳科夫,阿琳·维拉维琴西奥
地点：: 国际计算语言学协会
SIG公司：
出版商：: 计算语言学协会
注：
页：: 3327–3339
语言：
网址：: https://aclantology.org/2022.acl-long.235
内政部：: 10.18653/v1/2022.acl长度235
双钥匙：
引用（ACL）：: 李安（Ann Lee）、陈鹏仁（Peng-Jen Chen）、王长汉（Changhan Wang）、顾家涛（Jiatao Gu）、斯拉维亚·波武里（Sravya Popuri）、马旭泰（Xutai Ma）、亚当·波利亚（Adam Polyak）、约西·阿迪（Yossi Adi）、清河（Qing He。2022使用离散单元的直接语音转换.英寸计算语言学协会第60届年会论文集（第一卷：长篇论文），第3327-3339页，爱尔兰都柏林。计算语言学协会。
引用（非正式）：: 使用离散单元的直接语音转换（Lee等人，ACL 2022）
复制引文：
PDF格式：: https://aclantology.org/2022.acl-long.235.pdf
数据: 自由演讲

PDF格式引用搜索