@进行中{lee-etal-2022-direct,title=“使用离散单元的直接语音转换”,author=“Lee、Ann和Chen、Peng-Jen和王长汉和顾嘉涛和波普里、斯拉维亚和马、徐泰和Polyak、Adam和阿迪、尤西和何、清、唐、云和皮诺、胡安和徐伟宁“,editor=“Muresan、Smaranda和纳科夫、普雷斯拉夫和Aline Villavicencio“,booktitle=“计算语言学协会第60届年会论文集(第一卷:长篇论文)”,月=5月,年=“2022”,address=“爱尔兰都柏林”,publisher=“计算语言学协会”,url=“https://acl选集.org/2022.acl-long.235",doi=“10.18653/v1/2022.acl-long.235”,pages=“3327--3339”,abstract=“我们提出了一种直接的语音转换(S2ST)将一种语言中的语音转换为另一种语言的语音而不依赖中间文本生成的模型。我们通过首先在目标语音上应用自监督离散语音编码器,然后训练序列到序列语音到单元翻译(S2UT)模型来预测目标语音的离散表示来解决这个问题。当目标文本抄本可用时,我们设计了一个语音和文本联合训练框架,使模型能够在同一推理过程中同时生成双模态输出(语音和文本)。在Fisher西班牙语-英语数据集上的实验表明,与预测谱图特征的基线直接S2ST模型相比,该框架提高了6.7 BLEU。当在没有任何文本抄本的情况下进行训练时,我们的模型性能与预测光谱图的模型相当,并通过文本监督进行训练,这显示了我们的系统在非书面语言之间进行翻译的潜力。",}
<?xml version=“1.0”encoding=“UTF-8”?><modsCollection xmlns=“http://www.loc.gov/mods/v3"><mods ID=“lee-etal-2022-direct”><标题信息>使用离散单元进行直接语音转换</titleInfo><name type=“personal”>安李<namePart type=“family”><角色>作者</角色></name><name type=“personal”>彭哲<namePart type=“family”>陈</namePart><角色>作者</角色></name><name type=“personal”>长汉王<namePart type=“family”><角色>作者</角色></name><name type=“personal”><namePart type=“given”>佳涛</namePart>顾<角色>作者</角色></name><name type=“personal”>斯拉维亚流行音乐<角色>作者</角色></name><name type=“personal”>徐泰<namePart type=“given”><namePart type=“family”>马</namePart><角色>作者</角色></name><name type=“personal”>亚当波利亚克<角色>作者</角色></name><name type=“personal”>Yossi(约西)<namePart type=“family”>Adi</namePart><角色>作者</角色></name><name type=“personal”>青他<角色>作者</角色></name><name type=“personal”>Yun(云)唐<角色>作者</角色></name><name type=“personal”>胡安皮诺<角色>作者</角色></name><name type=“personal”>魏宁Hsu<角色>作者</角色></name><originInfo>2022-05发布日期</originInfo><typeOfResource>文本<relatedItem type=“主机”><标题信息>计算语言学协会第60届年会会议记录(第1卷:长篇论文)</titleInfo><name type=“personal”>斯马兰达<namePart type=“family”>Muresan</namePart><角色>编辑器</角色></name><name type=“personal”>普雷斯拉夫纳科夫<角色>编辑器</角色></name><name type=“personal”>Aline(别名)维拉维森西奥<角色>编辑器</角色></name><originInfo>计算语言学协会<位置>爱尔兰都柏林</place></originInfo>会议出版物</relatedItem>我们提出了一种直接的语音转换(S2ST)模型,该模型将一种语言中的语音转换为另一种语言的语音,而不依赖中间文本生成。我们首先在目标语音上应用一个自监督的离散语音编码器,然后训练序列到序列的语音到单元转换(S2UT)模型来预测目标语音的离散表示,从而解决了这个问题。当目标文本抄本可用时,我们设计了一个语音和文本联合训练框架,使模型能够在同一推理过程中同时生成双模态输出(语音和文本)。在Fisher西班牙语-英语数据集上的实验表明,与预测谱图特征的基线直接S2ST模型相比,该框架提高了6.7 BLEU。当在没有任何文本抄本的情况下进行训练时,我们的模型性能与预测光谱图的模型相当,并通过文本监督进行训练,这显示了我们的系统在非书面语言之间进行翻译的潜力</摘要>lee-etal-2022-direct直接<identifier type=“doi”>10.18653/v1/2022。acl长。235<identifier><位置><网址>https://aclantology.org/2022.acl-long.235</url></位置><部分>2022-05年<扩展单元=“page”><开始>3327<end>3339</范围></部分></mods></modsCollection>
%0会议记录%具有离散单元的T直接语音到语音翻译%李安%A Chen、Peng-Jen%A Wang,长汉%阿古、贾涛%斯拉维亚A Popuri%阿玛、徐泰%A Polyak,亚当%阿迪,尤西%阿何,清%阿唐,云%胡安·皮诺%阿旭、魏宁%Y Muresan,斯马兰达%普雷斯拉夫·纳科夫%Y Villavicencio,阿琳%计算语言学协会第60届年会论文集(第一卷:长篇论文)%D 2022年%5月8日%计算语言学协会%C都柏林,爱尔兰%F lee-etal-2022-直接%我们提出了一种直接语音转换(S2ST)模型,该模型将一种语言中的语音转换为另一种语言的语音,而不依赖中间文本生成。我们首先在目标语音上应用一个自监督的离散语音编码器,然后训练序列到序列的语音到单元转换(S2UT)模型来预测目标语音的离散表示,从而解决了这个问题。当目标文本抄本可用时,我们设计了一个语音和文本联合训练框架,使模型能够在同一推理过程中同时生成双模态输出(语音和文本)。在Fisher西班牙语-英语数据集上的实验表明,与预测谱图特征的基线直接S2ST模型相比,该框架提高了6.7 BLEU。当在没有任何文本抄本的情况下进行训练时,我们的模型性能与预测光谱图的模型相当,并通过文本监督进行训练,这显示了我们的系统在非书面语言之间进行翻译的潜力。%R 10.18653/v1/2022.acl长235%U型https://aclantology.org/2022.acl-long.235%U型https://doi.org/10.18653/v1/222.cl-long.235%电话3327-3339
降价(非正式)
[使用离散单元的直接语音转换](https://aclantology.org/2022.acl-long.235)(Lee等人,ACL 2022)
国际计算语言学协会
- 李安(Ann Lee)、陈鹏仁(Peng-Jen Chen)、王长汉(Changhan Wang)、顾家涛(Jiatao Gu)、斯拉维亚·波武里(Sravya Popuri)、马旭泰(Xutai Ma)、亚当·波利亚(Adam Polyak)、约西·阿迪(Yossi Adi)、清河(Qing He。2022使用离散单元的直接语音转换.英寸计算语言学协会第60届年会论文集(第一卷:长篇论文),第3327–3339页,爱尔兰都柏林。计算语言学协会。