@进行中{dargis-etal-2020开发,title=“{L}atvian语音合成语料库的开发与评估”,author=“Dar{\c{g}}is,Roberts和Paikens、Peteris和Gruzitis、Normunds和奥齐纳、伊尔泽和阿克曼,玛瑙“,editor=“Calzolari、Nicoletta和B{\'e}切特,Fr{\e}d{\ee}ric和Blache、Philippe和Choukri、Khalid和Cieri、Christopher和Declerck、Thierry和戈吉、萨拉和Isahara、Hitoshi和Maegaard、Bente和玛丽亚尼、约瑟夫和Mazo、H{\'e}l{\`e}ne和莫雷诺、亚松森和Odijk、Jan和Piperidis,Stelios“,booktitle=“第十二届语言资源与评估会议论文集”,月=5月,年=“2020”,address=“法国马赛”,publisher=“欧洲语言资源协会”,url=“https://aclantology.org/2020.lrec-1.818”,pages=“6633--6637”,abstract=“为了确保数字语言服务的可访问性和可用性,所有语言都需要文本到语音(TTS)系统。神经语音合成的最新进展有电子文本到语音系统对于任何语言来说都是必要的,以确保数字语言服务的可访问性和可用性。神经语音合成方面的最新进展使得此类系统的开发能够采用数据驱动的方法,而不需要大量开发特定于语言的工具。然而,较小的语言通常缺乏足以训练当前神经TTS模型的语音语料库,该模型需要在无声的环境中由单个说话人在匹配的抄本中至少30小时的高质量音频记录。手工制作这样的语料库可能成本高昂。本文提出了一种无监督的方法,利用自动语音识别进行转录以及自动说话人分割和识别,从未注释的录音中获取合适的语料库。基于拉脱维亚公共无线电档案数据开发一个适合拉脱维亚语音合成的语料库的案例研究,应用并评估了所提出的方法和软件工具。该语料库支持使用数据驱动方法开发此类系统,不需要太多特定于语言的工具开发。然而,较小的语言通常缺乏足以训练当前神经TTS模型的语音语料库,这需要在无噪声环境中从一个说话者那里录制大约30小时的高质量音频,并匹配转录。手工制作这样的语料库可能成本高昂。本文提出了一种无监督的方法,利用自动语音识别进行转录以及自动说话人分割和识别,从未注释的录音中获取合适的语料库。基于拉脱维亚公共无线电档案数据开发适合拉脱维亚语音合成的语料库的案例研究,应用并评估了提出的方法和软件工具。",language=“英语”,国际标准图书编号=“979-10-95546-34-4”,}
<?xml version=“1.0”encoding=“UTF-8”?><modsCollection xmlns=“http://www.loc.gov/mods/v3"><mods ID=“dargis-etal-2020开发”><标题信息>拉脱维亚语语音合成语料库的开发和评估</titleInfo><name type=“personal”>罗伯茨<namePart type=“family”>Darģ是</namePart><角色>作者</角色></name><name type=“personal”>佩特里斯Paikens系列<角色>作者</角色></name><name type=“personal”>标准Gruzitis公司<角色>作者</角色></name><name type=“personal”>伊尔泽奥齐纳<角色>作者</角色></name><name type=“personal”>玛瑙阿克曼<角色>作者</角色></name><originInfo>发布日期:2020-05发布日期:</originInfo><typeOfResource>文本<语言>英语<languageTerm type=“code”authority=“iso639-2b”>eng英语</语言><relatedItem type=“主机”><标题信息>第十二届语言资源与评估会议记录</titleInfo><name type=“personal”>尼科莱塔卡尔佐拉里<角色>编辑器</角色></name><name type=“personal”>弗雷德里克贝歇<角色>编辑器</角色></name><name type=“personal”>菲利普布莱切<角色>编辑器</角色></name><name type=“personal”>哈立德乔克里<角色>编辑器</角色></name><name type=“personal”><namePart type=“given”>Christopher</namePart>克里斯托弗</namePartCieri公司<角色>编辑器</角色></name><name type=“personal”>蒂埃里Declerck公司<角色>编辑器</角色></name><name type=“personal”>萨拉戈吉<角色>编辑器</角色></name><name type=“personal”><namePart type=“given”>Hitoshi</namePart>Isahara<角色>编辑器</角色></name><name type=“personal”>Bente(本特)梅加德<角色>编辑器</角色></name><name type=“personal”>约瑟夫玛丽亚尼<角色>编辑器</角色></name><name type=“personal”>Hélène<namePart type=“family”>马祖<角色>编辑器</角色></name><name type=“personal”>亚松森<namePart type=“family”>莫雷诺</namePart><角色>编辑器</角色></name><name type=“personal”>一月奥迪jk<角色>编辑器</角色></name><name type=“personal”>Stelios公司哌啶虫<角色>编辑器</角色></name><originInfo>欧洲语言资源协会<位置>法国马赛</place></originInfo>会议出版物979-10-95546-34-4</relatedItem>所有语言都需要文本到语音(TTS)系统,以确保数字语言服务的可访问性和可用性。神经语音合成的最新进展使任何语言都需要电子文本到语音(TTS)系统,以确保数字语言服务的可访问性和可用性。神经语音合成方面的最新进展使得此类系统的开发能够采用数据驱动的方法,而不需要大量开发特定于语言的工具。然而,较小的语言通常缺乏足以训练当前神经TTS模型的语音语料库,该模型需要在无声的环境中由单个说话人在匹配的抄本中至少30小时的高质量音频记录。手工制作这样的语料库可能成本高昂。本文提出了一种无监督的方法,利用自动语音识别进行转录以及自动说话人分割和识别,从未注释的录音中获取合适的语料库。基于拉脱维亚公共无线电档案数据开发一个适合拉脱维亚语音合成的语料库的案例研究,应用并评估了所提出的方法和软件工具。该语料库支持使用数据驱动方法开发此类系统,不需要太多特定于语言的工具开发。然而,较小的语言通常缺乏足以训练当前神经TTS模型的语音语料库,这需要在无声的环境中由一个说话人在大约30小时的高质量录音中进行匹配的转录。手工制作这样的语料库可能成本高昂。本文提出了一种无监督的方法,利用自动语音识别进行转录以及自动说话人分割和识别,从未注释的录音中获取合适的语料库。基于拉脱维亚公共无线电档案数据开发适合拉脱维亚语音合成的语料库的案例研究,应用并评估了提出的方法和软件工具</摘要>dargis-etal-2020开发<位置><网址>https://aclantology.org/2020.lrec-1.818</url></位置><部分><日期>2020-05</日期><扩展单元=“page”><开始>6633</开始><end>6637</end></范围></部分></mods></mods集合>
%0会议记录%拉脱维亚语语音合成语料库的开发与评价%罗伯茨,Darģis%佩特里斯·佩肯斯%A Gruzitis,Normunds公司%伊尔兹奥齐纳%阿加特·阿克曼%尼科莱塔·Y·卡尔佐拉里%Y Béchet,Frédéric%Y Blache,菲利普%哈立德·朱克里%克里斯托弗·西埃里%蒂埃里·德克勒克%萨拉·戈吉%Y Isahara,Hitoshi%Y Maegaard,本特%约瑟夫·马里亚尼%耶鲁·马佐%Y Moreno,亚松森%Y Odijk,简%Y Piperidis、Stelios%第十二届语言资源与评价会议论文集%D 2020年%5月8日%I欧洲语言资源协会%C马赛,法国%@ 979-10-95546-34-4%G英语%F dargis-etal-2020开发%X所有语言都需要文本到语音(TTS)系统,以确保数字语言服务的可访问性和可用性。神经语音合成的最新进展使任何语言都需要电子文本到语音(TTS)系统,以确保数字语言服务的可访问性和可用性。神经语音合成方面的最新进展使得此类系统的开发能够采用数据驱动的方法,而不需要大量开发特定于语言的工具。然而,较小的语言通常缺乏足以训练当前神经TTS模型的语音语料库,该模型需要在无声的环境中由单个说话人在匹配的抄本中至少30小时的高质量音频记录。手工制作这样的语料库可能成本高昂。本文提出了一种无监督的方法,利用自动语音识别进行转录以及自动说话人分割和识别,从未注释的录音中获取合适的语料库。基于拉脱维亚公共无线电档案数据开发一个适合拉脱维亚语音合成的语料库的案例研究,应用并评估了所提出的方法和软件工具。该语料库支持使用数据驱动方法开发此类系统,不需要太多特定于语言的工具开发。然而,较小的语言通常缺乏足以训练当前神经TTS模型的语音语料库,这需要在无声的环境中由一个说话人在大约30小时的高质量录音中进行匹配的转录。手工制作这样的语料库可能成本高昂。本文提出了一种无监督的方法,利用自动语音识别进行转录以及自动说话人分割和识别,从未注释的录音中获取合适的语料库。基于拉脱维亚公共无线电档案数据开发适合拉脱维亚语音合成的语料库的案例研究,应用并评估了提出的方法和软件工具。%U型https://acl选集.org/2020.lrec-1.818%电话:6633-6637
降价(非正式)
[拉脱维亚语语音合成语料库的开发与评估](https://aclantology.org/2020.lrec-1.818)(Darģis等人,LREC 2020)
国际计算语言学协会
- 罗伯特·达利斯(Roberts Darģis)、佩特里斯·佩肯斯(Peteris Paikens)、诺蒙德·格鲁兹提斯(Normunds Gruzitis)、伊尔泽·奥齐纳(Ilze Auzina)和玛瑙·阿克曼(Agate Akmane)。2020拉脱维亚语语音合成语料库的开发与评价.英寸第十二届语言资源与评价会议记录,第6633–6637页,法国马赛。欧洲语言资源协会。