Development and Evaluation of Speech Synthesis Corpora for Latvian

Roberts Darģis; Peteris Paikens; Normunds Gruzitis; Ilze Auziņa; Agate Akmane

语音合成语料库的开发与评价我阿特维安语

罗伯特·达尔是,佩特里斯·佩肯斯,Normunds Gruzitis公司,伊尔兹·奥齐纳,玛瑙阿克曼

摘要

文本到语音（TTS）系统对于所有语言都是必要的，以确保数字语言服务的可访问性和可用性。神经语音合成的最新进展使任何语言都需要电子文本到语音（TTS）系统，以确保数字语言服务的可访问性和可用性。神经语音合成方面的最新进展使得此类系统的开发能够采用数据驱动的方法，而不需要大量开发特定于语言的工具。然而，较小的语言通常缺乏足以训练当前神经TTS模型的语音语料库，该模型需要在无声的环境中由单个说话人在匹配的抄本中至少30小时的高质量音频记录。手工制作这样的语料库可能成本高昂。本文提出了一种无监督的方法，利用自动语音识别进行转录以及自动说话人分割和识别，从未注释的录音中获取合适的语料库。基于拉脱维亚公共无线电档案数据开发一个适合拉脱维亚语音合成的语料库的案例研究，应用并评估了所提出的方法和软件工具。该语料库支持使用数据驱动方法开发此类系统，不需要太多特定于语言的工具开发。然而，较小的语言通常缺乏足以训练当前神经TTS模型的语音语料库，这需要在无声的环境中由一个说话人在大约30小时的高质量录音中进行匹配的转录。手工制作这样的语料库可能成本高昂。本文提出了一种无监督的方法，使用自动语音识别进行转录，以及自动说话人分割和识别，从未标记的录音中获得合适的语料库。基于拉脱维亚公共无线电档案数据开发适合拉脱维亚语音合成的语料库的案例研究，应用并评估了提出的方法和软件工具。

选集ID：: 2020.记录-1.818
体积：: 第十二届语言资源与评价会议记录
月份：: 五月
年份：: 2020
地址：: 法国马赛
编辑：: 尼科莱塔·卡尔佐拉里,弗雷德里克·贝歇（Frédéric Béchet）,菲利普·布莱切,哈立德·乔克里,克里斯托弗·西埃里,蒂埃里·德克勒克,萨拉·戈吉,Hitoshi Isahara先生,本特·梅加德,约瑟夫·马里亚尼,赫莱内·马佐,亚松森·莫雷诺,简·奥迪克,Stelios Piperidis公司
地点：: LREC公司
SIG公司：
出版商：: 欧洲语言资源协会
注：
页：: 6633–6637
语言：: 英语
网址：: https://aclantology.org/2020.lrec-1.818
内政部：
比比键：
引用（ACL）：: 罗伯特·达利斯（Roberts Darģis）、佩特里斯·佩肯斯（Peteris Paikens）、诺蒙德·格鲁兹提斯（Normunds Gruzitis）、伊尔泽·奥齐纳（Ilze Auzina）和玛瑙阿克曼（Agate Akmane）。2020拉脱维亚语语音合成语料库的开发与评价.英寸第十二届语言资源与评估会议记录，第6633–6637页，法国马赛。欧洲语言资源协会。
引用（非正式）：: 拉脱维亚语语音合成语料库的开发与评价（Darģis等人，LREC 2020）
复制引文：
PDF格式：: https://aclcollectory.org/2020.lrec-1.818.pdf

PDF格式引用搜索