计算机科学>声音
标题: 基于中文数字字符串语料库的文本相关说话人验证应用框架
摘要: 研究表明,在短语音场景中,文本相关说话人验证(TD-SV)通常优于文本相关说话人验证(TI-SV)。 然而,收集大规模固定文本语音数据是一项挑战,随着语音长度的增加,句子节奏和停顿等因素会影响TDSV对文本序列的敏感性。 基于这些因素,我们提出了这样的假设,即时间尺度上更精细的池方法、语音说话人嵌入和文本嵌入的解耦表示等策略更适合于TD-SV。我们介绍了一个基于包含较长中文数字字符串文本的数据集的端到端TD-SV系统。 它包含文本嵌入网络、说话人嵌入网络和后端融合。 首先,我们记录了一个由名为SHAL的长中文数字文本组成的数据集,该数据集可在Open-SLR网站上公开获取。 我们通过使用Tacotron2和HiFi-GAN增强数据集来解决数据集稀缺的问题。 接下来,我们介绍了一种具有文本嵌入和说话人嵌入的语音双重表示。 在文本嵌入网络中,我们使用了一个增强的Transformer,并引入了三重损失,包括文本分类损失、CTC损失和解码器损失。 对于说话人嵌入网络,我们增强了滑动窗口关注统计池(SWASP),并结合关注统计池创建了一种多尺度的池方法。 最后,我们融合了文本嵌入和说话人嵌入。 我们的池方法在Hi-Mia和SHAL上分别实现了49.2%和75.0%的等错误率(EER)性能改进。