A text-dependent speaker verification application framework based on Chinese numerical string corpus

Zheng, Litong; Hong, Feng; Xu, Weijie

摘要：研究表明，在短语音场景中，文本相关说话人验证（TD-SV）通常优于文本相关说话人验证（TI-SV）。然而，收集大规模固定文本语音数据是一项挑战，随着语音长度的增加，句子节奏和停顿等因素会影响TDSV对文本序列的敏感性。基于这些因素，我们提出了这样的假设，即时间尺度上更精细的池方法、语音说话人嵌入和文本嵌入的解耦表示等策略更适合于TD-SV。我们介绍了一个基于包含较长中文数字字符串文本的数据集的端到端TD-SV系统。它包含文本嵌入网络、说话人嵌入网络和后端融合。首先，我们记录了一个由名为SHAL的长中文数字文本组成的数据集，该数据集可在Open-SLR网站上公开获取。我们通过使用Tacotron2和HiFi-GAN增强数据集来解决数据集稀缺的问题。接下来，我们介绍了一种具有文本嵌入和说话人嵌入的语音双重表示。在文本嵌入网络中，我们使用了一个增强的Transformer，并引入了三重损失，包括文本分类损失、CTC损失和解码器损失。对于说话人嵌入网络，我们增强了滑动窗口关注统计池（SWASP），并结合关注统计池创建了一种多尺度的池方法。最后，我们融合了文本嵌入和说话人嵌入。我们的池方法在Hi-Mia和SHAL上分别实现了49.2%和75.0%的等错误率（EER）性能改进。

学科：	声音（cs.SD）; 音频和语音处理（eess.AS）
引用为：	arXiv:2312.01645[cs.SD]
	（或 arXiv:2312.01645v1[cs.SD]对于此版本）
	https://doi.org/10.48550/arXiv.2312.01645

计算机科学>声音

标题：基于中文数字字符串语料库的文本相关说话人验证应用框架

提交历史记录

访问纸张：

参考文献和引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目