胡伯特 swMATH ID: 40428 软件作者: 徐伟宁、本杰明·博尔特、蔡耀洪、库沙尔·拉霍蒂亚、鲁斯兰·萨拉赫丁诺夫、阿卜杜勒拉赫曼·穆罕默德 描述: HuBERT:通过隐藏单元的掩蔽预测进行的自监督语音表示学习。语音表征学习的自我监督方法面临着三个独特的问题:(1)每个输入话语中都有多个声音单元,(2)在预训练阶段没有输入声音单元的词汇,(3)声音单元的长度可变,没有明确的分割。为了解决这三个问题,我们提出了用于自监督语音表示学习的Hidden-Unit-BERT(HuBERT)方法,该方法利用离线聚类步骤为类BERT预测损失提供对齐的目标标签。我们方法的一个关键要素是仅在屏蔽区域应用预测损失,这迫使模型在连续输入下学习声学和语言组合模型。HuBERT主要依赖于无监督聚类步骤的一致性,而不是指定聚类标签的内在质量。从一个包含100个集群的简单k-means老师开始,使用两次聚类迭代,HuBERT模型在Librispeech(960h)和Libri-light(60000h)基准上匹配或改进了最先进的wav2vec 2.0性能,包括10min、1h、10h、100h和960h微调子集。使用1B参数模型,HuBERT显示多达19个 主页: https://arxiv.org/abs/2106.07447 关键词: arXiv_cs。氯;人工智能;arXiv_cs。人工智能;机器学习;arXiv_cs。LG公司;音频;语音处理;arXiv_eess(_E)。AS公司;胡伯特 相关软件: 自由演讲;费尔塞克;波浪2vec;蟒蛇;迪蒂尔伯特;LightHuBERT公司;TERA公司;贾斯珀;石英网;PyTorch闪电;棒 极 了;FitNets公司;BERT(误码率);DistilHuBERT公司;FitHuBERT公司;深度演讲;塔斯奈特;波浪辉光;wav2字母++;SpeechBrain公司 引用于: 0个文档