智能环境中语音识别设备与多响应设备的协调 †
摘要
1.简介
2.相关工作
3.多源语音识别结果的协调
3.1. 语音信号质量评分
3.1.1. 音频信号特征提取
信号能量:能量有助于区分语音信号中的无声段和浊音段,因为能量随着声音的增加而增加。 峰值(噪音):峰值是声压达到的最大值。 它通常对应于特定信号的感知响度,但主要描述声音信号期间振幅的最大值。 持续时间:持续时间对应于声音产生的振动保持的时间。
3.1.2. 音频功能处理和评分
响度:如果信号的平均响度较高,则可能意味着产生该声音的源距离设备更近,因此该信号更可靠。 因此,达到最高平均响度的音频信号将获得最高分数。 信号能量:如果信号具有较高的平均能量,则可能意味着信号中没有很长的静音段,因此音频可能对应于命令,因为它指示此音频包含串联的单词序列。 因此,获得最高平均能量的音频信号将获得最高分数。 峰值(噪声):当特定信号的峰值方差与环境中采集的其他信号的平均方差相差很大时,这可能表明区分该内容中的不同音素可能很复杂[ 15 ]. 因此,得分最高的音频将是峰值平均值最低的音频,并且与所有其他音频的平均值相比最接近。 持续时间:最后,利用这个属性,我们想检测信号是否太低,只检测了几个单词,而不是语音命令的所有内容,以及与真实语音命令相比,信号错误识别了更多单词的情况。 因此,获得最高分数的信号将是持续时间最接近最具代表性值的信号,这是通过比较所有信号持续时间的四分位范围获得的。
3.2. 演讲-文本质量评分流程
3.3. 假设评分过程
一般置信值。 一般置信值表示在0(最坏情况)到1(最佳情况)的区间内正确识别假设中所有单词的概率。 因此,在这种情况下,包含最高一般置信值的信号可能是最接近正确的选项,因此将获得最高分数。 识别单词中的最小置信值。 在这种情况下,将比较已识别单词的所有置信值,找出对其所属假设贡献最小值的单词。这可能表明,尽管语音识别系统可能对特定假设赋予了高置信度, 如果其中包含的任何单词的置信度都很低,那么这个假设很可能并不完全正确。 长度。 利用这个特性,我们想检测假设是否只对应于语音命令的一部分(只检测到几个单词),或者相反,当信号较长时,由于这个原因,ASR产生了一个包含太多单词的较长假设。 因此,最好的假设是与其他假设的四分位范围相比,单词长度最接近的假设。
4.实验装置
4.1. 场景描述
4.2. 验证过程描述
4.3. 我们的方法总结
5.结果
6.结论
环境中设备数量的独立性(至少两个)。 话筒位置和与之交互的用户的独立性。 设备及其话筒质量的独立性。 使用的自动语音识别引擎的独立性。
作者贡献
基金
利益冲突
工具书类
Ruiz-Zafra,A。; Noguera,M。; 班加西,K。; Ochoa,S.F.可穿戴系统开发的模型驱动方法。 Int.J.经销商净敏感度。 2015 , 11 , 637130. [ 谷歌学者 ] [ 交叉参考 ] Ruiz-Zafra,A。; 班加西,K。; Mavromoustakis,C。; Noguera,M.智能栖息地的物联网架构模型。 2018年10月29日至31日在罗马尼亚布加勒斯特举行的2018 IEEE第16届嵌入式和普适计算国际会议(EUC)会议记录; 第103–110页。 [ 谷歌学者 ] [ 交叉参考 ] Hansen,J.H.L.重音和噪声语音的分析和补偿及其在鲁棒自动识别中的应用。 博士论文,乔治亚理工学院,美国乔治亚州亚特兰大,1988年。 [ 谷歌学者 ] [ 交叉参考 ] 里皮,M。; 马美,M。; Mariani,S。; Zambonelli,F.协调分布式说话对象。 2017年IEEE第37届分布式计算系统国际会议(ICDCS)会议记录,2017年6月5日至8日,美国佐治亚州亚特兰大; 第1949–1960页。 [ 谷歌学者 ] [ 交叉参考 ] 阿拉斯加州。; Espejo,G。; López-Cózar,R。; 加利福尼亚州Callejas。; Griol,D.家庭环境中环境智能应用的多模式对话系统。 2010年9月6日至10日在捷克共和国布尔诺举行的文本、演讲和对话国际会议记录; 施普林格:德国柏林/海德堡,2010年; 第491-498页。 [ 谷歌学者 ] [ 交叉参考 ] Heinroth,T。; Denich,D。; Schmitt,A.Owlspeak——智能环境中的自适应口语对话。 2010年3月29日至4月2日在德国曼海姆举行的2010年第八届IEEE普及计算和通信国际会议(PERCOM研讨会)会议记录; 第666-671页。 [ 谷歌学者 ] [ 交叉参考 ] Vacher,M。; Istrate,D。; 波特,F。; Joubert,T。; 骑士,T。; Smidtas,S。; 梅隆,B。; Lecouteux,B。; Sehili,M。; 查瓦拉,P。; 甜点项目:智能家居中的音频技术,以改善幸福感和依赖性。 2011年8月30日至9月3日,美国马萨诸塞州波士顿,医学与生物学会IEEE工程2011国际年会论文集; 第5291–5294页。 [ 谷歌学者 ] [ 交叉参考 ] Wolf,M。; Nadeu,C.多麦克风语音识别的通道选择措施。 语音通信。 2014 , 57 , 170–180. [ 谷歌学者 ] [ 交叉参考 ] 吉冈,T。; 陈,Z。; 迪米特里亚迪斯,D。; 辛索恩,W。; 黄,X。; Stolcke,A。; Zeng,M.使用异步远程话筒进行会议记录。 2019年9月15日至19日,奥地利格拉茨,Interspeech会议记录。 [ 谷歌学者 ] 深度和广度:自动语音识别中的多层。 IEEE传输。 音频语音语言处理。 2012 , 20 , 7–13. [ 谷歌学者 ] [ 交叉参考 ] Bellegarda,J.R。; Kanevsky,D.使用多个互补信息源自动识别一致消息,1996年。 在线可用: https://patents.google.com/patents/US5502774A/en (2019年7月20日访问)。 贝尼特斯·吉亚罗,A。; 加利福尼亚州Callejas。; Noguera,M。; 班加西,K。健康饮食对话营养教练中自然语言理解的计算语义介绍。 诉讼 2018 , 2 , 506. [ 谷歌学者 ] [ 交叉参考 ] 贝尼特斯·吉亚罗,A。; 阿拉巴马州Ruiz-Zafra。; 加利福尼亚州Callejas。; Medina-Medina,N。; 班加西,K。; Noguera,M.健康习惯监测和鼓励虚拟教练开发的一般架构。 传感器 2019 , 19 , 108. [ 谷歌学者 ] [ 交叉参考 ] [ 公共医学 ] Zwicker,E.《将音频范围细分为临界频带(Frequenzgruppen)》。 J.声学。 美国南部。 1961 , 33 , 248–248. [ 谷歌学者 ] [ 交叉参考 ] 姜涛(Jiang,T.)。; Wu,Y.《概述:OFDM信号的峰均功率比降低技术》。 IEEE传输。 广播。 2008 , 54 , 257–268. [ 谷歌学者 ] [ 交叉参考 ] 克里斯托弗雷蒂,L。; 拉瓦内利,M。; 奥莫洛戈,M。; Sosi,A。; 阿巴德。; Hagmüller,M。; Maragos,P.DIRHA模拟语料库。 2014年5月26日至31日,冰岛雷克雅未克LREC会议记录; 第2629-2634页。 [ 谷歌学者 ] 使用Cloud Speech-to-Text | Cloud Speech-to-Text API进行语音识别。 在线可用: https://cloud.google.com/speech-to-text网站/ (于2019年7月20日访问)。