Coordination of Speech Recognition Devices in Intelligent Environments with Multiple Responsive Devices

Benítez-Guijarro, Antonio; Callejas, Zoraida; Noguera, Manuel; Benghazi, Kawtar

doi:10.3390/proceedings2019031054

开放式访问诉讼文书

智能环境中语音识别设备与多响应设备的协调^†

西班牙格拉纳达18071年格拉纳达大学语言与计算机系统系

^*

应向其寄送信件的作者。

^†

在第13届普遍计算和环境智能国际会议上发表2019年12月2日至5日，西班牙托莱多，UCAmI 2019。

诉讼 2019,31(1), 54;https://doi.org/10.3390/proceedings2019031054

发布日期：2019年11月20日

（本条属于第十三届通用计算和环境智能国际会议UCAmI 2019)

下载

浏览地物

版本注释

摘要

:

带有口头界面的设备正在环境智能设置中启用新的有趣的交互场景和交互方式。在同一环境中使用多个这样的设备，可以比较从每个设备收集的输入，并对用户语音进行更准确的识别和处理。然而，多个设备的组合带来了协调方面的挑战，因为不同的语音处理单元处理一个语音信号可能会导致输出冲突，因此有必要确定哪一个是最可靠的源。本文提出了一种在多设备环境中对多个语音输入源进行排序的方法，以便优先选择估计质量最高的输入。根据计算出的声学质量和产生的语音识别假设的可靠性，对多个设备接收到的语音信号进行评估。在此评估之后，每个输入都被分配一个唯一的分数，允许对音频源进行排名，以便选择系统处理的最佳音频源。为了验证这种方法，我们使用了一个包含4608个音频的语料库进行了评估，该语料库记录在一个有24个麦克风的两室智能环境中。实验结果表明，无论是在清晰的环境中还是在嘈杂的环境中，我们的排序方法都可以成功地协调越来越多的声学输入，获得比考虑单个输入更好的识别率。

关键词：

人机交互;口语互动;语音识别;环境情报;设备的协调

1.简介

在国内环境中，语音交互越来越受欢迎，因为出现了可以通过价格合理的智能扬声器和中央单元访问的虚拟代理，如Alexa/Azon Echo、Google Home和Siri。然而，这些设备的使用存在许多挑战[1,2]. 一方面，用户语音输入的可懂度受到环境噪声、用户相对于设备的距离和位置以及衰减音频信号的障碍物的影响[三]. 当环境中存在多个设备时，有必要对其进行编排，因为它们可能同时被激活，单独处理信号并导致潜在的错误解释，因为它们不知道存在其他可能产生更好识别结果的设备[4]以及生成冗余、重叠或冲突的操作或响应。然而，智能助理通常设计为独立设备，用于处理用户的语音命令并自动对环境进行操作[5]，有时激活其他连接的设备[6]，但不知道或与其他类似的语音处理单元协调。

本文提出了一种通过基于多个音频源排序的机制来协调环境智能环境中的语音响应设备的建议。主要目标是使用来自环境中所有设备的所有录音，并将最精确的解释排在第一位，以便选择用户输入的单一解释。为此，我们考虑每个设备记录的信号，并根据接收到的声音信号的质量（响度、能量、噪声和持续时间）和语音识别过程中生成的置信度，对生成的假设进行优先级排序。因此，我们的提案与填充环境的设备数量和类型及其位置无关。

本文的其余部分组织如下。第2节介绍相关工作。第3节定义建议的协调程序。第4节描述了实验设置，包括场景描述和使用的音频源。第5节讨论评估结果和第6节提出了结论和未来的工作指南。

2.相关工作

环境智能系统通常由多种传感器和设备组成，用于收集数据并在环境中产生变化。然而，当它们提供基于语音的交互的可能性时，它们通常依赖于单个设备来捕获用户的语音命令。

目前，有不同的项目和研究提出了环境智能协调多个传感器和设备的新方法。这些项目呈现了这样的场景：用户与信息的执行者和接收者共存，但口头交互是以通常的方式进行的，使用单一的说话设备[5,6,7].

集成多个语音处理设备或麦克风可以获得更好的识别准确性，因为可以选择质量更好的设备或麦克风[8]. 为了做到这一点，有必要计算质量，提供尽可能多的灵活性。例如，可以使用麦克风到用户的距离来计算质量，例如，考虑到与来自更远的另一个麦克风的记录相比，来自离用户更近的麦克风的记录应该被给予优先权。然而，情况并非总是如此，因为用户相对于麦克风的位置和方向（例如，他是朝麦克风的方向说话还是朝着麦克风的方向讲话）也是相关的，而且还需要事先知道麦克风的位置，这会降低设置的真实性。为了避免这些缺点，我们建立了一种基于声学和语音识别参数的机制，这些参数可以从声学信号中计算出来，而不需要额外的环境信息。

另一方面，有一些方法[8]它提出了从多个麦克风的环境中分析和选择最佳音频源的技术。此外，诸如[9]展示组合多个音频信号以产生多个源的更清晰的语音到文本转录是多么有用。然而，尽管这些先前的项目证明了使用多个录音设备而不是传统的单麦克风设置的实用性，但它们并没有直接解决如何在智能环境中应用这一优势。我们的方法介绍了如何汇集多个音频信号，根据质量对来自同一环境中分布式设备的音频流进行评分。

也有研究提出了补充与其他非口服来源的口服相互作用的机制[10,11,12,13]并描述了协调几个说话对象的一些挑战[4].

在缺乏涵盖本文主题的研究的情况下，我们旨在解决[4]，进一步提供了一种支持在一个环境中协调不同分布式音频源的方法。为此，我们建议解决重叠和协调问题，对来自多个设备的多个语音信号进行轮询和排序。

3.多源语音识别结果的协调

为了在智能环境中识别语音命令并对其做出反应，需要连接具有监听和响应能力的设备。当这些设备被激活时，例如使用唤醒关键字（例如，“Alexa”或“Hey Google”），它们会将音频流转换为文本（语音识别），解释其含义并产生响应或执行操作。

本文提出了一种新的方法，用于在基于语音的环境智能交互中选择最可靠的语音识别结果，对环境中多个设备的输入进行排序。排名是根据所捕获音频流的可靠性估计和语音识别结果的质量计算的。此过程可以以分散的方式执行，每个设备捕获音频信号，广播并生成排名，也可以由接收所有音频流并进行排名的中央设备执行。

在下一节中，我们将该方法的演示分为两个阶段：（i）语音信号质量评分，和（ii）语音到文本质量评分。在第一步中，我们根据不同的音频特征估计每个设备获得的信号质量。在第二步中，我们对每个音频进行语音识别，并获得识别假设的质量估计。将两个质量分数进行聚合，以生成所有音频源的排名，并选择位置最佳的音频源作为系统的输入。

3.1. 语音信号质量评分

图1提出了一个过程模型，该模型描述了产生与语音信号质量估计相对应的分数的步骤。首先，设备必须处理信号（“音频信号特征提取”），获取用于估计质量的相关特征，为此我们计算平均值、最大值和最小值，并计算分数（“音频特征评分”）。

3.1.1. 音频信号特征提取

在此步骤中，将处理每个设备捕获的音频，以提取音频信号的不同属性来测量其质量。为了实现这一点，必须将音频信号划分为帧。每一帧都包含关于在特定时刻感知到的声音的不同属性的信息。根据音频信号的通道数，帧由多个采样组成。如果音频中只有一个通道（单声道声音），则一帧只是一个样本；然而，如果音频是立体声的，则每个帧由两个采样组成。根据所记录音频的速率（位/秒）记录每一帧。声速控制当前帧被替换的频率。例如，8000 Hz的速率意味着每秒播放或捕获8000次新帧。根据音频的录制方式，帧的大小可能会有所不同。为了识别记录的最佳音频信号，我们应该通过分析音频的每一帧来测量主要的音频特征。我们专注于以下功能：

响度：响度是声音的主观强度，与压力水平、频率和持续时间有关。因此，响度是指一个声音在听者看来的响度或音量，由声波的强度或能量量决定，以分贝（dB）为单位[14].
信号能量：能量有助于区分语音信号中的无声段和浊音段，因为能量随着声音的增加而增加。
峰值（噪音）：峰值是声压达到的最大值。它通常对应于特定信号的感知响度，但主要描述声音信号期间振幅的最大值。
持续时间：持续时间对应于声音产生的振动保持的时间。

3.1.2. 音频功能处理和评分

一旦我们从音频信号中获得了所有相关特征，我们就开始对不同的信号源进行评分，目的是为质量更高的信号分配更高的分数，从而更有可能得到正确的解释。

设计的评分过程是基于向每个来源提供唯一的值或分数。如果有n个源，每个源都根据上述四个维度（响度、能量、噪音和持续时间）进行排序。对于每个维度，将为最佳源分配值n个，第二个值为n个−1因此，一个来源可获得的最高总分为4个（评分n个跨越四个维度）。

对于每个维度，分数分配如下：

响度：如果信号的平均响度较高，则可能意味着产生该声音的源距离设备更近，因此该信号更可靠。因此，达到最高平均响度的音频信号将获得最高分数。
信号能量：如果信号具有较高的平均能量，则可能意味着信号中没有很长的静音段，因此音频可能对应于命令，因为它指示此音频包含串联的单词序列。因此，获得最高平均能量的音频信号将获得最高分数。
峰值（噪声）：当特定信号的峰值方差与环境中采集的其他信号的平均方差相差很大时，这可能表明区分该内容中的不同音素可能很复杂[15]. 因此，得分最高的音频将是峰值平均值最低的音频，并且与所有其他音频的平均值相比最接近。
持续时间：最后，利用这个属性，我们想检测信号是否太低，只检测了几个单词，而不是语音命令的所有内容，以及与真实语音命令相比，信号错误识别了更多单词的情况。因此，获得最高分数的信号将是持续时间最接近最具代表性值的信号，这是通过比较所有信号持续时间的四分位范围获得的。

3.2. 演讲-文本质量评分流程

在此阶段（请参见图2)，音频信号由自动语音识别（ASR）软件（“自动语音识别”）处理，该软件将信号作为输入，并生成最佳识别假设及其置信值的列表。我们的方法与所使用的ASR软件无关，也与是否使用不同的ASR系统来处理不同设备中的声学输入无关。最后，在（“假设评分”）过程中对所有这些提取的数据进行处理、比较和评分。

3.3. 假设评分过程

在这一步中，我们分配分数，再次考虑在多个维度上具有唯一值的分数量表，使用以下标准：

一般置信值。一般置信值表示在0（最坏情况）到1（最佳情况）的区间内正确识别假设中所有单词的概率。因此，在这种情况下，包含最高一般置信值的信号可能是最接近正确的选项，因此将获得最高分数。
识别单词中的最小置信值。在这种情况下，将比较已识别单词的所有置信值，找出对其所属假设贡献最小值的单词。这可能表明，尽管语音识别系统可能对特定假设赋予了高置信度，如果其中包含的任何单词的置信度都很低，那么这个假设很可能并不完全正确。
长度。利用这个特性，我们想检测假设是否只对应于语音命令的一部分（只检测到几个单词），或者相反，当信号较长时，由于这个原因，ASR产生了一个包含太多单词的较长假设。因此，最好的假设是与其他假设的四分位范围相比，单词长度最接近的假设。

4.实验装置

为了评估我们的提案，我们执行了一个验证过程，以检查该方法是否产生有效的排名，与由单个设备执行ASR相比，无论其位置如何，都可以降低错误率。

为了执行和验证所述过程的实现，我们定义了一个场景，该场景以最通用的方式表示用户将使用多个侦听设备与环境进行通信的情况。这样，我们只考虑了一个限制，即场景呈现不同的音频接收源（至少两个），而其他因素可能会有所不同，包括（1）设备数量，（2）麦克风质量，（3）它们在环境中的位置，以及（4）使用的语音识别器。

4.1. 场景描述

我们已经用鲁棒家庭应用程序的远程语音交互（DIRHA）语料库测试了我们的方法[16]由DIRHA研究项目发布给研究社区，该项目专注于开发支持语音的自动化家庭环境。语料库由基于远程语言交互的录音组成。在语料库中，不同的房间安装了不同的麦克风，由此产生的多声道音频记录捕获了多个音频事件，包括语音命令或自发语音，以及不同数量的混响和背景噪音。该语料库包含192个音频信号，对应于中描述的设置中记录的不同短语图3在两个相邻房间的几个位置放置了许多麦克风。

对于每个音频信号，该语料库为文件提供关于发音的原始句子的信息，以及根据单个句子为每个麦克风记录的所有音频。

此场景由两个房间组成，在这两个房间中，麦克风被放置在标有ID的房间中，并标有其确切位置的信息。这些麦克风放置在两个房间的不同位置。这些房间由一堵墙隔开，门与它们相通。第一个房间是带家具的“客厅”，有18个麦克风，第二个房间是带有6个麦克风的“厨房”。

4.2. 验证过程描述

验证过程考虑了DIRHA音频语料库，该语料库由音频和文本解释组成，这些文本解释由以下场景中描述的几个音频源发音和记录第4.1节.

对于语音信号质量评分(第3.1节)我们实现了一个脚本，用于分析音频源，提取所有音频特征以执行所建议的质量分析。我们已经使用OpenSmile处理了语料库中的所有音频[16]，一种分析音频语音参数的专用软件。此库允许定义一个配置文件，其中包含要从音频中提取的所有参数和功能，如中所述第3.1节.

之后，为了语音对文本质量评分(第3.2节)我们使用了谷歌云的语音对文本演讲[17]识别引擎提取文本解释。

提取音频流中的信息后，我们应用了中所述的评分程序第3节使用实现的脚本。脚本根据中描述的参数计算每个音频的分数及其解释第3节生成具有n个最佳信号的列表。

然后，我们将分数列表和假设与用于记录DIRHA语料库的参考文本进行了比较。通过这种比较，我们可以确定文本假设中的每个输入源是否与用户在音频中发音的文本相匹配。此外，我们计算了每个样本的平均单词错误率（WER）。

通过这种方式，我们可以确定特定麦克风何时录制了无法正确转录为文本的音频，从而产生与用户所说不同的假设。为了测试我们的程序，我们将这些结果与脚本生成的列表进行了比较，检查得分较高的输入是否与获得良好结果的麦克风相对应。

我们的基准是每个独立话筒的结果。然后，我们分析了包含从麦克风组获得的多个源的场景。为了使用不同数量的麦克风和麦克风位置验证我们的提案，我们创建了麦克风组，如中所述图4。由于这些小组必须包含不同质量的音频，我们之前确定了产生识别错误的麦克风。当特定麦克风录制的音频的文本转录与用户所说的不匹配时，就会发生识别错误，从而产生错误的解释句子。最后，我们使用所有话筒评估提案。

4.3. 我们的方法总结

首先，我们使用OpenSmile（audEERING^TM（TM）（德国基尔钦）对话筒感知到的所有录音的信号质量进行评分。为了执行提取，我们实现了一个配置文件，将音频划分为帧，然后选择要提取的特征。一旦对每个信号都完成了这一步，我们将继续使用脚本分析提取音频特征的结果。分析提取的属性，并根据第3.1节和第3.2节。下一步包括将音频流发送到谷歌云语音转文本服务（或任何其他ASR），以获取其文本转录。该服务发送假设及其置信度参数的列表，将使用这些假设及其置信度参数执行评分过程，如中所述第3.3节最后，生成识别假设的有序列表，其中第一个位置对应得分较高的位置。

5.结果

我们分析了语料库中的192个句子。在描述的场景中，每个句子都由24个麦克风在安静和嘈杂的条件下录制，产生了4608个经过处理的音频。经过分析，我们将所得结果与被试发音的原始句子进行了比较。通过语料库中包含的这些原始短语，我们可以检查成功匹配原始句子的假设数量。在获得比较表后，我们计算了所产生假设中的单词错误率（WER）。

表1显示了使用语音识别器获得的每个麦克风录制的所有音频的平均WER结果。然后，我们创建了在图4并应用我们的方法对组中的不同话筒进行排序，以选择最佳质量的输入，并计算WER，将最佳排序假设与参考文本进行比较。结果如所示表2（检查表3对于缩写的含义），表明与孤立麦克风设置相比，我们的方法减少了错误(表1).

从中可以观察到表2如果每个麦克风单独处理用户语音命令，则会产生255个口译错误。这表明了使用我们的方法能够使用多个话筒并选择最佳质量输入的相关性。在表2我们可以看到E组和D组（包括产生错误的麦克风）是如何在应用评分过程后降低错误率的。之所以会出现这种情况，是因为我们的方法允许增加录音次数，以便处理语音命令，将组中每个麦克风执行的每个录音都相加。例如，麦克风L4L有192个录音，L4R有192次录音。应用我们的程序后，我们可以分析192+192个录音，以确定具有最高质量的最佳音频流。

如图所示表2，鉴于误差率较低，所得结果为正。在使用的语料库中，获得的音频来自不同的来源，这些来源之间通常不会太远。因此，错误率相对较低，因此可以令人满意地使用不同的邻近源，从而获得更稳健的假设。

在这个实验中，我们还验证了用户到录音源的距离并非在所有情况下都是相关的，也就是说，并非总是离用户最近的麦克风提供最佳质量的输入。这表明声学特征可以提供比麦克风位置更可靠的信息，因为它们还可以将扬声器的方向和环境中其他物体产生的衰减视为另一个重要变量。

6.结论

虽然目前使用语音助手的环境还不够成熟，但它们正在融入我们的日常生活。在未来，生活在拥有众多具有口头界面的设备的环境中是正常的，因此有必要面对与识别最可靠的信息源和交互相关的不同挑战，并提供连贯和协调的响应或反应。

在本文中，我们提出了一种在具有多个具有口头交互功能的设备的环境中协调语音识别设备的方法。我们对通过不同输入获得的音频特征和语音识别假设进行评分和选择，以确定最佳识别假设。我们考虑了响度、信号能量、周围噪声、持续时间和识别置信度等因素。总之，它们可以通过对输入进行排序并选择质量分数最高的输入来提高整体识别精度。

因此，我们可以强调这一程序的好处，因为本提案提供了：

环境中设备数量的独立性（至少两个）。
话筒位置和与之交互的用户的独立性。
设备及其话筒质量的独立性。
使用的自动语音识别引擎的独立性。

尽管这是在环境智能场景中实现设备之间交互与合作的一步，但仍存在其他挑战，如设计开发标准以完全兼容所有代理，应用本文中提出的方法或其他方法，用于所有连接设备之间的信息协商或讨价还价。

对于未来的工作，我们将定义一种方法来生成和协调系统响应，避免来自多个设备的重叠操作和响应。

作者贡献

概念化，A.B.-G.，Z.C.，M.N.和K.B。；方法论，A.B.-G.、M.N.、Z.C.和K.B。；调查，A.B.-G。；数据管理，Z.C.和A.B.-G。；形式分析，Z.C.和A.B.-G。；融资收购、M.N.、Z.C.和K.B。；项目管理、M.N.和Z.C。；资源，M.N.和A.B.-G。；软件、A.B.-G（软件开发和实施）、M.N.、Z.C.和K.B.（设计和测试）；监理、M.N.、Z.C.和K.B。；验证、A.B.-G.、Z.C.、M.N.和K.B。；可视化，A.B.-G。；书面原稿A.B.-G、Z.C.、M.N.和K.B。；写作评论与编辑，A.B.-G.、Z.C.、M.N.和K.B。

基金

本研究获得了西班牙经济与竞争力部（MINECO）和欧洲区域发展基金（ERDF）的DEP2015-70980-R项目的资助，该项目是根据第823907号赠款协议（“通过互动对话进行心理健康监测’，MENHIR项目），并收到了成本行动IC1303 AAPELE的投入。

利益冲突

作者声明没有利益冲突。

工具书类

Ruiz-Zafra，A。；Noguera，M。；班加西，K。；Ochoa，S.F.可穿戴系统开发的模型驱动方法。Int.J.经销商净敏感度。 2015,11, 637130. [谷歌学者] [交叉参考]
Ruiz-Zafra，A。；班加西，K。；Mavromoustakis，C。；Noguera，M.智能栖息地的物联网架构模型。2018年10月29日至31日在罗马尼亚布加勒斯特举行的2018 IEEE第16届嵌入式和普适计算国际会议（EUC）会议记录；第103–110页。[谷歌学者] [交叉参考]
Hansen，J.H.L.重音和噪声语音的分析和补偿及其在鲁棒自动识别中的应用。博士论文，乔治亚理工学院，美国乔治亚州亚特兰大，1988年。[谷歌学者] [交叉参考]
里皮，M。；马美，M。；Mariani，S。；Zambonelli，F.协调分布式说话对象。2017年IEEE第37届分布式计算系统国际会议（ICDCS）会议记录，2017年6月5日至8日，美国佐治亚州亚特兰大；第1949–1960页。[谷歌学者] [交叉参考]
阿拉斯加州。；Espejo，G。；López-Cózar，R。；加利福尼亚州Callejas。；Griol，D.家庭环境中环境智能应用的多模式对话系统。2010年9月6日至10日在捷克共和国布尔诺举行的文本、演讲和对话国际会议记录；施普林格：德国柏林/海德堡，2010年；第491-498页。[谷歌学者] [交叉参考]
Heinroth，T。；Denich，D。；Schmitt，A.Owlspeak——智能环境中的自适应口语对话。2010年3月29日至4月2日在德国曼海姆举行的2010年第八届IEEE普及计算和通信国际会议（PERCOM研讨会）会议记录；第666-671页。[谷歌学者] [交叉参考]
Vacher，M。；Istrate，D。；波特，F。；Joubert，T。；骑士，T。；Smidtas，S。；梅隆，B。；Lecouteux，B。；Sehili，M。；查瓦拉，P。；甜点项目：智能家居中的音频技术，以改善幸福感和依赖性。2011年8月30日至9月3日，美国马萨诸塞州波士顿，医学与生物学会IEEE工程2011国际年会论文集；第5291–5294页。[谷歌学者] [交叉参考]
Wolf，M。；Nadeu，C.多麦克风语音识别的通道选择措施。语音通信。 2014,57, 170–180. [谷歌学者] [交叉参考]
吉冈，T。；陈，Z。；迪米特里亚迪斯，D。；辛索恩，W。；黄，X。；Stolcke，A。；Zeng，M.使用异步远程话筒进行会议记录。2019年9月15日至19日，奥地利格拉茨，Interspeech会议记录。[谷歌学者]
深度和广度：自动语音识别中的多层。IEEE传输。音频语音语言处理。 2012,20, 7–13. [谷歌学者] [交叉参考]
Bellegarda，J.R。；Kanevsky，D.使用多个互补信息源自动识别一致消息，1996年。在线可用：https://patents.google.com/patents/US5502774A/en（2019年7月20日访问）。
贝尼特斯·吉亚罗，A。；加利福尼亚州Callejas。；Noguera，M。；班加西，K。健康饮食对话营养教练中自然语言理解的计算语义介绍。诉讼 2018,2, 506. [谷歌学者] [交叉参考]
贝尼特斯·吉亚罗，A。；阿拉巴马州Ruiz-Zafra。；加利福尼亚州Callejas。；Medina-Medina，N。；班加西，K。；Noguera，M.健康习惯监测和鼓励虚拟教练开发的一般架构。传感器 2019,19, 108. [谷歌学者] [交叉参考] [公共医学]
Zwicker，E.《将音频范围细分为临界频带（Frequenzgruppen）》。J.声学。美国南部。 1961,33, 248–248. [谷歌学者] [交叉参考]
姜涛（Jiang，T.）。；Wu，Y.《概述：OFDM信号的峰均功率比降低技术》。IEEE传输。广播。 2008,54, 257–268. [谷歌学者] [交叉参考]
克里斯托弗雷蒂，L。；拉瓦内利，M。；奥莫洛戈，M。；Sosi，A。；阿巴德。；Hagmüller，M。；Maragos，P.DIRHA模拟语料库。2014年5月26日至31日，冰岛雷克雅未克LREC会议记录；第2629-2634页。[谷歌学者]
使用Cloud Speech-to-Text | Cloud Speech-to-Text API进行语音识别。在线可用：https://cloud.google.com/speech-to-text网站/（于2019年7月20日访问）。

图1。语音信号质量评分阶段的过程模型。

图2。语音到文本质量评分阶段的详细方案。

图2。演讲到文本质量评分阶段的详细方案。

图3。DIRHA场景的平面图。

图4。用于评估过程的麦克风组。

表1。单独处理音频信号的结果（麦克风ID与图4).

单麦克风处理
话筒	错误	%WER公司
拉丁美洲1	20	22.1%
拉丁美洲2	2	15.3%
拉丁美洲4	2	12.1%
拉丁美洲6	2	15.9%
L3L级	2	19.5%
第三代	2	18.3%
L4升	11	18.9%
L4R（第四层）	16	25.9%
L2L型	5	17.9%
KA1公司	10	19.6%
KA2公司	11	17.4%
卡3	三	19.0%
KA4公司	36	26.5%
KA5公司	42	27.1%
一级风险	9	16%
L1C级	27	19.2%
后勤07	19	22.3%
LD02型	36	26.2%

表2。基于不同话筒组的拟议方法的音频分析结果。

单麦克风处理
TS公司	NS公司	NCIS公司	NIIS公司	%WER公司
清晰的音频	2304	2236	68	16.5%
嘈杂的音频	2304	2117	187	22.4%
总计	4608	4353	255	19.5%
E组（L4L+L4R）话筒
清晰的音频	192	189	三	20.2%
嘈杂的音频	192	189	三	20.2%
总计	384	382	6	20.2%
D组（LD12+LD07+LD02）麦克风
清晰的音频	288	285	三	15.2%
嘈杂的音频	288	284	4	24.4%
总计	576	569	7	19.8%
C组（L3L+L3R）话筒
清晰的音频	192	192	0	0%
嘈杂的音频	192	192	0	0%
总计	384	384	0	0%
A组（KA1+KA2+KA3+KA4+KA5+KA6）话筒
清晰的音频	576	576	0	0%
嘈杂的音频	576	576	0	0%
总计	1152	1152	0	0%
A+B+C+D+E+F+G组（所有）话筒
清晰的音频	2304	2304	0	0%
嘈杂的音频	2304	2304	0	0%
总计	4608	4608	0	0%

表3。结果表的映射键(表2).

缩写	含义
TS公司	句子类型
NS公司	句子数量
NCIS公司	正确句子数（与原文匹配的假设）
NIIS公司	错误句子数（假设与原文不匹配）
WER公司	单词错误率

分享和引用

MDPI和ACS样式

贝尼特斯·吉亚罗，A。；加利福尼亚州Callejas。；Noguera，M。；英国班加西。智能环境中语音识别设备与多响应设备的协调。诉讼 2019,31, 54.https://doi.org/10.3390/proceedings2019031054

AMA风格

贝尼特斯·吉亚罗A、Callejas Z、Noguera M、班加西K。智能环境中语音识别设备与多个响应设备的协调。诉讼. 2019; 31(1):54.https://doi.org/10.3390/proceedings2019031054

芝加哥/图拉宾风格

贝尼特斯·吉亚罗（Benítez-Guijarro）、安东尼奥（Antonio）、佐拉迪亚·卡列哈斯（Zoradia Callejas）、曼努埃尔·诺格拉（Manuel Noguera）和考塔·班加西（Kawtar Benghazi）。2019.“智能环境中语音识别设备与多响应设备的协调”诉讼31，编号1:54。https://doi.org/10.3390/proceedings2019031054

文章菜单

智能环境中语音识别设备与多响应设备的协调^†

摘要

1.简介

2.相关工作