Speech improvement in noisy reverberant environments using virtual microphones along with proposed array geometry

Sadeghi, Mohammad Ebrahim; Sheikhzadeh, Hamid; Emadi, Mohammad Javad

doi:10.1186/s13634-022-00951-7

研究
开放式访问
出版：2022年12月14日

使用虚拟麦克风和提议的阵列几何结构改善噪声混响环境中的语音

EURASIP信号处理进展杂志 体积 2022，文章编号：120(2022)引用这篇文章

1737访问
韵律学细节

摘要

本文提出了一种在噪声混响环境中改善单个扬声器语音的新方法。所提出的方法是基于使用具有大量虚拟麦克风的波束形成器，并在开放球体上进行建议的布置。我们的方法考虑了使用球谐域中的非参数声场再现和流行的加权预测误差方法来合成虚拟麦克风信号。我们获得了完全准确的波束指向具有更多方向性的已知源位置。经证明，所建议的方法不仅在提高方向性因子方面有效，而且在改善由主观指标（如PESQ）测量的语音质量方面也有效。与目前波束形成器语音增强领域的研究相比，我们的实验表明，由于在固定波束形成器中使用了虚拟波束旋转，增强后的语音样本具有更多的噪声和混响抑制以及更好的质量。本节的文本。

1介绍

房间内麦克风记录的远距离语音信号包含由墙壁、窗户、地板、门和天花板等表面反射引起的混响。与加性噪声、回声和干扰类似，混响对语音清晰度有破坏性影响[1]. 此外，高混响导致录制的语音质量急剧下降，导致自动语音识别和源定位等音频应用严重退化[2]. 随着混响时间（RT60）的增加，对语音信号的不利影响会放大。在文献中，混响分为早期反射和晚期混响。早期反射部分提高了语音的可懂度，而后期混响部分则扭曲了语音信号[三].

波束形成被认为是克服噪声和混响的一种合理方法，由于其在声音再现和语音分离等许多应用中捕获音频信号的优势，该方法受到了广泛关注[1]. 波束形成器的性能取决于话筒的数量[1]. 尽管增加话筒数量会增加波束形成器输出中的信噪比（SNR）[4,5]就硬件和计算复杂性而言，大幅增加话筒数量是不可行的。因此，波束形成器中话筒数量的限制是一个严峻的挑战。

尽管自适应波束形成器可以使波束方向图适应源，但它在高混响室内的性能低于固定波束形成器。因此，在高混响条件下，固定波束形成器优于自适应波束形成器[6].

在这项研究中，使用虚拟麦克风（VM）被认为是解决这些问题的一种有吸引力的方法。具有适当技术的虚拟机可以在任何空间位置合成声音信号，而与物理麦克风的位置无关。虚拟麦克风（传感器）已用于各种应用，主要用于阵列处理[5]. 例如，在[7]，通过在麦克风阵列中使用VM来估计相移；此外，通过部署由虚拟传感器组成的优化阵列，设计了宽带波束形成器[8].

尽管有几种技术可以合成虚拟机信号，但虚拟拾音过程仍然是一个重大挑战[5]. 例如，在[9]，将图像理论应用于VM信号估计[10]，物理麦克风信号的插值生成新的VM信号[11]，几何信息用于产生VM信号。

声场记录包括在空间任意位置重建声音信号[12]，可用于合成VM信号。这种方法通常分为参数[11,12,13,14,15]和非参数[16,17,18,19,20,21,22]. 在参数方法中，一般模型表征了采集的声场，而非参数方法将记录的声场分解为空间基函数。由于记录的信号包含直接声音和混响，参数化方法需要两个不同的模型来估计直接声音和回响[12]. 相反，在非参数方法中，可以通过确定球谐系数来表示声场，而不是参数方法中的模型估计。我们还提出了一种计算球谐系数的新技术。

由于混响受到麦克风和声源之间的房间脉冲响应（RIR）的影响，因此获得准确的混响模型实际上是不可行的。因此，尽管分析很复杂，但本研究使用了非参数方法和去漫反射方法。值得注意的是，在以往的研究中，球谐域中的信号没有被用作虚拟麦克风信号，而在本研究中，我们利用真实麦克风的记录信号重构了噪声混响室内虚拟麦克风的信号。

当混响量减少时，非参数方法的精度会增加。去混响消除了录制信号中的混响成分，提高了信噪比（SRR）。评价去混响技术的标准是后期混响抑制量[三,23]. 在去漫反射类中，与谱增强和信道均衡方法相比，直接逆滤波方法具有较少的性能限制和对RIR估计的敏感性[23,24,25,26]. 因此，本研究将加权预测误差（WPE）算法用于这类去漫反射。

本文提出了一种合成VM信号并将其用于固定波束形成器的解决方案。该方法允许在不增加硬件的情况下增加波束形成器中的VM数量。图1显示了本研究的概述。

我们的贡献如下：

(1)
我们提出了一种利用球面谐波分析合成虚拟麦克风信号的新技术。
(2)
我们提供了一种新的阵列几何结构，它利用大量虚拟机，而不增加波束形成器的计算复杂度。
(3)
我们提出了一种将固定波束形成器的波束图旋转到已知声源位置的方法。

论文组织如下。在Sect。2描述了用于虚拟拾音和采样、波束形成和去漫反射的球坐标声场的问题公式。在Sect。三，考虑了阵列几何结构，并在一开始定义了阵列性能评估；接下来，详细介绍了所提出的均匀相移阵列结构。在Sect。4给出了实验结果，包括实现设置和仿真结果。

2问题表述

本文中，如图所示。2，球坐标中点的位置指定为\（{\mathbf{r}}=（r，θ，φ）），其中第页是距原点的径向距离（半径），\（\θ\）和\（\phi\）分别是倾角（极角）和方位角。此外，还有一个声源\（{\mathbf{r}}_s\）被认为是在远场区域。麦克风阵列和声源所在的房间具有中等的扩散噪声和高混响。

\（S（t，\omega，{\mathbf{r}}）\）是物理麦克风记录的单个语音源的信号，可以写为[12]

$$\begin{aligned}\begin{aligned}S（t，\omega，{\mathbf{r}}）=S_d（t，\ omega，}\mathbf{r}{）+S_r（t，\tomega，\mathbf-{r}）+N$$

(1)

哪里t吨是时间，\（ω=2πf）是径向频率，\（f>0\）是时间频率，\（S_d（t，\omega，{\mathbf{r}}）\）是直接对话和早期反思的总和，\（S_r（t，\omega，{\mathbf{r}}）\）是空间上具有各向同性和均匀特性的后期混响信号，以及\（N（t，\omega，{\mathbf{r}}）\）就是噪音。假设\（X（t，\omega，{\mathbf{r}}）\）是虚拟麦克风信号，定义为

$$\begin{aligned}\begin{aligned}X（t，\omega，{\mathbf{r}}）=X_d$$

(2)

哪里\（X_d（t，\omega，{\mathbf{r}}）\）是重建的直接声音，\（X_r（t，\omega，{\mathbf{r}}）\）是混响声场分量\（X_n（t，\omega，{\mathbf{r}}）\）是估计的噪声。

2.1发出VM信号

本节介绍了使用球面傅里叶变换在球面谐波域中创建虚拟麦克风信号的方法。通过计算球面谐波系数，可以估计球面上特定点的接收语音信号。\（Y_n^m（θ，φ））是有序的球面谐波n个(\（以n表示）)和学位米(\（m\在Z\中）和\（-n\le m\le n\）)其定义为[27]

$$\begin{aligned}\begin{aligned}Y_n^m（\theta，\phi）=\sqrt{\frac{（2n+1）}{4\pi}\frac}（n-m）！}{（n+m）$$

(3)

其中（.）！是阶乘函数，并且\（P_n^m（\cos{\theta}）\）是归一化关联的勒让德多项式。

同时\（p（k，{\mathbf{r}}）\）是开放球体表面上的平方积分函数，仅适用于克朗范围小于N个，可以使用球谐函数的加权和作为[27]

$$\begin{aligned}\begin{aligned}p（k，{mathbf{r}}）=\sum_{n=0}^{n}\sum_{m=-n}^{n}p_{nm}（k，r）Y_n^m（\theta，\phi）{，}\end{alinged}$$

(4)

哪里N个是截断顺序，\（p（k，{\mathbf{r}}）\）是自由三维空间中声压的时滞振幅，\（p{nm}（k，r）\）是称为球面傅里叶变换系数的权重，\（k=2\pi fc）是波数，并且c（c）是声波在空气中的速度。球面傅里叶系数定义为[27]

$$\开始{aligned}\开始{对齐}p_{nm}（k，r）=\int_{0}^{2\pi}\int_{0}^{\pi}p（k，{mathbf{r}}）\left[Y_n^m（θ，φ）\right]^*\sin（θ）{\rmd}\theta{\rmd\phi{，}\end{aligned}\end aligned{$$

(5)

哪里$(.)^*$表示复数共轭。值得注意的是，为了满足远场条件，声源和麦克风阵列中心之间的距离必须大于\（8{r}^2f/c\）[28].

由于在球面阵列上使用均匀分布的物理传声器（例如，将传声器定位在柏拉图立体的顶点）\（不适用）,\（p{nm}（k，r）\）可以通过以下方式获得[27]

$$p_{nm}}（k，r）\cong\frac{{4\pi}}{Q}\sum\limits_{Q=1}}^{Q}p（k，{mathbf{r}}_{Q}）\left[{Y_{n}^{m}（θ$$

(6)

哪里\（{\mathbf{r}}q=（r，θq，φq））是的位置q个第th个物理麦克风和问是物理麦克风的数量。为了避免空间混叠，将Q设置为大于或等于\（（N+1）^2 \）[27].

通过组合(4)和(6)球面上沿方向的声压振幅\（（θ，φ））是

$$\begin{aligned}\begin{aligned}p（k，r，\theta，\phi）\cong&\frac{4\pi}{Q}\sum_{Q=1}^{Q}\sum_{n=0}^{n}\sum _{m=-n}^{n}[p（k、r，\ttheta_Q，\phi_Q）\times\\&[Y_n^m（\theta_Q、\phi_Q）]^*Y_n^ m（\ttheta，\φ）]。\end{aligned}\end{alinged}$$

(7)

位于\（{\mathbf{r}}_q\）转换\（p（k，{\mathbf{r}}q）\）到\（S（t，\omega，{\mathbf{r}}_q）\）和位于\（{\mathbf{r}}\）转换\（p（k，{\mathbf{r}}）\）到\（X（t，\omega，{\mathbf{r}}）\）最后，基于(7)，VM信号可以合成为

$$\begin{aligned}\begin{aligned}X（t，\omega，{\mathbf{r}}）\cong&\frac{4\pi}{Q}\sum_{Q=1}^{Q}\sum_{n=0}^{n}\sum{m=-n}^{n}[S（t，\ omega，}\mathbf{r}_Q）\times\\&[Y_n^m（\theta_Q，\phi_Q）]^*Y_n^ m（\θ，\φ）]。\end{aligned}\end{alinged}$$

(8)

虚拟话筒的数量决定了等式的次数8已计算。因此，随着虚拟麦克风数量的增加，计算复杂度也将线性增加。

2.2去杠杆化

基于[23]，通过对多通道记录信号进行滤波q个物理麦克风可以估计为

$$\begin{aligned}\begin{aligned}{\hat{S}}_r（t，\omega，{\mathbf{r}}_q）=\sum_{q'=1}^{q}\sum_{l=0}^{L_c-1}c_1^{（q，q'）H}（\omega）\times\\S（t-D-l，\omega，{\mathbf{r}}_{q'}），\end{aligned}\end{aligned}$$

(9)

哪里\（c_l^{（q，q'）}（\omega）\）是线性预测（去漫反射）滤波器的系数，上标\（.）^H\）是埃尔米特转置，天是将早期反射与后期混响部分分开的延迟，\（L_c\）是去混响滤波器长度。

基于(1)和使用(9)，中的直接声音信号q个物理麦克风可以估计为

$$\开始{aligned}\hat{宋体}_{d} （t，\omega，{mathbf{r}}{q}）&=S（t，\ omega，}\mathbf}{r}{q{）\\&\quad-\sum\limits_{q^{prime}=1}}^{q}{sum\limits_{l=0}}{l_{c}-1}}{c_{l}{{{{（q，q^{prime}）H}}}}（\omega）S（t-d-l，ω，{\mathbf{r}}_{q^{prime}}}）\结束{对齐}$$

(10)

为了估计直接声音信号，滤波器系数\（c_l^{（q，q'）}（\omega）\）使用WPE方法进行预测。传统的WPE方法假设第一个物理麦克风中所需的语音系数为圆对称复高斯分布\（S_d（t，\omega，{\mathbf{r}}_1）\），具有零均值和未知时变方差\（\sigma _d^2（t，\omega）=左[|S_d（t，\ omega，{\mathbf{r}}_1）|^2\right]\）[23,29].

使用中描述的递归算法算法（1）,\（c_l^{（q，q'）}（\omega）\）可以估计[23]其中J型是迭代次数，并且\（\varepsilon\）是一个小值。

一次\（{\mathbf{C}}_{[j]}（\omega）\）指定，则反漫射滤波器的系数\（c_l^{（q，q'）}（\omega）\），可以定义为

$$\开始{aligned}{\mathbf{C}}_{{[J]}}（\omega）&={\mathbf{C{}（\ omega）=\left[{\begin{array}{*{20} c}{{\mathbf{c}}^{{（1,1）}}（\omega \\end{数组}}\right]\\{\mathbf{c}}^{{（Q，Q^{prime}}}（\omega），\cdots，c{{L_{c}-1}}^{{（q，q^{prime}）}}（\omeka）}\right].\\\结束｛对齐｝$$

(11)

通过替换\({c}_{l} ^{（q，q'）}（\omega）\）英寸(10)，估计的直接声音信号\（{\hat{S}}_d（t，\omega，{\mathbf{r}}_q）\）适用于所有物理话筒(\（q=1,2，\cdots，q\）)可以获得。通过替换估计的直接声音\（{\hat{S}}_d（t，\omega，{\mathbf{r}}_q）\）英寸(8)，VM信号的估计直达声可以通过以下方式获得

$$\begin{aligned}\begin{aligned}{{\hat{X}}_d（t，\omega，{\mathbf{r}}）\cong&\frac{4\pi}{Q}\sum_{Q=1}^{Q}\sum_{n=0}^{n}\sum_{m=-n}^{n}[{hat{S}_d[Y_n^m（θ_Q，φ_Q）]^*Y_n^m（θ，φ）]。\end{aligned}\end{alinged}$$

(12)

2.3波束赋形

如图所示(1)，使用合成VM信号输入的波束形成器。复值权重\（W_{v}（\omega）\）应用于v（v）然后将加权信号相加。波束形成器输出为[1]

$$\begin{aligned}Y（t，\omega）={\mathbf{w}}^H（\omega。\结束{对齐}$$

(13)

哪里\（{\hat{X}}_d（t，\omega，{\mathbf{r}}_v）\）是对v（v）中的第个虚拟话筒\（{\mathbf{r}}v=（r，θv，φv）），以及V（V）是虚拟麦克风的数量。通过组合(12)和(13)波束形成器输出如下所示

$$开始{对齐}开始{校准}Y（t，\omega）\cong&\frac{4\pi}{Q}\sum_{v=1}^{v}\sum_{Q=1}^}Q}\sum _{n=0}^{n}\sum_{m=-n}^{n}W_{v}^*（\omega \left[Y_n^m（\theta_Q，\phi_Q）\right]}^*Y_n^ m（\ttheta_v，\phi _v）。\结束｛对齐｝\结束｛对齐｝$$

(14)

假设所有物理和虚拟麦克风都是全向的，并且在不丢失通用性的情况下，源位于(\（θ=90^{\circ}，φ=0^{\circ}）)远场方向。因此，VM的相位矢量如下所示

$$\begin{aligned}\begin{aligned}{\mathbf{d}}（\omega）=[e^{-j\omega\tau_1}，\cdots，e^{-j\omega\tau_v}，\ cdot，e^{-j\ omega\tao_v}]{，}\end{alinged}$$

(15)

哪里\（套v）和\（e^{-j\omega\tau_v}）是接收源信号的时间延迟和v（v）第个VM信号。

假设一个球扩散白噪声的值为零，则伪相干V（V） \（\次\） V（V）矩阵，\（\mathbf{\Gamma}（\omega）\），可以指定。这个\（（v，v'）\）的第个元素\（\mathbf{\Gamma}（\omega）\）表示为[1]

$$\开始{aligned}{\left[\mathbf{\Gamma}（\omega）\right]}_{v'}={\mathrm{sinc}}\left（\frac{\omega}{c}\Vert{\mathbf{r}}_v-{mathbf}}_{v'}\Vert\right）{.}\end{aligned}$$

(16)

要求的超定向波束形成器的权重如下所示[1]

$$开始{对齐}{\mathbf{w}}（\omega）=\frac{[\mathbf{\Gamma}（\ omega）+\epsilon{\mathbf{I}}_V]^{-1}{\mathbf{d}}\mathbf{d}}（\omega）}{，}\end{aligned}$$

(17)

哪里\（ε\ge 0\）是正则化参数\（{\mathbf{I}}_V\）是\（V\乘以V\）单位矩阵。

三建议的阵列几何形状

麦克风阵列的几何形状对声音捕捉性能有重要影响。波束图、方向性因子（DF）、白噪声增益（WNG）、频率范围、鲁棒性和旁瓣抑制是与几何相关的主要参数[30]. 在本研究中，空间声捕获的两个主要评估参数是DF和WNG。使用(15), (16)和(17)，DF表示为[1]

$$\begin｛aligned｝｛\mathcal｛D｝｝（\omega）=\frac｛\left |｛\mathbf｛w｝｝^｛H｝（\omega）｛\mathbf｛D｝｝（\omega）\right | ^2｝｛\mathbf｛w｝^｛H｝（\omega）｛\mathbf｛\Gamma｝（\omega）｝｛，｝\end｛aligned｝$$

(18)

WNG如下所示[1]

$$\begin｛aligned｝｛\mathcal｛W｝｝｝（\omega）=\frac｛\left |｛\mathbf｛W｝｝^｛H｝（\omega）｛\mathbf｛d｝｝（\omega）\right | ^2｝｛\mathbf｛W｝^｛H｝（\omega）｛\mathbf｛W｝｝（\omega）｝｛.｝\end｛aligned｝$$

(19)

我们提出的几何结构是相互距离相等的平行环的组合（见图。三). 环平面被视为垂直于球体中心和震源位置之间的线。因此，环上的点到震源位置的距离将相等。因此，在环上的点处接收到的直接信号彼此同相，因此可以很容易地将它们相加在一起。因此，在建议的几何结构中，将获得最佳WNG。为了不增加波束形成器的计算负载，环的数量被设置为等于实际麦克风的数量。The radius of the我th环可以计算为

$$\开始{对齐}r_l=2r\sqrt{\frac{l+1}{l+1}-\frac}（l+1）^2}{（l+1）^2}}{，}\end{对齐{$$

(20)

哪里我是指环数\（l=1,2，…，l）。假设在我第个环\（Q_l\）虚拟麦克风均匀分布。基于[31]，为了避免空间混淆\（Q_l\）和我表示为

$$Q_｛l｝\ge\frac｛\pi｝｛｛\text｛arcsin｝｝\left（｛\frac｛\pi c｝｝｛2ωr_｛l｝｝｝｝｝\right）｝｝｝｝，\$$

(21)

哪里\（f{max}\）是语音的最大频率第页是圆（环）的半径。最后，我们有我在我们提出的阵列几何中有不同的环，导致总共\（V=\总和{l=1}^{五十} 问题_ L\)虚拟话筒。

4实施设置

本节描述了建议的语音改善系统的实验设置，如前几节所述。实现系统的总体框图如图所示。4.

首先，我们选择均匀的球形麦克风阵列几何形状来捕获三维音频。我们雇佣\（Q=32）放置在截断二十面体顶点上的物理话筒（类似于Eigenmike的话筒布置[32])具有半径的开放球面上\（r=10\）厘米。

由于模拟麦克风信号，干净的语音通过所需房间的RIR模型过滤，然后由32个麦克风录制。哈贝茨提供的RIR发生器[33]用于模拟房间的RIR\（6乘5乘4） \（{（\text{m}^3）}\）尺寸[22]具有各种SNR和RT60值。信噪比在0–30 dB范围内，RT60在0.2–1秒范围内。

为了减少音频混响，根据Sect。2.2，采用WPE去漫反射算法。\（D=3\）,\（L_c=15\）,\（\varepsilon=10^{-3}\），以及\（J=5\）是四个最佳变量算法1[23]. 所以\（{\hat{S}}_d（t，\omega，{\mathbf{r}}_q）\）通过使用WPE算法获得最佳性能。

在下一步中，使用(三)和\（N=4\），25个球谐函数，\（Y_n^m（θ，φ）），指定为\（Y_0^0（θ，φ））,\（Y_1^｛-1｝（θ，φ）\）,\（Y_1^0（θ，φ））,\（Y_1^1（θ，φ））,\（\cdots\）,\（Y_4^4（θ，φ））然后是每个的复合值\（Y_n^m（θ_q，φ_q））对于q个第个麦克风已指定。通过雇佣(6)一套\（p{nm}（.）\）计算了由25个信号组成的球谐域。

根据震源方向，使用第。三，的位置V（V）开放球体表面的虚拟话筒，\（（r，θv，φv）），已确定。通过选择\（长=32\），虚拟机数量为\（V=392）所以，\（{\hat{X}}_d（t，\omega，{\mathbf{r}}_v）\）通过使用合成(12)和\（（r，θv，φv））（用于\（v=1，2，…，v）).

最后，使用所提出的阵列几何和所提出的正则化超定向算法，在(17)带有\（ε=0.1）应用于VM信号。

将波束形成器输出中的改进语音信号与原始干净语音进行比较，以评估结果。在本研究中，使用了四个著名的指标：（1）语音质量感知评估（PESQ）[34]，（2）频率加权分段信噪比（FWSegSNR）[35]，（3）倒谱距离（CD）[36]和4）语音与混响调制能量比（SRMR）[37]. 应该强调的是，在较小的RT60中，SRMR度量变得不那么精确[37].

5仿真结果

在本节中，将评估拟议系统的性能。为此，图。4和第节中详细说明的设置。4使用。TIMIT数据库中的20条干净的语音[38]不同的信噪比等于5、10和20分贝，不同的RT60在0.2–1秒的范围内使用（总共540个句子）。此外，所有子块都在MATLAB软件包中进行了仿真。

5.1阵列测量

评估第。三比较了在相同条件下，采用相同波束形成方法，提出的麦克风阵列（PMA）、均匀圆形麦克风阵列（UCMA）和均匀球形麦克风阵列（USMA）的几何结构在DF和WNG方面的差异（见图。5). USMA由半径为10 cm的球体表面截短二十面体顶点上的32个传声器组成。此外，UCMA还包括与USMA半径相同的环上的32只传声器。详见第节。三，PMA几何结构包括\（长=32\）环和基于(21)有\（V=392）这些戒指上的虚拟话筒。在此比较中，声源位于远场UCMA平面上。

图5a表示UCMA、USMA和PMA几何体的DF值。如图所示，PMA几何形状在所有频带上都是优越的，尤其是在更高的频率下（例如，在4 kHz左右超过5 dB）。图5b显示了上述三种几何图形的WNG值。如图所示，即使在低频下，PMA的WNG也比其他两种几何图形大。在低于700 Hz的频率下，PMA的WNG平均比UCMA和USMA几何结构高3 dB。因此，PMA几何形状的性能优越。

为了评估所研究的三种几何体相对于声源位置变化的性能，声源旋转45度。如图所示。6a、 PMA的DF曲线不会随着源位置的改变而改变。在相同条件下，UCMA的DF平均降低3 dB。此外，USMA的测向在频率低于1.2 kHz时不会发生变化，但在频率高于1.2 kHz的情况下会发生轻微变化。如图所示。6b、通过改变源位置，PMA的WNG曲线是固定的，并且总是优于其他两种几何形状。

接下来，我们将研究PMA几何体与其他两种设置的USMA和UCMA几何体相比的性能，包括\（Q=20\）和\（Q=12\）当声源位于远场UCMA平面上时，话筒。在这次考试中\（长=20\）戒指，\（V=250\）虚拟话筒和\（L=12）戒指，\（V=152）虚拟话筒用于PMA几何结构。如图所示。7a、通过减少话筒数量，PMA的DF略有变化，而在2.5 kHz以下，UCMA的DF稍有降低，2.5 kHz以上的DF随着频率的增加而降低。此外，USMA的DF在不同频率下的降低也不同。图7b表明，通过从\（长=20\）到\（L=12）PMA的WNG平均降低1 dB。UCMA的WNG降低到2.7 kHz以下，USMA的WNG-从0.8 kHz降低到1.4 kHz以外。可以看出，PMA的DF和WNG是优越的。

5.2语音质量测量

通过考虑图。4以及第节中给出的解释。4PMA的性能根据四个指标PESQ、CD、FWSegSNR和SRMR在100–4000 Hz的频率范围内进行评估\（Q=32）麦克风用于物理麦克风排列。也，\（长=32\）PMA几何中考虑了环\（V=392）球体表面上的虚拟传声器分布（见第。三).

此外，还将PMA几何与UCMA和USMA几何在语音改善方面的性能进行了比较。我们将该系统与WPE去漫反射（WPE）、规则化超定向波束形成器（BF）及其组合（WPE+BF）以及UCMA和USMA几何结构进行了比较。

漫反射噪声水平和混响时间均得到控制，分别限制在5–20 dB和200–1000 ms。我们的主要目标是在高混响环境中进行音频捕获，因此在测试场景中，我们将漫射噪声水平分为三部分：极高噪声水平（SNR=5 dB）、高噪声水平（SNR=10 dB）和中等噪声水平（SNR=20 dB）。

如图所示。8在三个信噪比水平下，与其他方法和几何结构相比，使用PESQ度量和RT60来评估所提出的系统。如图所示，对于UCMA和USMA几何体，WPE方法对PESQ的改善能力很小，而波束形成器的效果非常明显。然而，去混响和波束形成的组合几乎比它们中的每一个都好，并且其结果接近波束形成的结果。

事实证明，与UCMA几何相比，USMA几何的使用进一步提高了语音质量，但其有效性有限。在图中的所有三个噪声量中，所建议系统的出色性能是显而易见的。8由于提出的阵列几何形状和相对于物理话筒数量的大量虚拟话筒。

在表中1，的平均值\（\增量\）对于每种方法，计算RT60在200和1000 ms之间的PESQ。可以看出，通过增加扩散噪声功率，所提出的系统在语音改善方面的性能优于其他方法，并且在提高PESQ度量方面的优势非常明显。

由于PESQ标准在某种程度上反映了人类听者的意见，除此之外，通过聆听所建议系统的输出，语音改善也非常明显。

图9说明了RT60值在200和1000 ms之间的欠评估方法的倒谱距离（CD）度量。WPE性能取决于混响时间，在各种噪声水平下的最佳性能约为600 ms。同时，波束形成器在不同噪声量下的性能几乎相同。

实验表明，去漫反射和波束形成与球面几何的结合有效地减小了倒谱距离。然而，在所有情况下，所建议的系统在改进CD度量方面比其他系统表现得更强大。如图所示9和表2由于使用了多个虚拟麦克风，与其他方法相比，该系统在所有SNR和RT60值下更有效地抑制录制语音中的噪声和混响。

图10显示了建议系统与其他方法在FWSegSNR度量方面的比较。通过仔细检查图中三个图表中WPE的性能。10很明显，在不同的噪声水平下，WPE的性能几乎与记录信号的信噪比无关。此外，WPE在中等混响水平（RT60约500 ms）下提高了更多FWSegSNR。

如表所示三，随着录制语音信号的SNR值的降低\（\增量\）FWSegSNR由于波束形成器性能提高。所提出的系统改进了\（\增量\）FWSegSNR通过使用392个VM比其他方法至少多出一分贝。

图11包含三个图表，显示了在三个信噪比水平下，SRMR相对于200到1000 ms的各种RT60值的变化。通过比较不同的方法，可以发现WPE显著提高了SRMR。相比之下，波束形成器在几个SNR值中略微提高了SRMRI。

的平均值\（\增量\）表中显示了三种信噪比水平下RT60范围内200至1000 ms之间的SRMR4与波束形成器相比，WPE在所有方法和信噪比水平上都能更成功地提高SRMR度量。由于利用WPE来合成VM信号，并且在PMA几何结构中使用了许多VM，因此该系统的性能优于其他方法。

最后，球形传声器阵列的传声器放置误差以及使用随机几何代替拟议几何的破坏性影响\（\增量\）PESQ如表所示5可以看出，5%的麦克风放置错误对\（\增量\）PESQ，使用随机几何减少\（\增量\）PESQ平均约为21%（对于三个SNR）。

表1平均值\（\增量\）RT60间隔在200和1000毫秒之间的PESQ

全尺寸桌子

表2平均值\（\增量\）RT60 200和1000毫秒范围内的CD

全尺寸桌子

表3平均值\（\增量\）RT60间隔在200和1000毫秒之间的FWSegSNR

全尺寸桌子

表4平均值\（\增量\）200至1000毫秒之间RT60间隔的SRMR

全尺寸桌子

表5将所提出的几何形状与随机几何形状的结果以及5%的麦克风放置误差进行比较\（\增量\）PESQ介于RT60间隔的200和1000毫秒之间

全尺寸桌子

6结论

提出了一种在SH域合成虚拟麦克风信号的新方法。此外，已经提出了一种用于布置大量虚拟麦克风的新的麦克风阵列几何形状。因为虚拟麦克风的位置取决于源位置；因此，所提出的麦克风阵列相对于源位置始终处于一个恒定的方向。因此，使用该技术，无需自适应波束形成器即可将阵列波束指向调整到声源。对540个受损语音的测试结果表明，由于该系统能够增加虚拟麦克风的数量并使用所建议的几何结构，因此该系统显著改善了噪声混响语音。

数据和材料的可用性

从TIMIT标准数据集中选择原始数据（干净语音）。噪声混响语音由RIR生成器生成[33].

缩写

CD：：: 倒向距离
数据框：: 方向性系数
FWSegSNR:：: 频率加权分段信噪比
PESQ:：: 语音质量的感知评价
项目管理局：: 拟议麦克风阵列
风险识别码：: 房间脉冲响应
第60部分：: 混响时间
SHD:：: 球面谐波域
信噪比：: 信噪比
SRMR:：: 语音-混响调制能量比
SRR:：: 信号混响比
加州大学医学院：: 均匀圆形麦克风阵列
美国海事局：: 均匀球形麦克风阵列
虚拟机：：: 虚拟麦克风
WNG:：: 白噪声增益
焊接工艺工程师：: 加权预测误差

工具书类

J.Benesty、I.Cohen、J.Chen、，信号增强和阵列信号处理基础（约翰·威利，新泽西州，2017年）
书谷歌学者
R.Haeb-Umbach、J.Heymann、L.Drude、S.Watanabe、M.Delcroix、T.Nakatani，《远场自动语音识别》。程序。电气与电子工程师协会109(2), 124–148 (2020)
第条谷歌学者
M.Parchami，W.-P.Zhu，B.Champagne，使用相关帧间语音分量的加权预测误差进行语音去漫反射。语音通信。87(1), 49–57 (2017)
第条谷歌学者
J.Benesty、J.Chen、Y.Huang、，麦克风阵列信号处理（斯普林格，新泽西州，2008年）
谷歌学者
H.Katahira，N.Ono，S.Miyabe，T.Yamada，S.Makino，通过信道虚拟增加和最大信噪比波束形成器实现非线性语音增强。EURASIP J.高级信号处理。2016(1), 1–8 (2016)
第条谷歌学者
L.Wang，H.Ding，F.Yin，将超定向波束形成和频域盲源分离相结合，用于高混响信号。EURASIP J.音频语音音乐流程。1, 1–13 (2010)
第条谷歌学者
M.Arcienega，A.Drygajlo，J.Malsano，《带虚拟传感器的麦克风阵列噪声中的稳健相移估计》。在里面2000年第十届欧洲信号处理会议，IEEE编辑（2000年），第1-4页
G.Doblinger，内插阵列和稀疏阵列宽带波束形成器的优化设计。在里面2008年第16届欧洲信号处理会议，IEEE编辑（2008），第1-5页
C.H.M.Olmedilla、D.Gomez、，图像理论在虚拟话筒中的应用(2008)
H.Katahira、N.Ono、S.Miyabe、T.Yamada、S.Makino，通过在复数域中插值，实际上增加了麦克风阵列元素。在里面第21届欧洲信号处理会议（EUSIPCO 2013），IEEE，2013年），第1-5页
G.Del Galdo，O.Thiergart，T.Weller，E.A.Habets，使用分布式阵列收集的几何信息生成虚拟麦克风信号。在里面2011年免提语音通信和麦克风阵列联合研讨会，（IEEE，2011），第185-190页
M.Pezzoli，F.Borra，F.Antonacci，S.Tubaro，A.Sarti，任意方向性源虚拟拾音的参数方法。IEEE/ACM传输。音频语音语言处理。28, 2333–2348 (2020)
第条谷歌学者
R.Schultz-Amling，F.Kuech，O.Thiergart，M.Kallinger，基于参数声场表示的声学变焦。在里面音频工程协会公约128（音频工程学会，2010）
O.Thiergart，G.Del Galdo，M.Taseska，E.A.Habets，使用分布式麦克风阵列的基于几何的空间声音采集。IEEE传输。音频语音语言处理。21(12), 2583–2594 (2013)
第条谷歌学者
K.Kowalczyk、O.Thiergart、M.Taseska、G.Del Galdo、V.Pulkki、E.A.Habets，《参数化空间声音处理：灵活高效的声音场景采集、修改和再现解决方案》。IEEE信号处理。美格。32(2), 31–42 (2015)
第条谷歌学者
P.Samarasinghe，T.Abhayapala，M.Poletti，使用分布式高阶麦克风进行大面积波场分析。IEEE/ACM传输。音频语音语言处理。22(3), 647–658 (2014)
第条谷歌学者
J.G.Tylka、E.Choueiri，使用一系列高阶双音话筒进行声场导航。在里面音频工程学会会议：2016年AES虚拟和增强现实音频国际会议（音频工程学会，2016）
N.Ueno、S.Koyama、H.Saruwatari，基于无限阶谐波分析的分布式麦克风声场记录。IEEE信号处理。莱特。25(1), 135–139 (2017)
第条谷歌学者
Y.Takida，S.Koyama，H.Saruwataril，使用凸优化进行外部和内部声场分离：信号模型的比较。在里面2018年第26届欧洲信号处理会议（EUSIPCO）（IEEE，2018），第2549–2553页
F.Borra，I.D.Gebru，D.Markovic，使用高阶麦克风和脉冲响应测量在混响环境中重建声场。在里面ICASSP 2019-2019 IEEE声学、语音和信号处理国际会议（ICASSP）（IEEE，2019），第281-285页
F.Borra，S.Krenn，I.D.Gebru，D.Marković，大面积声场记录和重建用一阶麦克风阵列系统：讨论和初步结果。2019年IEEE音频和声学信号处理应用研讨会（WASPAA），第378-382页（2019年）。电气与电子工程师协会
F.Zotter、M.Frank、，环境：用于录音、录音棚制作、扩声和虚拟现实的实用3D音频理论，第19卷（施普林格，柏林，2019）
谷歌学者
M.Parchami，H.Amindavar，W.-P.Zhu，使用时变自回归模型的加权预测误差方法抑制时变环境中的语音混响。语音通信。109, 1–14 (2019)
第条谷歌学者
K.Kinoshita、M.Delcroix、S.Gannot、E.A.Habets、R.Haeb-Umbach、W.Kellermann、V.Leutnant、R.Maas、T.Nakatani、B.Raj等人，《混响挑战概述：混响语音处理研究中的最新技术和剩余挑战》。EURASIP J.高级信号处理。2016(1), 1–19 (2016)
第条谷歌学者
I.科德拉西，基于声学多通道均衡的去混频降噪技术（Verlag Dr.Hut，慕尼黑，2016）
谷歌学者
J.Wung，A.Jukić，S.Malik，M.Souden，R.Pichevar，J.Atkins，D.Naik，A.Acero，使用加权householder最小二乘格点自适应滤波器在线语音去噪的鲁棒多通道线性预测。IEEE传输。信号处理。68, 3559–3574 (2020)
第条数学科学网数学谷歌学者
B.很好，球面阵列处理基础第8卷（施普林格，柏林，2015）
谷歌学者
J.Meyer，安装在球形物体上的圆形麦克风阵列的波束形成。J.声学。美国南部。109(1), 185–193 (2001)
第条谷歌学者
T.Nakatani，T.Yoshioka，K.Kinoshita，M.Miyoshi，B.-H.Juang，基于方差规范化延迟线性预测的语音去噪。IEEE传输。音频语音语言处理。18(7), 1717–1731 (2010)
第条谷歌学者
M.Blanco Galindo，P.Coleman，P.J.Jackson，用于通过波束形成捕获水平空间音频对象的麦克风阵列几何形状。J.音频工程社会。68(5), 324–337 (2020)
第条谷歌学者
G.Huang，J.Benesty，J.Chen，《均匀圆形麦克风阵列的频率-非变化波束图设计》。IEEE/ACM传输。音频语音语言处理。25(5), 1140–1153 (2017)
第条谷歌学者
M.声学，Em32特征话筒阵列发布说明（第17版）。0). 美国新泽西州Summit市Summit大道25号，邮编：07901（2013）
E.A.Habets，房间脉冲响应发生器。埃因霍温工业大学，技术代表2（2.4），1（2006）
R.Zhang，J.Liu，使用DMel尺度的改进多波段谱减法。已处理。计算。科学。131, 779–785 (2018)
第条谷歌学者
胡彦宏，P.C.Loizou，语音增强客观质量度量的评估。IEEE传输。音频语音语言处理。16(1), 229–238 (2007)
第条谷歌学者
C.G.Flores、G.Tryfou、M.Omologo，基于倒谱距离的远程语音识别信道选择。计算。语音语言。47, 314–332 (2018)
第条谷歌学者
J.F.Santos，T.H.Falk，使用上下文软件递归神经网络的语音去漫反射。IEEE/ACM传输。音频语音语言处理。26(7), 1236–1246 (2018)
第条谷歌学者
V.Zue，S.Seneff，J.Glass，麻省理工学院语音数据库开发：TIMIT及其后。演讲公社。9(4), 351–356 (1990)
第条谷歌学者

下载参考资料

致谢

不适用。

基金

不适用

作者信息

作者和附属机构

伊朗德黑兰阿米尔卡比尔科技大学电气工程系
穆罕默德·易卜拉欣·萨德吉、哈米德·谢赫扎德和穆罕默德·贾瓦德·埃马迪
伊朗德黑兰IRIB大学广播工程系
穆罕默德·易卜拉欣·萨德吉

作者

穆罕默德·易卜拉欣·萨德吉
查看作者出版物
您还可以在中搜索此作者公共医学谷歌学者
哈米德·谢赫扎德
查看作者出版物
您还可以在中搜索此作者公共医学谷歌学者
穆罕默德·贾瓦德·埃马迪
查看作者出版物
您还可以在中搜索此作者公共医学谷歌学者

贡献

附上作者的贡献声明。所有作者阅读并批准了最终手稿。

通讯作者

与的通信哈米德·谢赫扎德.

道德声明

道德批准和参与同意

不适用

同意参与

我们，穆罕默德·易卜拉欣·萨德吉（Mohammad Ebrahim Sadeghi）、哈米德·谢赫扎德（Hamid Sheikhzadeh）和穆罕默德·贾瓦德·埃马迪（Mohampad Javad Emadi），同意将我们的信息发表在《欧洲信号处理进展杂志》（EURASIP Journal on Advances in Signal Processing）上。我们知道，信息将在没有我们的情况下发布，但不能保证完全匿名。我们理解，文章中发布的文本和任何图片或视频将在互联网上免费提供，并可能被公众看到。图片、视频和文本也可能出现在其他网站上或以印刷形式出现，可能被翻译成其他语言或用于商业目的。我们得到了阅读手稿的机会。签署本同意书并不会剥夺我们的隐私权。

竞争性利益

作者声明，他们没有相互竞争的利益。

其他信息

出版说明

施普林格自然公司在公布的地图和机构隶属关系中的管辖权主张保持中立。

权利和权限

开放式访问本文是根据Creative Commons Attribution 4.0国际许可证授权的，该许可证允许以任何媒体或格式使用、共享、改编、分发和复制，只要您对原始作者和来源给予适当的信任，提供指向Creative Commons许可证的链接，并指出是否进行了更改。本文中的图像或其他第三方材料包含在文章的Creative Commons许可证中，除非材料的信用额度中另有说明。如果文章的知识共享许可证中没有包含材料，并且您的预期用途不被法律法规允许或超出了允许的用途，则您需要直接获得版权所有者的许可。要查看此许可证的副本，请访问http://creativecommons.org/licenses/by/4.0/.

转载和许可

关于本文

引用这篇文章

Sadeghi，M.E.，Sheikhzadeh，H.&Emadi，M.J.使用虚拟麦克风和提议的阵列几何形状，改善噪声混响环境中的语音。EURASIP J.高级信号处理。 2022, 120 (2022). https://doi.org/10.1186/s13634-022-00951-7

下载引文

收到:2022年6月22日
认可的:2022年11月20日
出版:2022年12月14日
内政部:https://doi.org/10.1186/s13634-022-00951-7

使用虚拟麦克风和提议的阵列几何结构改善噪声混响环境中的语音

摘要

1介绍

2问题表述

2.1发出VM信号

2.2去杠杆化

2.3波束赋形

三建议的阵列几何形状

4实施设置

5仿真结果

5.1阵列测量

5.2语音质量测量

6结论

数据和材料的可用性

缩写

工具书类

致谢

基金

作者信息

作者和附属机构

贡献

通讯作者

道德声明

道德批准和参与同意

同意参与

竞争性利益

其他信息

出版说明

权利和权限

关于本文

引用这篇文章

分享这篇文章

关键词