本文中,如图所示。2,球坐标中点的位置指定为\({\mathbf{r}}=(r,θ,φ)),其中第页是距原点的径向距离(半径),\(\θ\)和\(\phi\)分别是倾角(极角)和方位角。此外,还有一个声源\({\mathbf{r}}_s\)被认为是在远场区域。麦克风阵列和声源所在的房间具有中等的扩散噪声和高混响。
\(S(t,\omega,{\mathbf{r}})\)是物理麦克风记录的单个语音源的信号,可以写为[12]
$$\begin{aligned}\begin{aligned}S(t,\omega,{\mathbf{r}})=S_d(t,\ omega,}\mathbf{r}{)+S_r(t,\tomega,\mathbf-{r})+N$$
(1)
哪里t吨是时间,\(ω=2πf)是径向频率,\(f>0\)是时间频率,\(S_d(t,\omega,{\mathbf{r}})\)是直接对话和早期反思的总和,\(S_r(t,\omega,{\mathbf{r}})\)是空间上具有各向同性和均匀特性的后期混响信号,以及\(N(t,\omega,{\mathbf{r}})\)就是噪音。假设\(X(t,\omega,{\mathbf{r}})\)是虚拟麦克风信号,定义为
$$\begin{aligned}\begin{aligned}X(t,\omega,{\mathbf{r}})=X_d$$
(2)
哪里\(X_d(t,\omega,{\mathbf{r}})\)是重建的直接声音,\(X_r(t,\omega,{\mathbf{r}})\)是混响声场分量\(X_n(t,\omega,{\mathbf{r}})\)是估计的噪声。
2.1发出VM信号
本节介绍了使用球面傅里叶变换在球面谐波域中创建虚拟麦克风信号的方法。通过计算球面谐波系数,可以估计球面上特定点的接收语音信号。\(Y_n^m(θ,φ))是有序的球面谐波n个(\(以n表示))和学位米(\(m\在Z\中)和\(-n\le m\le n\))其定义为[27]
$$\begin{aligned}\begin{aligned}Y_n^m(\theta,\phi)=\sqrt{\frac{(2n+1)}{4\pi}\frac}(n-m)!}{(n+m)$$
(3)
其中(.)!是阶乘函数,并且\(P_n^m(\cos{\theta})\)是归一化关联的勒让德多项式。
同时\(p(k,{\mathbf{r}})\)是开放球体表面上的平方积分函数,仅适用于克朗范围小于N个,可以使用球谐函数的加权和作为[27]
$$\begin{aligned}\begin{aligned}p(k,{mathbf{r}})=\sum_{n=0}^{n}\sum_{m=-n}^{n}p_{nm}(k,r)Y_n^m(\theta,\phi){,}\end{alinged}$$
(4)
哪里N个是截断顺序,\(p(k,{\mathbf{r}})\)是自由三维空间中声压的时滞振幅,\(p{nm}(k,r)\)是称为球面傅里叶变换系数的权重,\(k=2\pi fc)是波数,并且c(c)是声波在空气中的速度。球面傅里叶系数定义为[27]
$$\开始{aligned}\开始{对齐}p_{nm}(k,r)=\int_{0}^{2\pi}\int_{0}^{\pi}p(k,{mathbf{r}})\left[Y_n^m(θ,φ)\right]^*\sin(θ){\rmd}\theta{\rmd\phi{,}\end{aligned}\end aligned{$$
(5)
哪里\((.)^*\)表示复数共轭。值得注意的是,为了满足远场条件,声源和麦克风阵列中心之间的距离必须大于\(8{r}^2f/c\)[28].
由于在球面阵列上使用均匀分布的物理传声器(例如,将传声器定位在柏拉图立体的顶点)\(不适用),\(p{nm}(k,r)\)可以通过以下方式获得[27]
$$p_{nm}}(k,r)\cong\frac{{4\pi}}{Q}\sum\limits_{Q=1}}^{Q}p(k,{mathbf{r}}_{Q})\left[{Y_{n}^{m}(θ$$
(6)
哪里\({\mathbf{r}}q=(r,θq,φq))是的位置q个第th个物理麦克风和问是物理麦克风的数量。为了避免空间混叠,将Q设置为大于或等于\((N+1)^2 \)[27].
通过组合(4)和(6)球面上沿方向的声压振幅\((θ,φ))是
$$\begin{aligned}\begin{aligned}p(k,r,\theta,\phi)\cong&\frac{4\pi}{Q}\sum_{Q=1}^{Q}\sum_{n=0}^{n}\sum _{m=-n}^{n}[p(k、r,\ttheta_Q,\phi_Q)\times\\&[Y_n^m(\theta_Q、\phi_Q)]^*Y_n^ m(\ttheta,\φ)]。\end{aligned}\end{alinged}$$
(7)
位于\({\mathbf{r}}_q\)转换\(p(k,{\mathbf{r}}q)\)到\(S(t,\omega,{\mathbf{r}}_q)\)和位于\({\mathbf{r}}\)转换\(p(k,{\mathbf{r}})\)到\(X(t,\omega,{\mathbf{r}})\)最后,基于(7),VM信号可以合成为
$$\begin{aligned}\begin{aligned}X(t,\omega,{\mathbf{r}})\cong&\frac{4\pi}{Q}\sum_{Q=1}^{Q}\sum_{n=0}^{n}\sum{m=-n}^{n}[S(t,\ omega,}\mathbf{r}_Q)\times\\&[Y_n^m(\theta_Q,\phi_Q)]^*Y_n^ m(\θ,\φ)]。\end{aligned}\end{alinged}$$
(8)
虚拟话筒的数量决定了等式的次数8已计算。因此,随着虚拟麦克风数量的增加,计算复杂度也将线性增加。
2.2去杠杆化
基于[23],通过对多通道记录信号进行滤波q个物理麦克风可以估计为
$$\begin{aligned}\begin{aligned}{\hat{S}}_r(t,\omega,{\mathbf{r}}_q)=\sum_{q'=1}^{q}\sum_{l=0}^{L_c-1}c_1^{(q,q')H}(\omega)\times\\S(t-D-l,\omega,{\mathbf{r}}_{q'}),\end{aligned}\end{aligned}$$
(9)
哪里\(c_l^{(q,q')}(\omega)\)是线性预测(去漫反射)滤波器的系数,上标\(.)^H\)是埃尔米特转置,天是将早期反射与后期混响部分分开的延迟,\(L_c\)是去混响滤波器长度。
基于(1)和使用(9),中的直接声音信号q个物理麦克风可以估计为
$$\开始{aligned}\hat{宋体}_{d} (t,\omega,{mathbf{r}}{q})&=S(t,\ omega,}\mathbf}{r}{q{)\\&\quad-\sum\limits_{q^{prime}=1}}^{q}{sum\limits_{l=0}}{l_{c}-1}}{c_{l}{{{{(q,q^{prime})H}}}}(\omega)S(t-d-l,ω,{\mathbf{r}}_{q^{prime}}})\结束{对齐}$$
(10)
为了估计直接声音信号,滤波器系数\(c_l^{(q,q')}(\omega)\)使用WPE方法进行预测。传统的WPE方法假设第一个物理麦克风中所需的语音系数为圆对称复高斯分布\(S_d(t,\omega,{\mathbf{r}}_1)\),具有零均值和未知时变方差\(\sigma _d^2(t,\omega)=左[|S_d(t,\ omega,{\mathbf{r}}_1)|^2\right]\)[23,29].
使用中描述的递归算法算法(1),\(c_l^{(q,q')}(\omega)\)可以估计[23]其中J型是迭代次数,并且\(\varepsilon\)是一个小值。
一次\({\mathbf{C}}_{[j]}(\omega)\)指定,则反漫射滤波器的系数\(c_l^{(q,q')}(\omega)\),可以定义为
$$\开始{aligned}{\mathbf{C}}_{{[J]}}(\omega)&={\mathbf{C{}(\ omega)=\left[{\begin{array}{*{20} c}{{\mathbf{c}}^{{(1,1)}}(\omega \\end{数组}}\right]\\{\mathbf{c}}^{{(Q,Q^{prime}}}(\omega),\cdots,c{{L_{c}-1}}^{{(q,q^{prime})}}(\omeka)}\right].\\\结束{对齐}$$
(11)
通过替换\({c}_{l} ^{(q,q')}(\omega)\)英寸(10),估计的直接声音信号\({\hat{S}}_d(t,\omega,{\mathbf{r}}_q)\)适用于所有物理话筒(\(q=1,2,\cdots,q\))可以获得。通过替换估计的直接声音\({\hat{S}}_d(t,\omega,{\mathbf{r}}_q)\)英寸(8),VM信号的估计直达声可以通过以下方式获得
$$\begin{aligned}\begin{aligned}{{\hat{X}}_d(t,\omega,{\mathbf{r}})\cong&\frac{4\pi}{Q}\sum_{Q=1}^{Q}\sum_{n=0}^{n}\sum_{m=-n}^{n}[{hat{S}_d[Y_n^m(θ_Q,φ_Q)]^*Y_n^m(θ,φ)]。\end{aligned}\end{alinged}$$
(12)
2.3波束赋形
如图所示(1),使用合成VM信号输入的波束形成器。复值权重\(W_{v}(\omega)\)应用于v(v)然后将加权信号相加。波束形成器输出为[1]
$$\begin{aligned}Y(t,\omega)={\mathbf{w}}^H(\omega。\结束{对齐}$$
(13)
哪里\({\hat{X}}_d(t,\omega,{\mathbf{r}}_v)\)是对v(v)中的第个虚拟话筒\({\mathbf{r}}v=(r,θv,φv)),以及V(V)是虚拟麦克风的数量。通过组合(12)和(13)波束形成器输出如下所示
$$开始{对齐}开始{校准}Y(t,\omega)\cong&\frac{4\pi}{Q}\sum_{v=1}^{v}\sum_{Q=1}^}Q}\sum _{n=0}^{n}\sum_{m=-n}^{n}W_{v}^*(\omega \left[Y_n^m(\theta_Q,\phi_Q)\right]}^*Y_n^ m(\ttheta_v,\phi _v)。\结束{对齐}\结束{对齐}$$
(14)
假设所有物理和虚拟麦克风都是全向的,并且在不丢失通用性的情况下,源位于(\(θ=90^{\circ},φ=0^{\circ}))远场方向。因此,VM的相位矢量如下所示
$$\begin{aligned}\begin{aligned}{\mathbf{d}}(\omega)=[e^{-j\omega\tau_1},\cdots,e^{-j\omega\tau_v},\ cdot,e^{-j\ omega\tao_v}]{,}\end{alinged}$$
(15)
哪里\(套v)和\(e^{-j\omega\tau_v})是接收源信号的时间延迟和v(v)第个VM信号。
假设一个球扩散白噪声的值为零,则伪相干V(V) \(\次\) V(V)矩阵,\(\mathbf{\Gamma}(\omega)\),可以指定。这个\((v,v')\)的第个元素\(\mathbf{\Gamma}(\omega)\)表示为[1]
$$\开始{aligned}{\left[\mathbf{\Gamma}(\omega)\right]}_{v'}={\mathrm{sinc}}\left(\frac{\omega}{c}\Vert{\mathbf{r}}_v-{mathbf}}_{v'}\Vert\right){.}\end{aligned}$$
(16)
要求的超定向波束形成器的权重如下所示[1]
$$开始{对齐}{\mathbf{w}}(\omega)=\frac{[\mathbf{\Gamma}(\ omega)+\epsilon{\mathbf{I}}_V]^{-1}{\mathbf{d}}\mathbf{d}}(\omega)}{,}\end{aligned}$$
(17)
哪里\(ε\ge 0\)是正则化参数\({\mathbf{I}}_V\)是\(V\乘以V\)单位矩阵。