语音DWT
小波变换可以看作是将信号从时域变换到小波域。这个新领域包含更复杂的基函数,称为小波、母小波或分析小波[8]. 小波的基本思想是根据尺度进行分析。然后,任何信号都可以用母小波的平移和缩放版本来表示。小波分析能够揭示其他信号分析技术无法实现的数据方面,如趋势、高阶导数的不连续性、故障点和自相似性。
简要介绍了一维信号离散小波变换的基本思想。小波分析可以将信号分成两部分,通常是高频部分和低频部分。这个过程叫做分解。信号的边缘分量主要局限于高频部分。信号通过一系列高通滤波器来分析高频,然后通过一系列低通滤波器来分析低频。不同截止频率的滤波器用于分析不同分辨率的信号[9,10].
DWT涉及基于二次幂选择尺度和位置,即所谓的二元尺度和位置。母小波用二次幂重标并用整数变换。具体来说,一个函数如果(t吨) ∈ L(左)2(R(右))(定义平方可积函数的空间)可以表示为:
(1)
功能ψ(t吨)被称为母小波,而ϕ(t吨)称为缩放函数。函数集哪里Z轴是以正交基表示的整数集L(左)2(R(右)). 数字一(L(左), k个)被称为尺度上的近似系数L(左),同时d日(j个, k个)确定为比例的细节系数j个近似系数和细节系数可以连续表示为:
(2)
(3)
为了更好地理解上述系数,让我们考虑一个投影如果
我
(t吨)函数的如果(t吨)它提供了最佳的近似值(在最小误差能量的意义上)如果(t吨)按比例我。此投影可由系数构造一(L(左), k个),使用公式:
(4)
作为比例尺我减小,近似变得更精细,收敛到如果(t吨)作为我 → 0.比例近似值之间的差异我 + 1和在我,如果我+1(t吨) − 如果
我
(t吨),完全由系数定义d日(j个, k个)使用分解方程,可以用数学形式表示如下:
(5)
这些给定的关系,一(L(左), k个)和{d日(j个, k个)|j个 ≤ L(左)},对于以任何比例构建近似都很有用。因此,小波变换将信号分解为粗略近似如果
L(左)
(t吨)(给定一(L(左), k个))和许多层的细节系数{如果j个+1 − 如果
j个
(t吨)|j个 < L(左)}(由提供{d日(j个, k个)|j个 ≤ L(左)}). 随着每一层细节的增加,可以在下一个更高的尺度上获得近似值。可以使用逆DWT(IDWT)重建原始信号,按照上述相反的顺序进行操作。综合从近似系数和细节系数开始cA公司
j个
和cD公司
j个
,然后重建cA公司j个−1通过上采样和重构滤波器滤波[11,12].
语音傅里叶变换
由于语音是在时间帧的基础上处理的,因此使用DFT评估语音频谱。信号的DFT秒(n个)定义为0≤n个 ≤ M(M) − 1由以下公式给出
(6)
一般来说,S公司(k个)是变量的复杂函数k个并且可以用极坐标表示为:
(7)
序列S公司(k个)具有与相同数量的元素秒(n个). 然而,最后M(M)/DFT的两个元素是第一个元素的共轭M(M)/2个元素,顺序相反。因此,幅度谱|S公司(k个)|可以由第一个M(M)/2个频率分量,因为它满足以下对称性:
(8)
此等式表示在以量级隐藏消息时必须保持的DFT属性之一。此功能用于快速傅里叶变换(FFT)算法,以降低DFT的计算复杂度[13]. 为了简单起见,我们将在后续章节中采用以下符号:
和
其中,逆FFT ifft计算逆DFT。
语音频谱特征
语音是一种基带信号,对于窄带和宽带语音,大多数相关的可懂度保持频率分量分别限制在4 kHz和7 kHz的带宽内[14]. 前三个语音共振峰的分布代表了英语元音的主要线索。大多数元音能量在1 kHz以下被压缩,并随频率以大约−6 db/oct的速度衰减[15]. 图1显示了液体帧和清音擦音帧的宽带语音频谱。在所有元音和大多数浊辅音中,震级谱在高频下显示出非常弱的成分。即使很少清浊的摩擦辅音,如/s/,在高频下表现出较大的幅度,如果我们不准确地建模这些频率分量,语音信号的可懂度也会受到轻微影响[14]. 另一方面,即使是宽带清音摩擦辅音,7千赫以上的频率对语音频谱内容也没有太大影响。这两个事实促使我们在覆盖信号的低振幅高频中嵌入一个单独的信号。
秘密语音参数化
许多因素需要在隐藏过程之前对秘密语音消息进行参数化。在这些因素中,我们引用了窄带覆盖语音中隐藏位置的数量限制。语音参数化称为语音分析通常用于不同的研究领域,如自动语音识别和语音编码。在语音编码中,原始信号经过语音分析算法提取相关的语音参数。为了重新创建原始信号的副本,使用了一种称为语音合成的逆算法。大多数语音分析方案都基于人类语音生成模型[15]. 在这个语音生成模型中,使用两个滤波器的顺序激励来生成语音信号,使用线性预测(LP)滤波器来建模声道,产生所有类型语音中存在的短期相关性和基音滤波器,以表示浊音段中声带振动产生的周期性。语音生成模型的基本图如图所示2LPC基于该图。LPC方案通常用于语音编码领域。例如,在传输中,语音帧用有限数量的参数表示。接收器侧的这些参数用于重建合成质量的语音信号。语音分析算法基于两个阶段:LP分析以获得第页LP系数,一
我
(我 = 1, …, 第页)和基音分析以提取基音增益克和俯仰延迟d日。分别使用LP参数和螺距构造LP滤波器和螺距滤波器。在LPC模型中,对于清音语音信号,由于这类语音没有周期性,所以使用了LP滤波器。基音滤波器用于浊音帧。有关语音分析过程的详细信息,请参见[16]. 在进行任何处理之前,必须将LP系数(LPC)转换为一种更为改进的表示形式,因为LPC非常容易出错,并且其直接量化可能会产生不平衡LP滤波器。最常用的表示之一是LSF[17]. 在本研究中,我们在隐藏过程中采用了这种表示法第页震级位置替换为第页秘密语音的LSF系数。
秘密语音分析
为了进行秘密语音分析,我们将使用LP语音生成模型。在这个模型中,语音信号先进行LP分析,然后进行基音分析。
LP分析
每L-ms进行一次LP分析(对于M=L×Fs样本),采样频率为Fs kHz,以提取第页LP系数。这些系数表示声道极点(或共振峰)。为了平滑光谱参数的帧间变化,分析窗口包含的样本比分析框架多。除当前语音帧外,分析窗口还包含距离过去语音5毫秒和距离未来语音5毫秒的内容。在LP分析中,我们采用了一个由三部分组成的锥形矩形窗口[18]. 第一部分是汉明窗的前半部分,第二部分是矩形窗,第三部分是汉明窗的后半部分。该窗口产生比G.729和G722.2编解码器标准中使用的非对称窗口更窄的主瓣。
(11)
语音信号中短期相关性的存在促使我们采用LP分析。这种相关性有助于预测语音样本秒2(n个)时间n个与之前相比第页样品秒2(n个 − 我). 对于每个语音帧,10阶预测器(第页 = 10) 用于窗口化的演讲,秒2(n个),以估计光谱包络。预测信号ŝ(n个)由提供
(12)
LP系数一
我
(我 = 1, …, 第页)根据加窗样本之间误差的最小化(通过自相关方法)进行预测秒2(n个)和预测样本ŝ2(n个). 由于基音和激励分析阶段是以闭环方式完成的,因此需要LP合成滤波器,以减少原始语音和合成语音候选之间的误差。中的LP合成过滤器Z轴-域,H(H)(z(z)),通过以下方式连接到LPC矢量
(13)
过滤器H(H)(z(z))在时域中由脉冲响应函数表示小时(n个).
音高分析
由于声带振动,语音语音片段表现出一定的长期相关性。振动频率,称为音高,反映在时域语音波形的准周期性行为中。自相关方案用于计算基音滞后(基音频率的倒数)。由于LP分析帧可能包含多个基音周期,因此基于子帧执行基音分析以提取一个基音增益和一个基频延迟。使用一个基音增益和一个基频滞后来表示每个语音帧中的周期性[19]. 在基音分析算法中,首先对每个语音帧进行开环分析以估计基音周期。基于加权语音信号的开放式基音估计秒
w个
(n个)通过感知加权滤波器对输入语音信号进行滤波得到,秒
w个
由以下公式给出:
(14)
也就是说,在一个大小的框架中L(左),加权语音由以下公式给出:
(15)
剩余励磁
信号e(n个)去除长期和短期冗余后,其形状呈噪声状,频谱平坦。图三显示去除长相关和短相关后的剩余信号。该信号可以由随机信号调制。由于随机信号没有相关性,该残差将使用随机信号发生器在接收器侧生成。这样,我们减少了隐藏在掩护信号中的信息量。如前所述,语音分析算法基于两个阶段:LP分析以获得第页LP系数,一
我
(我 = 1, …, 第页)和基音分析阶段,以提取基音增益克和俯仰延迟d日.表1显示了窄带语音的LP模型的使用参数。
LP模型参数调整
由于应用于语音频谱的绝对值,频谱振幅必须始终为正值。在幅度谱中直接嵌入LP系数C将严重破坏覆盖信号,因为LP参数可能具有负值。为了解决这个问题,我们建议将LP系数C转换为它们的频率表示之一,例如LSF。如下式所示,LSF参数w个
我
都是有序的,都是肯定的。
(16)
由于基音延迟在20到147个样本之间变化,直接将基音延迟嵌入覆盖语音频谱将影响高频小幅度覆盖频谱分量。因此,在隐藏过程之前,需要将基音延迟标准化147,即最大基音延迟。标准化变桨延迟的值范围为0到1。因此,隐藏这些参数的最佳位置是最后一个覆盖语音频谱位置,因为最后一个分量的幅度非常小。
LSF提示
伊塔库拉[20]已建议LSF代表LPC。已经证明,它们获得了不同的优势属性,如有界范围、顺序排序和恒常性验证能力[21]. 此外,LSF系数有助于在频域表示中集成人类观测系统特性。根据ITU-T建议G.723.1,建议在需要将LPC参数转换为LSF时提取LSF参数[22]. 在LPC中,原始语音和预测语音之间的均方误差在短时间间隔内最小化,以产生独特的LP系数集。LPC滤波器的传递函数如下所示
(17)
哪里P(P)预测顺序,G公司是收益,并且一
k个
是LPC滤波器系数。这个传递函数的极点包括声道的极点和声源的极点。求解传递函数分母的根可以得到共振峰频率和对应于声源的极点。两个传递函数问第页+1(z(z))和P(P)第页+1(z(z))分别称为差分多项式和和多项式H(H)(z(z)). 差分多项式如下所示:
(18)
和多项式由下式给出:
(19)
哪里A类
第页
(z(z))是的分母H(H)(z(z)). 多项式包含偶数值的零第页z=−1和z(z) = 1.可以去除这些根,以获得以下数量:
(20)
和
(21)
LSF是和并且在单位圆上彼此交替。请注意问第页+1(z(z))是反对称多项式P(P)第页+1(z(z))是对称多项式。多项式和派生自问第页+1(z(z))和P(P)第页+1(z(z))都是对称的。因此,对于偶数值第页我们可以导出以下属性:
(22)
因此,(20)和(21)可以写成如下:
(23)
和
(24)
通过放置z(z) = e(电子)jw公司然后z(z) + z(z)−1 = 2科斯(w个),我们根据实际根方案ITU-T建议G.723.1,获得了要求解的方程,以便找到LSF:
(25)
和
(26)
输入语音被分割成不同的帧。此外,每个帧被细分为四个子帧。在这些子帧上,进行LPC分析。转换第页LPC系数转换为第页在最后一个子帧中执行相应的LSF。对于三个子帧,通过在当前帧和前一帧的LSF之间执行线性插值来获得LSF。
为了达到这个目的,单位圆被分成512个相等的间隔,每个间隔的长度π/256.的根(LSF)问(z(z))和P(P)(z(z))沿着单位圆从0到π搜索多项式。在观察到符号变化的区间上执行线性插值,以找到多项式的零点。根据[20],如果间隔之间出现符号变化我和我 − 1,按如下方式执行一阶插值:
(27)
哪里是插值解指数|P(P)(z(z))
我
|是区间和多项式计算结果的绝对大小我(类似于我 − 1). 由于LSF在从0到π的区域内交错,因此在P(P)(z(z))在每个步骤。通过计算不同的多项式来搜索下一个解问(z) ,从当前解决方案开始[23,24]. 因此,有两个主要原因促使我们选择考虑LSF表示。第一个原因与LP系数对误差非常敏感这一事实有关。这些系数的直接量化可能会产生不稳定的LP滤波器。第二个原因与LSF广泛用于传统编码方案有关。这避免了加入可能需要对当前设备和编解码器进行重大且昂贵修改的新参数。
语音隐藏算法
我们提出了一种新的语音信号隐写方法,将秘密语音信号嵌入小波域的系数中。DWT将覆盖语音信号分解为低频和高频分量。对于语音信号来说,低频分量是语音感知最重要的部分。另一方面,高频成分影响信号的味道或细微差别(噪音)。让我们考虑一下人类的声音。如果我们去掉高频成分,声音听起来就不同了,但我们仍然可以分辨出所说的内容。然而,若我们去掉足够数量的低频分量,我们就会听到胡言乱语,无法理解所说的内容。因此,我们决定在小波域中隐藏高频信息。此外,在小波分析中,我们可以对语音信号进行近似和细节分割。近似值是信号的高标度、低频分量。细节是低尺度、高频分量。如图所示4经过两个互补滤波器后,两个信号从原始信号中出现。
根据预期结果,可以使用多种小波。每个小波家族(如Haar或Daubechies家族)都是小波子类,通过滤波器系数的数量和迭代级别来区分。在隐写术中,无论使用何种隐藏数据的算法,我们都需要在原始信号中嵌入消息后重建语音信号。然后,可以使用性能度量来比较原始语音信号和隐写语音。在我们的方法中,在使用DWT分解语音信号以隐藏消息语音信号之后,我们使用IDWT重构信号。语音隐藏算法如图所示5为了便于隐藏过程,必须对秘密和掩护语音进行预处理。封面演讲分为L(左)-毫秒帧。每个时间帧的DFT秒1(m) 定义为0≤米 ≤ 米 − 1使用DWT-FFT方法计算。将获得的语音谱分解为幅度谱和相位谱。每个L(左)-密信的毫秒数秒2(m) 被嵌入到覆盖信号的幅度频谱的低幅度高频区域中。
秘密语音隐藏
为了隐藏秘密语音,将小波变换应用于语音覆盖语音帧中,分离出高频和低频区域。然后将FFT应用于产生频谱的高频小波部分S公司1(k个)(k个 = 0, …, M(M) − 1). 谱被分解为幅度谱|S公司1(k个)|和相位谱ϕ1(k个).
震级谱是对称的。隐藏过程包括表示L(左)前半部分的最后元素|S公司1(k个)|通过LP参数V(V)2秘密演讲的秒2(米).
由此产生的震级谱,表示为|S公司三(k个)|,由以下表达式定义:
(28)
上述等式中的第三个右项用于保持DFT对称性。这些修改产生了新的语音信号秒三.其谱是震级谱的简单组合|S公司三(k个)|和覆盖相位谱ϕ1(k个),
(29)
时间帧合成(stego)信号秒三(米), 米 = 0, …, M(M) − 1,由IDWT获得,
隐身信号秒三(米)是复合信号,因为它包含L(左)-ms封面演讲秒1(米)和L(左)-ms保密信号秒2(米).
能量归一化
为了提高语音质量,我们通过将所有隐藏参数归一化为原始谱幅值的总能量来保留语音能量。然而,能量的保存需要隐藏能量作为副信息。在接收器处,此能量将用于将隐藏信息重新缩放为其原始值。缩放系数一由提供
(31)
哪里E类
c(c)
是覆盖语音频谱的能量E类LSF公司是LSF矢量的能量。
秘密语音重建
秘密语音由隐写语音通过后续的隐藏算法以翻转顺序重建。图6说明了提取隐藏信息和重构秘密语音消息的步骤。第一步包括执行DWT。通过FFT将利用DWT获得的高频变换为其对应的频谱。然后从语音频谱中获取幅度谱。秘密语音参数是从嵌入到隐写语音信号频谱幅度中的相同位置提取的。LSF矢量被转换回P(P)-顺序LPC向量(一1, …, 一
第页
)构建LP合成过滤器H(H)(z(z)).
(32)
随机激励信号e(电子)(n个)应用于基音和LP合成滤波器系列。信号ŝ(n个)在LP合成滤波器的输出端,是原始秘密消息的再现秒(n个). 由于从隐写语音中提取的LPC模型参数值与嵌入参数具有近似相同的精确值,因此重构的秘密语音信号不受隐藏过程的影响。与原始秘密信号相比,该信号中出现的轻微退化是由LPC模型和LSF转换引起的。