Speech steganography using wavelet and Fourier transforms

Rekik, Siwar; Guerchi, Driss; Selouani, Sid-Ahmed; Hamam, Habib

doi:10.1186/1687-4722-2012-20

研究
开放式访问
出版：2012年8月8日

使用小波和傅立叶变换的语音隐写术

EURASIP音频、语音和音乐处理杂志 体积 2012，物品编号：20(2012)引用这篇文章

12公里访问
40引文
韵律学细节

摘要

本文提出了一种利用离散小波变换（DWT）和快速傅里叶变换来保护语音通信的新方法。在隐藏技术的第一阶段，我们使用DWT分离语音的高频分量和低频分量。在第二阶段，我们利用语音频谱的低通频谱特性，在覆盖语音信号的低幅度高频区域中隐藏另一个秘密语音信号。该方法允许隐藏大量秘密信息，同时使隐写分析更加复杂。实验结果证明了该隐藏技术的有效性，因为隐写信号与等效覆盖信号在视觉上无法区分，同时能够在质量稍有下降的情况下恢复秘密语音消息。

介绍

安全通信领域的一个关注点是信息安全的概念。今天的现实仍然表明，双方远距离通信一直受到拦截。提供安全通信促使研究人员开发了几种加密方案。加密方法实现了安全性，以使信息不可理解，从而保证经过身份验证的接收者的独占访问。加密技术包括使信号对未经授权的人看起来是乱码。因此，密码学表明存在正在进行的加密通信，这使得窃听者怀疑存在有价值的数据。因此，他们被怂恿截获传输的信息并试图破译机密信息。这可能被视为加密方案中的弱点。与密码学相反，隐写术通过将秘密信号伪装在另一个信号（称为掩护信号）中来实现秘密通信，以避免怀疑。这种品质促使研究人员在这个燃烧的领域开展工作，以开发确保更好抵抗敌对攻击者的方案。

隐写术一词来源于两个希腊单词：Stego（意为封面）和graphic（意为书写）。这两个组合词构成了隐写术，意思是隐蔽写作，这是隐藏书面交流的艺术。战争期间，通过敌人的领土，使用了几种隐写技术来秘密发送信息。隐写术的使用可以追溯到古代罗马人和古埃及人使用隐写术[1]. 希腊历史学家希罗多德（Herodotus）认为，有一种方法是剃掉奴隶的头，在奴隶的头皮上纹上信息，并在头发长回来后发送给他。另一种方法是在写字板的蜡下面写下秘密信息。第三种方法是使用隐形墨水在秘密信件中写下秘密信息[2].

为了将秘密信号隐藏到其他隐蔽信号中，已经开发了许多技术。Sridevi等人[三]提出了一种音频隐写方法。它包括用秘密数据替换覆盖语音信号每个样本的最低有效位（LSB）。虽然此方法易于实现，并且可以用于隐藏较大的秘密消息，但它无法保护隐藏的消息不受格式转换或压缩可能导致的微小修改的影响。将数据隐藏在时域中音频样本的LSB中是最简单的算法之一，可以实现非常高的插入信息数据速率。然而，已经开发了几种隐写分析算法来挑战该方法的鲁棒性。Bender等人[4]提出了一种基于相位编码的数据隐藏技术。该方法包括用表示数据的参考相位替换音频段第一部分的相位。为了保持分段之间的相对相位，必须在后续分段的阶段进行调整。相位编码的一系列步骤如下：（i）将原始音频信号分解为较小的片段，使其长度等于要编码的消息的大小；（ii）然后将离散傅里叶变换（DFT）应用于导致相位矩阵的每个分段；（iii）计算每对连续线段的相位差；（iv）确定连续段之间的相移。尽管分段的绝对相位可能会改变，但连续分段之间的相对相位差必须保持不变；（v）使用第一段的新相位和一组原始相位差来创建新的相位矩阵；（vi）使用反向DFT重新生成音频信号，然后将音频段连接在一起。该步骤基于原始幅度矩阵和新创建的相位矩阵。接收机确定秘密消息的长度，然后应用DFT并从覆盖信号中提取隐藏消息。相位编码的一个显著特征是，由于秘密数据仅在音频信号的第一段中编码，因此数据传输速率较低。有争议的是，段长度的任何增强都可能导致段频率元素之间的相位关系发生偏移，从而更容易检测到是否存在秘密消息。因此，当隐藏少量数据时，相位编码算法更有效。基洛夫斯基和马尔瓦尔[5]提出了一种新的隐写方案，称为扩频（SS）编码方法。该方法在音频信号的频谱上随机地扩展秘密数据消息的比特。然而，与LSB编码相比，SS编码方案使用独立于具体覆盖信号的代码来传播秘密消息。SS编码技术可能优于LSB编码和相位编码技术，因为它为中等数据传输速率提供了良好的质量，同时确保了对隐写分析的高度鲁棒性。然而，与LSB编码技术类似，SS方法可能会给音频文件引入噪声。这是一个弱点，因为它有助于隐写分析系统的检测。

黄和杨[6]提出了一种基于回声隐藏的信息隐藏方法。为了嵌入秘密信息，在离散音频信号中引入回声。与SS编码方法类似，与噪声诱导技术相比，回波隐藏可以提供更好的数据传输速率和更高的鲁棒性。为了成功地完成隐藏过程，需要改变原始信号的三个基本参数：衰减率、偏移量（时延）和幅度。这三个参数很容易定义，因为它们位于不同于回声的人类听觉阈值限值之下。此外，偏移量被更改以表征要隐藏的二进制消息。第一个偏移量和第二个偏移量分别表示1（二进制）和0（二进制）。Shirali和Shahreza[7]提出了一种在语音信号中隐藏信息的方法。该方法包括检测语音的静音间隔和这些间隔的相应长度（样本数），并用秘密信息改变它们。将数据隐藏在音频样本的静默间隔中是最简单的算法之一，可以实现非常高的插入信息数据速率。然而，这种方法已经广为人知，并且已经开发了几种隐写分析算法来克服这种方法的鲁棒性。

语音隐写术利用了语音压缩和数据隐藏的最新进展。语音是低通信号；当至少保留幅度谱的前三个共振峰时，它的可懂度保持不变。在本文中，我们将利用这些语音特征提出一种高效的语音隐藏方法。我们的语音隐写系统包括将秘密语音参数嵌入到覆盖语音幅度谱的高频区域。我们的目标是确保将原始相位谱和修改后的幅度谱相结合得到的隐写信号显示出与覆盖信号相似的主观质量。理论上，由于相关的低频分量将保持不变，因此预计合成的隐秘语音在视觉上与掩护语音无法区分。

我们的语音隐藏方案的潜在应用是减少电子语音邮件应用、音频流、语音翻译、数据通信保密以及许多其他基于web的应用中的语音存储和传输开销。

目标

我们的目标是开发一个高性能的语音隐写系统。该系统的设计主要包括以下属性的优化：

隐藏容量，由隐藏在隐蔽语音信号中的秘密信息（语音、文本或图像）量定义。

隐藏过程对封面语音质量的影响。我们希望产生一种隐秘信号，这种信号与掩护信号在视觉上无法区分。

隐写系统的复杂性。我们的目标是使对手的隐写分析（试图从隐写信号中发现秘密消息的存在）更加复杂。

在接收器处可以恢复隐藏消息的准确性。为了将压缩对隐写信号的影响降至最低，需要开发有效的技术。

我们选择一个语音信号作为秘密信息，隐藏在隐蔽的演讲中。由于我们在基于离散小波变换-快速傅里叶变换（DWT-FFT）的隐藏方法中的目标是保密的，因此我们建议将秘密信息隐藏在小波分量的高频范围内。

本文的其余部分组织如下：在下一节中，我们将介绍专用于隐写任务的基于DWT-FFT的方法。“秘密语音参数化”部分将描述秘密语音分析，包括线性预测编码（LPC）分析和线谱频率（LSF）提取过程。在“语音隐藏算法”一节中，我们对所使用的语音隐藏算法进行了描述。本节还包括检索秘密语音信号的一般步骤。然后，在“评估”一节中介绍了用于我们仿真的语音信号数据库、我们的实验参数、我们提出的DWT-FFT隐藏方法的结果评估和讨论。最后，我们在“结论”一节中总结并提出了进一步研究的方向。

基于DWT-FFT的方法

语音DWT

小波变换可以看作是将信号从时域变换到小波域。这个新领域包含更复杂的基函数，称为小波、母小波或分析小波[8]. 小波的基本思想是根据尺度进行分析。然后，任何信号都可以用母小波的平移和缩放版本来表示。小波分析能够揭示其他信号分析技术无法实现的数据方面，如趋势、高阶导数的不连续性、故障点和自相似性。

简要介绍了一维信号离散小波变换的基本思想。小波分析可以将信号分成两部分，通常是高频部分和低频部分。这个过程叫做分解。信号的边缘分量主要局限于高频部分。信号通过一系列高通滤波器来分析高频，然后通过一系列低通滤波器来分析低频。不同截止频率的滤波器用于分析不同分辨率的信号[9,10].

DWT涉及基于二次幂选择尺度和位置，即所谓的二元尺度和位置。母小波用二次幂重标并用整数变换。具体来说，一个函数如果(t吨) ∈ L（左）²(R（右）)（定义平方可积函数的空间）可以表示为：

如果 (t吨) = \sum_{j个 = 1}^{L（左）} \sum_{k个 = - \infty}^{\infty} d日 (j个, k个) ψ (2^{- j个} t吨 - k个) + \sum_{k个 = - \infty}^{\infty} 一 (L（左）, k个) ϕ (2^{- L（左）} t吨 - k个)

(1)

功能ψ(t吨)被称为母小波，而ϕ(t吨)称为缩放函数。函数集 $\{\sqrt{2^{- L（左）}} ϕ (2^{- L（左）} t吨 - k个), \sqrt{2^{- j个}} ψ (2^{- j个} t吨 - k个) | j个 \leq L（左）, j个, k个, L（左） \in Z轴\}$ 哪里Z轴是以正交基表示的整数集L（左）²(R（右）). 数字一(L（左）, k个)被称为尺度上的近似系数L（左），同时d日(j个, k个)确定为比例的细节系数j个近似系数和细节系数可以连续表示为：

一 (L（左）, k个) = \frac{1}{\sqrt{2^{L（左）}}} \int_{- \infty}^{\infty} 如果 (t吨) ϕ (2^{- L（左）} t吨 - k个) d日 t吨

(2)

d日 (j个, k个) = \frac{1}{\sqrt{2^{j个}}} \int_{- \infty}^{\infty} 如果 (t吨) ψ (2^{- j个} t吨 - k个) d日 t吨

(3)

为了更好地理解上述系数，让我们考虑一个投影如果_我(t吨)函数的如果(t吨)它提供了最佳的近似值（在最小误差能量的意义上）如果(t吨)按比例我。此投影可由系数构造一(L（左）, k个)，使用公式：

{如果}_{我} (t吨) = \sum_{k个 = - \infty}^{\infty} 一 (我, k个) ϕ (2^{- 我} t吨 - k个)

(4)

作为比例尺我减小，近似变得更精细，收敛到如果(t吨)作为我 → 0.比例近似值之间的差异我 + 1和在我,如果_我+1(t吨) − 如果_我(t吨)，完全由系数定义d日(j个, k个)使用分解方程，可以用数学形式表示如下：

{如果}_{我 + 1} (t吨) - {如果}_{我} (t吨) = \sum_{k个 = - \infty}^{\infty} d日 (我, k个) ψ (2^{- 我} t吨 - k个)

(5)

这些给定的关系，一(L（左）, k个)和{d日(j个, k个)|j个 ≤ L（左）}，对于以任何比例构建近似都很有用。因此，小波变换将信号分解为粗略近似如果_L（左）(t吨)（给定一(L（左）, k个))和许多层的细节系数{如果_j个+1 − 如果_j个(t吨)|j个 < L（左）}（由提供{d日(j个, k个)|j个 ≤ L（左）}). 随着每一层细节的增加，可以在下一个更高的尺度上获得近似值。可以使用逆DWT（IDWT）重建原始信号，按照上述相反的顺序进行操作。综合从近似系数和细节系数开始cA公司_j个和cD公司_j个，然后重建cA公司_j个−1通过上采样和重构滤波器滤波[11,12].

语音傅里叶变换

由于语音是在时间帧的基础上处理的，因此使用DFT评估语音频谱。信号的DFT秒(n个)定义为0≤n个 ≤ M（M） − 1由以下公式给出

S公司 (k个) = \sum_{n个 = 0}^{M（M） - 1} 秒 (n个) {e（电子）}^{- j个 2 π k个 n个 / M（M）}, 0 \leq k个 \leq M（M） - 1

(6)

一般来说，S公司(k个)是变量的复杂函数k个并且可以用极坐标表示为：

S公司 (k个) = | S公司 (k个) | {e（电子）}^{j⁄} (k个)

(7)

序列S公司(k个)具有与相同数量的元素秒(n个). 然而，最后M（M）/DFT的两个元素是第一个元素的共轭M（M）/2个元素，顺序相反。因此，幅度谱|S公司(k个)|可以由第一个M（M）/2个频率分量，因为它满足以下对称性：

|S公司 (k个)| = |S公司 (M（M） - k个)|

(8)

此等式表示在以量级隐藏消息时必须保持的DFT属性之一。此功能用于快速傅里叶变换（FFT）算法，以降低DFT的计算复杂度[13]. 为了简单起见，我们将在后续章节中采用以下符号：

S公司 = 快速傅里叶变换 (秒)

(9)

和

秒 = ifft公司 (S公司)

(10)

其中，逆FFT ifft计算逆DFT。

语音频谱特征

语音是一种基带信号，对于窄带和宽带语音，大多数相关的可懂度保持频率分量分别限制在4 kHz和7 kHz的带宽内[14]. 前三个语音共振峰的分布代表了英语元音的主要线索。大多数元音能量在1 kHz以下被压缩，并随频率以大约−6 db/oct的速度衰减[15]. 图1显示了液体帧和清音擦音帧的宽带语音频谱。在所有元音和大多数浊辅音中，震级谱在高频下显示出非常弱的成分。即使很少清浊的摩擦辅音，如/s/，在高频下表现出较大的幅度，如果我们不准确地建模这些频率分量，语音信号的可懂度也会受到轻微影响[14]. 另一方面，即使是宽带清音摩擦辅音，7千赫以上的频率对语音频谱内容也没有太大影响。这两个事实促使我们在覆盖信号的低振幅高频中嵌入一个单独的信号。

秘密语音参数化

许多因素需要在隐藏过程之前对秘密语音消息进行参数化。在这些因素中，我们引用了窄带覆盖语音中隐藏位置的数量限制。语音参数化称为语音分析通常用于不同的研究领域，如自动语音识别和语音编码。在语音编码中，原始信号经过语音分析算法提取相关的语音参数。为了重新创建原始信号的副本，使用了一种称为语音合成的逆算法。大多数语音分析方案都基于人类语音生成模型[15]. 在这个语音生成模型中，使用两个滤波器的顺序激励来生成语音信号，使用线性预测（LP）滤波器来建模声道，产生所有类型语音中存在的短期相关性和基音滤波器，以表示浊音段中声带振动产生的周期性。语音生成模型的基本图如图所示2LPC基于该图。LPC方案通常用于语音编码领域。例如，在传输中，语音帧用有限数量的参数表示。接收器侧的这些参数用于重建合成质量的语音信号。语音分析算法基于两个阶段：LP分析以获得第页LP系数，一_我(我 = 1, …, 第页)和基音分析以提取基音增益克和俯仰延迟d日。分别使用LP参数和螺距构造LP滤波器和螺距滤波器。在LPC模型中，对于清音语音信号，由于这类语音没有周期性，所以使用了LP滤波器。基音滤波器用于浊音帧。有关语音分析过程的详细信息，请参见[16]. 在进行任何处理之前，必须将LP系数（LPC）转换为一种更为改进的表示形式，因为LPC非常容易出错，并且其直接量化可能会产生不平衡LP滤波器。最常用的表示之一是LSF[17]. 在本研究中，我们在隐藏过程中采用了这种表示法第页震级位置替换为第页秘密语音的LSF系数。

秘密语音分析

为了进行秘密语音分析，我们将使用LP语音生成模型。在这个模型中，语音信号先进行LP分析，然后进行基音分析。

LP分析

每L-ms进行一次LP分析（对于M=L×Fs样本），采样频率为Fs kHz，以提取第页LP系数。这些系数表示声道极点（或共振峰）。为了平滑光谱参数的帧间变化，分析窗口包含的样本比分析框架多。除当前语音帧外，分析窗口还包含距离过去语音5毫秒和距离未来语音5毫秒的内容。在LP分析中，我们采用了一个由三部分组成的锥形矩形窗口[18]. 第一部分是汉明窗的前半部分，第二部分是矩形窗，第三部分是汉明窗的后半部分。该窗口产生比G.729和G722.2编解码器标准中使用的非对称窗口更窄的主瓣。

w个 (n个) = {\begin{cases} 54 - .46 余弦 (\frac{2 π n个}{M（M） - 1}), n个 = 0, \dots, \frac{M（M）}{2} - 1 \\ 1, n个 = \frac{M（M）}{2}, \dots, \frac{三 M（M）}{2} - 1 \\ .54 - .46 余弦 (\frac{2 π (n个 - \frac{M（M）}{2})}{M（M） - 1}), n个 = \frac{三 M（M）}{2}, \dots, 2 M（M） \end{cases}

(11)

语音信号中短期相关性的存在促使我们采用LP分析。这种相关性有助于预测语音样本秒₂(n个)时间n个与之前相比第页样品秒₂(n个 − 我). 对于每个语音帧，10阶预测器(第页 = 10）用于窗口化的演讲，秒₂(n个)，以估计光谱包络。预测信号ŝ(n个)由提供

\hat{秒} (n个) = \sum_{我 = 1}^{第页} 一_{我} 秒 (n个 - 我)

(12)

LP系数一_我(我 = 1, …, 第页)根据加窗样本之间误差的最小化（通过自相关方法）进行预测秒₂(n个)和预测样本ŝ₂(n个). 由于基音和激励分析阶段是以闭环方式完成的，因此需要LP合成滤波器，以减少原始语音和合成语音候选之间的误差。中的LP合成过滤器Z轴-域，H（H）(z（z）)，通过以下方式连接到LPC矢量

H（H） (z（z）) = \frac{1}{\sum_{我 = 1}^{第页} 一_{我} {z（z）}^{- 1}}

(13)

过滤器H（H）(z（z）)在时域中由脉冲响应函数表示小时(n个).

音高分析

由于声带振动，语音语音片段表现出一定的长期相关性。振动频率，称为音高，反映在时域语音波形的准周期性行为中。自相关方案用于计算基音滞后（基音频率的倒数）。由于LP分析帧可能包含多个基音周期，因此基于子帧执行基音分析以提取一个基音增益和一个基频延迟。使用一个基音增益和一个基频滞后来表示每个语音帧中的周期性[19]. 在基音分析算法中，首先对每个语音帧进行开环分析以估计基音周期。基于加权语音信号的开放式基音估计秒_w个(n个)通过感知加权滤波器对输入语音信号进行滤波得到，秒_w个由以下公式给出：

W公司 (z（z）) = \frac{A类 (Z轴 / 年_{1})}{A类 (Z轴 / 年_{2})} = \frac{1 + \sum_{我 = 1}^{10} 年_{1}^{我} 一_{我} {z（z）}^{- 1}}{1 + \sum_{我 = 1}^{10} 年_{2}^{我} 一_{我} {z（z）}^{- 1}}

(14)

也就是说，在一个大小的框架中L（左），加权语音由以下公式给出：

{S公司}_{w个} (n个) = 秒 (n个) + \sum_{我 = 1}^{10} 一_{我} 年_{1}^{我} 秒 (n个 - 我) - \sum_{我 = 1}^{10} 一_{我} 年_{2}^{我} 秒_{w个} (n个 - 我), n个 = 0, \dots, L（左） - 1

(15)

剩余励磁

信号e(n个)去除长期和短期冗余后，其形状呈噪声状，频谱平坦。图三显示去除长相关和短相关后的剩余信号。该信号可以由随机信号调制。由于随机信号没有相关性，该残差将使用随机信号发生器在接收器侧生成。这样，我们减少了隐藏在掩护信号中的信息量。如前所述，语音分析算法基于两个阶段：LP分析以获得第页LP系数，一_我(我 = 1, …, 第页)和基音分析阶段，以提取基音增益克和俯仰延迟d日.表1显示了窄带语音的LP模型的使用参数。

表1LP模型参数

全尺寸桌子

LP模型参数调整

由于应用于语音频谱的绝对值，频谱振幅必须始终为正值。在幅度谱中直接嵌入LP系数C将严重破坏覆盖信号，因为LP参数可能具有负值。为了解决这个问题，我们建议将LP系数C转换为它们的频率表示之一，例如LSF。如下式所示，LSF参数w个_我都是有序的，都是肯定的。

0 \leq {w个}_{1} \leq {w个}_{2} \leq \dots \leq {w个}_{第页} \leq π

(16)

由于基音延迟在20到147个样本之间变化，直接将基音延迟嵌入覆盖语音频谱将影响高频小幅度覆盖频谱分量。因此，在隐藏过程之前，需要将基音延迟标准化147，即最大基音延迟。标准化变桨延迟的值范围为0到1。因此，隐藏这些参数的最佳位置是最后一个覆盖语音频谱位置，因为最后一个分量的幅度非常小。

LSF提示

伊塔库拉[20]已建议LSF代表LPC。已经证明，它们获得了不同的优势属性，如有界范围、顺序排序和恒常性验证能力[21]. 此外，LSF系数有助于在频域表示中集成人类观测系统特性。根据ITU-T建议G.723.1，建议在需要将LPC参数转换为LSF时提取LSF参数[22]. 在LPC中，原始语音和预测语音之间的均方误差在短时间间隔内最小化，以产生独特的LP系数集。LPC滤波器的传递函数如下所示

H（H） (z（z）) = \frac{G公司}{1 + \sum_{k个 = 1}^{P（P）} 一_{k个} {z（z）}^{- k个}}

(17)

哪里P（P）预测顺序，G公司是收益，并且一_k个是LPC滤波器系数。这个传递函数的极点包括声道的极点和声源的极点。求解传递函数分母的根可以得到共振峰频率和对应于声源的极点。两个传递函数问_第页+1(z（z）)和P（P）_第页+1(z（z）)分别称为差分多项式和和多项式H（H）(z（z）). 差分多项式如下所示：

问_{第页 + 1} = {A类}_{第页} (z（z）) - {z（z）}^{- (第页 + 1)}) {A类}_{第页} ({z（z）}^{(- 1)})

(18)

和多项式由下式给出：

{P（P）}_{第页 + 1} = {A类}_{第页} (z（z）) + {z（z）}^{- (第页 + 1)} {A类}_{第页} ({z（z）}^{- 1})

(19)

哪里A类_第页(z（z）)是的分母H（H）(z（z）). 多项式包含偶数值的零第页z=−1和z（z） = 1.可以去除这些根，以获得以下数量：

\hat{问} (z（z）) = \frac{问_{第页 + 1} (z（z）)}{(1 + z（z）)} = β_{0} {z（z）}^{第页} + β_{1} {z（z）}^{第页 - 1} + \dots + β_{第页},

(20)

和

\hat{P（P）} (z（z）) = \frac{{P（P）}_{第页 + 1} (z（z）)}{(1 + z（z）)} = α_{0} {z（z）}^{第页} + α_{1} {z（z）}^{第页 - 1} + \dots + α_{第页} .

(21)

LSF是 $\hat{问} (z（z）)$ 和 $\hat{P（P）} (z（z）)$ 并且在单位圆上彼此交替。请注意问_第页+1(z（z）)是反对称多项式P（P）_第页+1(z（z）)是对称多项式。多项式 $\hat{问} (z（z）)$ 和 $\hat{P（P）} (z（z）)$ 派生自问_第页+1(z（z）)和P（P）_第页+1(z（z）)都是对称的。因此，对于偶数值第页我们可以导出以下属性：

α_{我} = α (第页 - 我), 0 \leq 我 \leq \frac{第页}{2}

(22)

因此，（20）和（21）可以写成如下：

\hat{问} (z（z）) = {z（z）}^{第页 / 2} [β_{0} ({z（z）}^{第页 / 2} + {z（z）}^{- 第页 / 2}) + β_{1} ({z（z）}^{第页 / 2 - 1} + {z（z）}^{- (第页 / 2 - 1)}) + \dots + β_{第页 / 2}],

(23)

和

\hat{P（P）} (z（z）) = {z（z）}^{第页 / 2} [α_{0} ({z（z）}^{第页 / 2} + {z（z）}^{- 第页 / 2}) + α_{1} ({z（z）}^{第页 / 2 - 1} + {z（z）}^{- (第页 / 2 - 1)}) + \dots + α_{第页 / 2}]

(24)

通过放置z（z） = e（电子）^jw公司然后z（z） + z（z）⁻¹ = 2科斯(w个)，我们根据实际根方案ITU-T建议G.723.1，获得了要求解的方程，以便找到LSF：

\hat{问} ({e（电子）}^{jw公司}) = 2 {e（电子）}^{j个 第页 w个 / 2} [β_{0} 余弦 (\frac{第页}{2} w个) + β_{1} 余弦 (\frac{第页 - 2}{2} w个) + \dots + \frac{1}{2} β_{第页 / 2}]

(25)

和

\hat{P（P）} ({e（电子）}^{jw公司}) = 2 {e（电子）}^{j个 第页 w个 / 2} [α_{0} 余弦 (\frac{第页}{2} w个) + α_{1} 余弦 (\frac{第页 - 2}{2} w个) + \dots + \frac{1}{2} α_{第页 / 2}]

(26)

输入语音被分割成不同的帧。此外，每个帧被细分为四个子帧。在这些子帧上，进行LPC分析。转换第页LPC系数转换为第页在最后一个子帧中执行相应的LSF。对于三个子帧，通过在当前帧和前一帧的LSF之间执行线性插值来获得LSF。

为了达到这个目的，单位圆被分成512个相等的间隔，每个间隔的长度π/256.的根（LSF）问(z（z）)和P（P）(z（z）)沿着单位圆从0到π搜索多项式。在观察到符号变化的区间上执行线性插值，以找到多项式的零点。根据[20]，如果间隔之间出现符号变化我和我 − 1，按如下方式执行一阶插值：

\hat{我} = 我 - 1 + \frac{|P（P） {(z（z）)}_{我 - 1}|}{|P（P） {(z（z）)}_{我 - 1}| + P（P） {(z（z）)}_{我}}

(27)

哪里 $\hat{我}$ 是插值解指数|P（P）(z（z）)_我|是区间和多项式计算结果的绝对大小我（类似于我 − 1). 由于LSF在从0到π的区域内交错，因此在P（P）(z（z）)在每个步骤。通过计算不同的多项式来搜索下一个解问（z），从当前解决方案开始[23,24]. 因此，有两个主要原因促使我们选择考虑LSF表示。第一个原因与LP系数对误差非常敏感这一事实有关。这些系数的直接量化可能会产生不稳定的LP滤波器。第二个原因与LSF广泛用于传统编码方案有关。这避免了加入可能需要对当前设备和编解码器进行重大且昂贵修改的新参数。

语音隐藏算法

我们提出了一种新的语音信号隐写方法，将秘密语音信号嵌入小波域的系数中。DWT将覆盖语音信号分解为低频和高频分量。对于语音信号来说，低频分量是语音感知最重要的部分。另一方面，高频成分影响信号的味道或细微差别（噪音）。让我们考虑一下人类的声音。如果我们去掉高频成分，声音听起来就不同了，但我们仍然可以分辨出所说的内容。然而，若我们去掉足够数量的低频分量，我们就会听到胡言乱语，无法理解所说的内容。因此，我们决定在小波域中隐藏高频信息。此外，在小波分析中，我们可以对语音信号进行近似和细节分割。近似值是信号的高标度、低频分量。细节是低尺度、高频分量。如图所示4经过两个互补滤波器后，两个信号从原始信号中出现。

根据预期结果，可以使用多种小波。每个小波家族（如Haar或Daubechies家族）都是小波子类，通过滤波器系数的数量和迭代级别来区分。在隐写术中，无论使用何种隐藏数据的算法，我们都需要在原始信号中嵌入消息后重建语音信号。然后，可以使用性能度量来比较原始语音信号和隐写语音。在我们的方法中，在使用DWT分解语音信号以隐藏消息语音信号之后，我们使用IDWT重构信号。语音隐藏算法如图所示5为了便于隐藏过程，必须对秘密和掩护语音进行预处理。封面演讲分为L（左）-毫秒帧。每个时间帧的DFT秒₁（m）定义为0≤米 ≤ 米 − 1使用DWT-FFT方法计算。将获得的语音谱分解为幅度谱和相位谱。每个L（左）-密信的毫秒数秒₂（m）被嵌入到覆盖信号的幅度频谱的低幅度高频区域中。

秘密语音隐藏

为了隐藏秘密语音，将小波变换应用于语音覆盖语音帧中，分离出高频和低频区域。然后将FFT应用于产生频谱的高频小波部分S公司₁(k个)(k个 = 0, …, M（M） − 1). 谱被分解为幅度谱|S公司₁(k个)|和相位谱ϕ₁(k个).

震级谱是对称的。隐藏过程包括表示L（左）前半部分的最后元素|S公司₁(k个)|通过LP参数V（V）₂秘密演讲的秒₂(米).

由此产生的震级谱，表示为|S公司_三(k个)|，由以下表达式定义：

|{S公司}_{三} (k个)| = {\begin{cases} |{S公司}_{1} (k个)|, k个 = 0, \dots, \frac{M（M）}{2} - 第页 - 三 \\ {V（V）}_{2} (k个 - \frac{M（M）}{2} - 第页 - 2), k个 = \frac{M（M）}{2} - 第页 - 2, \dots, \frac{M（M）}{2} - 1 \\ {V（V）}_{2} (\frac{M（M）}{2} + 第页 + 1 - k个), k个 = \frac{M（M）}{2}, \dots, \frac{M（M）}{2} + 第页 + 1 \\ |{S公司}_{1} (k个)|, k个 = \frac{M（M）}{2} + 第页 + 2, \dots, M（M） - 1 \end{cases}

(28)

上述等式中的第三个右项用于保持DFT对称性。这些修改产生了新的语音信号秒_三.其谱是震级谱的简单组合|S公司_三(k个)|和覆盖相位谱ϕ₁(k个),

{S公司}_{三} (k个) = |{S公司}_{三} (k个)| {e（电子）}^{j个 ϕ 1 (k个)} k个 = 0, \dots, M（M） - 1

(29)

时间帧合成（stego）信号秒_三(米), 米 = 0, …, M（M） − 1，由IDWT获得，

秒_{三} = IDWT公司 ({S公司}_{三})

(30)

隐身信号秒_三(米)是复合信号，因为它包含L（左）-ms封面演讲秒₁(米)和L（左）-ms保密信号秒₂(米).

能量归一化

为了提高语音质量，我们通过将所有隐藏参数归一化为原始谱幅值的总能量来保留语音能量。然而，能量的保存需要隐藏能量作为副信息。在接收器处，此能量将用于将隐藏信息重新缩放为其原始值。缩放系数一由提供

一 = \sqrt{\frac{{E类}_{c（c）}}{1 + {E类}_{LSF机密}}}

(31)

哪里E类_c（c）是覆盖语音频谱的能量E类_LSF公司是LSF矢量的能量。

秘密语音重建

秘密语音由隐写语音通过后续的隐藏算法以翻转顺序重建。图6说明了提取隐藏信息和重构秘密语音消息的步骤。第一步包括执行DWT。通过FFT将利用DWT获得的高频变换为其对应的频谱。然后从语音频谱中获取幅度谱。秘密语音参数是从嵌入到隐写语音信号频谱幅度中的相同位置提取的。LSF矢量被转换回P（P）-顺序LPC向量(一₁, …, 一_第页)构建LP合成过滤器H（H）(z（z）).

H（H） (z（z）) = \frac{1}{1 - \sum_{我 = 1}^{10} 一_{我} {z（z）}^{- 我}}

(32)

随机激励信号e（电子）(n个)应用于基音和LP合成滤波器系列。信号ŝ(n个)在LP合成滤波器的输出端，是原始秘密消息的再现秒(n个). 由于从隐写语音中提取的LPC模型参数值与嵌入参数具有近似相同的精确值，因此重构的秘密语音信号不受隐藏过程的影响。与原始秘密信号相比，该信号中出现的轻微退化是由LPC模型和LSF转换引起的。

评价

实验装置

为了评估所提出的隐藏技术的性能，我们使用NOIZEUS数据库进行了几次仿真[25–27]. 这个语料库包含了来自IEEE句子数据库的30个句子，这些句子是用塔克-戴维斯技术公司的录音设备在一个隔音的房间里录制的。这些句子由三名男性和女性演讲者组成。这30个句子：15名男性和15名女性演讲者包含了美语中的所有音素。这些句子最初是在25 kHz的频率下采样的，下采样到8 kHz。语音文件的长度在0.02到0.03毫秒之间变化。在比较评估中，我们进行了四组测试。在第一组模拟中，我们将15个男性语音文件中的每一个嵌入到15个女性语音文件中。在第二组测试中，我们将15个女性语音文件中的每一个隐藏在15个男性语音文件中。在第三组测试中，我们将15个男性语音信号中的每一个都嵌入到剩下的14个男性语音文件中。在最后一组测试中，我们在剩下的相同性别的语音文件中隐藏了15个女性语音片段中的每一个。每个集合针对五个不同的小波族（Haar、Daubechies、Symlets、Coiflets和BiorSpline）进行迭代。我们总共进行了4210次计算机模拟（（15*15*2+14*14*2）*5）。

为了评估DWT-FFT技术的影响，我们进行了两个不同的比较实验，分别使用DWT-FFT方法和仅使用FFT。

评价结果

任何隐写系统的性能度量之一是覆盖信号和隐写信号之间的比较。在本研究中，我们使用了主观和客观的绩效指标。在主观测量方面，我们进行了几次非正式的听力对比测试。在这些模拟中，我们随机播放了封面演讲秒₁(米)和stego信号秒_三(米)给几个听众。每个听众都必须在封面和隐藏信号中识别出质量更好的语音文件。大多数听众无法区分这两个语音文件。作为客观测量，我们使用了分段信噪比（SegSNR）和语音质量感知评估（PESQ）。PESQ测量为语音质量评估提供了一种客观和自动化的方法。SegSNR定义如下

分段信噪比 (分贝) = 10 {日志}_{10} (\frac{\sum_{米 = 0}^{159} {[秒_{1} (米)]}^{2}}{\sum_{米 = 0}^{159} {[秒_{1} (米) - 秒_{三} (米)]}^{2}})

(33)

哪里秒₁和秒_三分别是封面和stego语音文件。在本研究中，我们将语音文件分割成20毫秒的帧(L（左） = 20）（或160个样本（M=160））。在表中2，我们使用DWT-FFT算法给出了四组不同测试的平均SegSNR值。在表中三，我们仅使用FFT表示同一组测试的平均SegSNR。FFT产生的隐写信号的质量优于DWT-FFT。然而，DWT-FFT提高了隐藏算法对隐写分析技术的鲁棒性。我们使用一些现有的小波来比较不同小波对语音质量的影响。所有使用的小波的分解都是在一个级别上完成的。表4显示了四组不同测试的不同小波的结果。可以注意到，不同的小波具有几乎相似的结果；因此，该方法不依赖于特定类型的小波。不同小波的SegSNR值差别不大。SegSNR只是一个指示性的性能度量。PESQ是评估隐藏技术性能的更可靠方法。PESQ测量为语音质量评估提供了一种客观和自动化的技术。使用带有主观意见得分的PESQ算法可以预测语音样本的退化。一般来说，PESQ的得分从0.5分到4.5分，分数越高表示质量越好[28,29]. 在我们的实验中使用了PESQ方法来评估隐去语音。参考信号是指原始（覆盖）信号，降级信号是指隐藏秘密消息的隐藏信号。在表中5，我们给出了通过两种隐藏技术（仅使用DWT-FFT和FFT）获得的男性和女性说话人的平均PESQ值。图7显示了2种隐藏方法的20个语音信号的PESQ变化。对于DWT-FFT和FFT算法，隐藏方法分别达到3.68和4.14 PESQ平均值。图8显示了隐藏秘密信号的LPC参数后覆盖信号的幅度谱和隐写语音的对应关系。PESQ分析表明，隐写和覆盖语音具有相似的主观质量。图中的掩蔽和隐秘语音谱图之间的相似性支持了这一结果9.客观和主观性能测试表明，所提出的隐藏技术不会怀疑隐写语音中是否存在隐藏消息，同时能够在接收方恢复原始秘密消息的可理解副本。对原始秘密言语信息和重新组合的秘密言语信息进行的非正式听力测试支持其他客观表现测量的结果。重构的秘密演讲ŝ(n个)（从DWT-FFT和FFT隐藏方法来看）仍然完全可以理解，甚至一些感知失真也是显而易见的。我们关心的是语言的可懂度，因为目标是将秘密信息传递给预期的接收者。表6显示了隐藏算法对SegSNR保密语音的影响。

表2基于DWT-FFT的隐藏方法的信噪比

全尺寸桌子

表3基于FFT的隐藏方法的信噪比

全尺寸桌子

表4基于DWT-FFT的隐写系统的不同小波结果

全尺寸桌子

表5DWT-FFT的PESQ和基于FFT的隐藏方法

全尺寸桌子

表6基于SegSNR的隐藏过程对秘密语音的影响

全尺寸桌子

结论

在本文中，我们提出了一种用于保密应用的新隐写系统。所提出的隐藏方法产生的隐写语音文件与其等效的覆盖语音文件无法区分。此外，我们的隐藏技术的复杂性非常高，任何窃听者都无法提取隐藏的信息，即使怀疑存在秘密消息。因为我们的目标是使对手的隐写分析（试图从隐写信号中提取秘密消息）更加复杂。我们的方法首先使用DWT利用高频，然后利用语音幅度谱的低通频谱特性，在覆盖语音信号的低幅度高频区域隐藏另一个语音信号。对女性和男性演讲者的实验模拟表明，我们的方法能够产生一种隐秘语音，这种语音与掩护语音无法区分。接收器仍然能够恢复机密语音信息的清晰副本。在未来的工作中，我们将努力将我们的方法扩展到涉及IP语音语音保密的应用程序，即在传输前压缩stego语音。这就提出了在解码压缩的隐写语音后保留秘密语音的问题。

缩写

干膜厚度：: 离散傅里叶变换
载重吨：: 离散小波变换
载重吨：: FFT离散小波变换-快速傅里叶变换
快速傅里叶变换：: 快速傅里叶变换
国际干重：: 逆离散小波变换
国际金融时报：: 快速傅里叶逆变换
有限合伙人：: 线性预测
液化石油气：: 线性预测编码
最低有效位：: 最低有效位
LSF：: 线谱频率
公共工程服务质量：: 语音质量的感知评估
分段SNR：: 分段信噪比
不锈钢：: 扩频。

工具书类

卡恩·D：隐写术的历史。计算机科学课堂讲稿.1174版。纽约州施普林格；1996:11023.
谷歌学者
Johnson NF，Jajodia S：探索隐写术：看不见的东西。IEEE计算。1998, 31(2):26-34.
第条谷歌学者
Sridevi R，Damodaram A，Narasimham SVL：通过改进的LSB算法和增强安全性的强加密密钥实现高效的音频隐写方法。J.西奥。申请。技术信息。2009, 5(6):768-771.
谷歌学者
Bender W，Gruhl D，Morimoto N：数据隐藏技术。IBM系统。J。1996, 35(3):313-336.
第条谷歌学者
Kirovski D，Malvar H：音频信号的扩频水印。IEEE传输。信号处理。2003, 51(4):1020-1033. 10.1109/TSP.2003.809384
第条数学科学网谷歌学者
黄D，Yeo T：稳健且不易听懂的多音音频水印，第三届IEEE Pacific-Rim多媒体会议论文集，台北多媒体信息处理进展.中国；2002:615-622.
谷歌学者
Shirali-Shahreza S，Shirali_ShahrezaM：沉默语音间隔中的隐写术，第四届IEEE智能信息隐藏和多媒体信号处理国际会议论文集（IIH-MSP 2008）.中国哈尔滨；2008年8月15日至17日：605-607。
谷歌学者
Misiti M、Misiti Y、Oppenheim G、Poggi JM：Matlab小波工具箱（4.0版）：教程和参考指南数学美国纳蒂克；2007年1月。
谷歌学者
Lin B，Nguyen B，Olsen ET音频、图像和电信信号处理方法。在正交小波与信号处理编辑：Clarkson PM，Stark H.Academic，London；1995:1-70. 编辑：
谷歌学者
Mallat S公司：信号处理的小波巡视。学术，加利福尼亚州圣地亚哥；1998.
谷歌学者
Nievergelt Y公司：小波变得简单Birkhäuser，波士顿；1999
书谷歌学者
Ooi J，Viswanathan V：小波在语音处理中的应用。 现代语音处理方法。编辑：Ramachandran RP，Mammone R.Kluwer学术出版社，波士顿；1995:449-464.
第章谷歌学者
Elliott DF，Rao KR：快速变换：算法《分析与应用》（学术出版社，纽约；1982年）。
谷歌学者
Andreas S、Ed PT、Venkatraman A：音频信号处理和编码Wiley-Interscience Publication，美国；2006年，ISBN 978-0-471-79147-8，TK5102.92.S73
谷歌学者
Strange W，Edman TR，Jenkins JJ：元音识别中的声学和语音因素。《心理学实验杂志》。嗯，感觉到了。执行。1979, 5(4):643-656.
第条谷歌学者
CY Espy-Wilson：美国英语中区分半元音的语言特征的声学度量。J.声学。Soc.美国1992, 92: 736-757. 10.1121/1.403998
第条谷歌学者
Childers DG，Hahn M，Larr JN:无声和浊音/清音/混合激励（四向）语音分类。IEEE传输。ASSP公司1989, 37(11):1771-1774. 10.1109/29.46561
第条谷歌学者
奥肖内西D：语音通信：人与机器第二版。Wiley-IEEE出版社，纽约州纽约市；1999
书谷歌学者
Makhoul J：线性预测：教程回顾。程序。电气与电子工程师协会1975, 63(5):561-580.
第条谷歌学者
Itakura F：语音信号线性预测系数的线谱表示。J.声学。Soc.美国1975年，57（1）：第35页。10.1121/1.380398
第条谷歌学者
奥本海姆AV、谢弗WR、巴克AJ：离散时间信号处理新泽西州上马鞍河Prentice Hall；1999:468-471. 国际标准书号0-13-754920-2
谷歌学者
赫斯·W：语音信号的基音确定.施普林格，柏林；1983
书谷歌学者
宋凤、娟乙：线谱对（LSP）和语音数据压缩。IEEE声学、语音和信号处理国际会议论文集（ICASSP’84）.美国加利福尼亚州圣地亚哥9；1984年3月37日至40日。
谷歌学者
国际电联电话：建议G.723.1。用于以5.3和6.3 kbit/s速率传输多媒体通信的双速率语音编码器. 1996.
谷歌学者
Hu Y，Loizou P：语音增强算法的主观评估和比较。语音通信2007, 49: 588-601. 2016年10月10日/j.specom.2006.12.006
第条谷歌学者
Hu Y，Loizou P：语音增强客观质量度量的评估。IEEE传输。语音音频处理。2008, 16(1):229-238.
第条谷歌学者
马J，胡Y，Loizou P：基于新的频带重要性函数预测噪声条件下语音可懂度的客观测量。J.声学。美国南部。2009, 125(5):3387-3405. 10.1121/1.3097493
第条谷歌学者
国际电联：语音质量的感知评估（PESQ）和窄带电话网络和语音编解码器端到端语音质量评估的客观方法，ITU-T建议862. 2000.
谷歌学者
ITU-T建议：国际电信联盟语音质量主观测定方法.日内瓦；2003:800.
谷歌学者

下载参考资料

作者信息

作者和附属机构

法国布雷斯特布列塔尼西方大学
西瓦尔·雷基克
阿联酋迪拜加拿大大学
Siwar Rekik和Driss Guerchi
加拿大NB，Shippagan，Moncton大学
西德·艾哈迈德·塞卢安尼
蒙克顿大学，蒙克顿，NB，加拿大
哈比卜·哈马

作者

西瓦尔·雷基克
查看作者出版物
您还可以在中搜索此作者公共医学谷歌学者
德里斯·格雷奇
查看作者出版物
您还可以在中搜索此作者公共医学谷歌学者
西德·艾哈迈德·塞卢安尼
查看作者出版物
您还可以在中搜索此作者公共医学谷歌学者
哈比卜·哈马
查看作者出版物
您还可以在中搜索此作者公共医学谷歌学者

通讯作者

与的通信西瓦尔·雷基克.

其他信息

竞争性利益

作者声明，他们没有相互竞争的利益。

作者提交的原始图像文件

以下是作者提交的图像原始文件的链接。

图1的作者原始文件

图2的作者原始文件

图3的作者原始文件

图4的作者原始文件

图5的作者原始文件

图6的作者原始文件

图7的作者原始文件

图8的作者原始文件

图9的作者原始文件

权利和权限

开放式访问本文根据Creative Commons Attribution 2.0 International License的条款分发(https://creativecommons.org/licenses/by/2.0)它允许在任何介质中不受限制地使用、分发和复制原始作品，前提是正确引用了原始作品。

转载和许可

关于本文

引用这篇文章

Rekik，S.、Guerchi，D.、Selouani，SA。等。使用小波和傅里叶变换的语音隐写术。J语音音乐程序。 2012, 20 (2012). https://doi.org/10.1186/1687-4722-2012-20

下载引文

收到:2011年8月13日
认可的:2012年6月19日
出版:2012年8月8日
内政部:https://doi.org/10.1186/1687-4722-2012-20

使用小波和傅立叶变换的语音隐写术

摘要

介绍

目标

基于DWT-FFT的方法

语音DWT

语音傅里叶变换

语音频谱特征

秘密语音参数化

秘密语音分析

LP分析

音高分析

剩余励磁

LP模型参数调整

LSF提示

语音隐藏算法

秘密语音隐藏

能量归一化

秘密语音重建

评价

实验装置

评价结果

结论

缩写

工具书类

作者信息

作者和附属机构

通讯作者

其他信息

竞争性利益

作者提交的原始图像文件

权利和权限

关于本文

引用这篇文章

分享这篇文章

关键词