跳到主要内容

使用小波和傅立叶变换的语音隐写术

摘要

本文提出了一种利用离散小波变换(DWT)和快速傅里叶变换来保护语音通信的新方法。在隐藏技术的第一阶段,我们使用DWT分离语音的高频分量和低频分量。在第二阶段,我们利用语音频谱的低通频谱特性,在覆盖语音信号的低幅度高频区域中隐藏另一个秘密语音信号。该方法允许隐藏大量秘密信息,同时使隐写分析更加复杂。实验结果证明了该隐藏技术的有效性,因为隐写信号与等效覆盖信号在视觉上无法区分,同时能够在质量稍有下降的情况下恢复秘密语音消息。

介绍

安全通信领域的一个关注点是信息安全的概念。今天的现实仍然表明,双方远距离通信一直受到拦截。提供安全通信促使研究人员开发了几种加密方案。加密方法实现了安全性,以使信息不可理解,从而保证经过身份验证的接收者的独占访问。加密技术包括使信号对未经授权的人看起来是乱码。因此,密码学表明存在正在进行的加密通信,这使得窃听者怀疑存在有价值的数据。因此,他们被怂恿截获传输的信息并试图破译机密信息。这可能被视为加密方案中的弱点。与密码学相反,隐写术通过将秘密信号伪装在另一个信号(称为掩护信号)中来实现秘密通信,以避免怀疑。这种品质促使研究人员在这个燃烧的领域开展工作,以开发确保更好抵抗敌对攻击者的方案。

隐写术一词来源于两个希腊单词:Stego(意为封面)和graphic(意为书写)。这两个组合词构成了隐写术,意思是隐蔽写作,这是隐藏书面交流的艺术。战争期间,通过敌人的领土,使用了几种隐写技术来秘密发送信息。隐写术的使用可以追溯到古代罗马人和古埃及人使用隐写术[1]. 希腊历史学家希罗多德(Herodotus)认为,有一种方法是剃掉奴隶的头,在奴隶的头皮上纹上信息,并在头发长回来后发送给他。另一种方法是在写字板的蜡下面写下秘密信息。第三种方法是使用隐形墨水在秘密信件中写下秘密信息[2].

为了将秘密信号隐藏到其他隐蔽信号中,已经开发了许多技术。Sridevi等人[]提出了一种音频隐写方法。它包括用秘密数据替换覆盖语音信号每个样本的最低有效位(LSB)。虽然此方法易于实现,并且可以用于隐藏较大的秘密消息,但它无法保护隐藏的消息不受格式转换或压缩可能导致的微小修改的影响。将数据隐藏在时域中音频样本的LSB中是最简单的算法之一,可以实现非常高的插入信息数据速率。然而,已经开发了几种隐写分析算法来挑战该方法的鲁棒性。Bender等人[4]提出了一种基于相位编码的数据隐藏技术。该方法包括用表示数据的参考相位替换音频段第一部分的相位。为了保持分段之间的相对相位,必须在后续分段的阶段进行调整。相位编码的一系列步骤如下:(i)将原始音频信号分解为较小的片段,使其长度等于要编码的消息的大小;(ii)然后将离散傅里叶变换(DFT)应用于导致相位矩阵的每个分段;(iii)计算每对连续线段的相位差;(iv)确定连续段之间的相移。尽管分段的绝对相位可能会改变,但连续分段之间的相对相位差必须保持不变;(v) 使用第一段的新相位和一组原始相位差来创建新的相位矩阵;(vi)使用反向DFT重新生成音频信号,然后将音频段连接在一起。该步骤基于原始幅度矩阵和新创建的相位矩阵。接收机确定秘密消息的长度,然后应用DFT并从覆盖信号中提取隐藏消息。相位编码的一个显著特征是,由于秘密数据仅在音频信号的第一段中编码,因此数据传输速率较低。有争议的是,段长度的任何增强都可能导致段频率元素之间的相位关系发生偏移,从而更容易检测到是否存在秘密消息。因此,当隐藏少量数据时,相位编码算法更有效。基洛夫斯基和马尔瓦尔[5]提出了一种新的隐写方案,称为扩频(SS)编码方法。该方法在音频信号的频谱上随机地扩展秘密数据消息的比特。然而,与LSB编码相比,SS编码方案使用独立于具体覆盖信号的代码来传播秘密消息。SS编码技术可能优于LSB编码和相位编码技术,因为它为中等数据传输速率提供了良好的质量,同时确保了对隐写分析的高度鲁棒性。然而,与LSB编码技术类似,SS方法可能会给音频文件引入噪声。这是一个弱点,因为它有助于隐写分析系统的检测。

黄和杨[6]提出了一种基于回声隐藏的信息隐藏方法。为了嵌入秘密信息,在离散音频信号中引入回声。与SS编码方法类似,与噪声诱导技术相比,回波隐藏可以提供更好的数据传输速率和更高的鲁棒性。为了成功地完成隐藏过程,需要改变原始信号的三个基本参数:衰减率、偏移量(时延)和幅度。这三个参数很容易定义,因为它们位于不同于回声的人类听觉阈值限值之下。此外,偏移量被更改以表征要隐藏的二进制消息。第一个偏移量和第二个偏移量分别表示1(二进制)和0(二进制)。Shirali和Shahreza[7]提出了一种在语音信号中隐藏信息的方法。该方法包括检测语音的静音间隔和这些间隔的相应长度(样本数),并用秘密信息改变它们。将数据隐藏在音频样本的静默间隔中是最简单的算法之一,可以实现非常高的插入信息数据速率。然而,这种方法已经广为人知,并且已经开发了几种隐写分析算法来克服这种方法的鲁棒性。

语音隐写术利用了语音压缩和数据隐藏的最新进展。语音是低通信号;当至少保留幅度谱的前三个共振峰时,它的可懂度保持不变。在本文中,我们将利用这些语音特征提出一种高效的语音隐藏方法。我们的语音隐写系统包括将秘密语音参数嵌入到覆盖语音幅度谱的高频区域。我们的目标是确保将原始相位谱和修改后的幅度谱相结合得到的隐写信号显示出与覆盖信号相似的主观质量。理论上,由于相关的低频分量将保持不变,因此预计合成的隐秘语音在视觉上与掩护语音无法区分。

我们的语音隐藏方案的潜在应用是减少电子语音邮件应用、音频流、语音翻译、数据通信保密以及许多其他基于web的应用中的语音存储和传输开销。

目标

我们的目标是开发一个高性能的语音隐写系统。该系统的设计主要包括以下属性的优化:

隐藏容量,由隐藏在隐蔽语音信号中的秘密信息(语音、文本或图像)量定义。

隐藏过程对封面语音质量的影响。我们希望产生一种隐秘信号,这种信号与掩护信号在视觉上无法区分。

隐写系统的复杂性。我们的目标是使对手的隐写分析(试图从隐写信号中发现秘密消息的存在)更加复杂。

在接收器处可以恢复隐藏消息的准确性。为了将压缩对隐写信号的影响降至最低,需要开发有效的技术。

我们选择一个语音信号作为秘密信息,隐藏在隐蔽的演讲中。由于我们在基于离散小波变换-快速傅里叶变换(DWT-FFT)的隐藏方法中的目标是保密的,因此我们建议将秘密信息隐藏在小波分量的高频范围内。

本文的其余部分组织如下:在下一节中,我们将介绍专用于隐写任务的基于DWT-FFT的方法。“秘密语音参数化”部分将描述秘密语音分析,包括线性预测编码(LPC)分析和线谱频率(LSF)提取过程。在“语音隐藏算法”一节中,我们对所使用的语音隐藏算法进行了描述。本节还包括检索秘密语音信号的一般步骤。然后,在“评估”一节中介绍了用于我们仿真的语音信号数据库、我们的实验参数、我们提出的DWT-FFT隐藏方法的结果评估和讨论。最后,我们在“结论”一节中总结并提出了进一步研究的方向。

基于DWT-FFT的方法

语音DWT

小波变换可以看作是将信号从时域变换到小波域。这个新领域包含更复杂的基函数,称为小波、母小波或分析小波[8]. 小波的基本思想是根据尺度进行分析。然后,任何信号都可以用母小波的平移和缩放版本来表示。小波分析能够揭示其他信号分析技术无法实现的数据方面,如趋势、高阶导数的不连续性、故障点和自相似性。

简要介绍了一维信号离散小波变换的基本思想。小波分析可以将信号分成两部分,通常是高频部分和低频部分。这个过程叫做分解。信号的边缘分量主要局限于高频部分。信号通过一系列高通滤波器来分析高频,然后通过一系列低通滤波器来分析低频。不同截止频率的滤波器用于分析不同分辨率的信号[9,10].

DWT涉及基于二次幂选择尺度和位置,即所谓的二元尺度和位置。母小波用二次幂重标并用整数变换。具体来说,一个函数如果(t吨) L(左)2(R(右))(定义平方可积函数的空间)可以表示为:

如果 t吨 = j个 = 1 L(左) k个 = d日 j个 , k个 ψ ( 2 j个 t吨 k个 ) + k个 = L(左) , k个 ϕ ( 2 L(左) t吨 k个 )
(1)

功能ψ(t吨)被称为母小波,而ϕ(t吨)称为缩放函数。函数集 2 L(左) ϕ 2 L(左) t吨 k个 , 2 j个 ψ 2 j个 t吨 k个 | j个 L(左) , j个 , k个 , L(左) Z轴 哪里Z轴是以正交基表示的整数集L(左)2(R(右)). 数字(L(左), k个)被称为尺度上的近似系数L(左),同时d日(j个, k个)确定为比例的细节系数j个近似系数和细节系数可以连续表示为:

L(左) , k个 = 1 2 L(左) 如果 t吨 ϕ 2 L(左) t吨 k个 d日 t吨
(2)
d日 j个 , k个 = 1 2 j个 如果 t吨 ψ 2 j个 t吨 k个 d日 t吨
(3)

为了更好地理解上述系数,让我们考虑一个投影如果 (t吨)函数的如果(t吨)它提供了最佳的近似值(在最小误差能量的意义上)如果(t吨)按比例。此投影可由系数构造(L(左), k个),使用公式:

如果 t吨 = k个 = , k个 ϕ 2 t吨 k个
(4)

作为比例尺减小,近似变得更精细,收敛到如果(t吨)作为 → 0.比例近似值之间的差异 + 1和在,如果+1(t吨) − 如果 (t吨),完全由系数定义d日(j个, k个)使用分解方程,可以用数学形式表示如下:

如果 + 1 t吨 如果 t吨 = k个 = d日 , k个 ψ ( 2 t吨 k个 )
(5)

这些给定的关系,(L(左), k个)和{d日(j个, k个)|j个 ≤ L(左)},对于以任何比例构建近似都很有用。因此,小波变换将信号分解为粗略近似如果 L(左) (t吨)(给定(L(左), k个))和许多层的细节系数{如果j个+1 − 如果 j个 (t吨)|j个 < L(左)}(由提供{d日(j个, k个)|j个 ≤ L(左)}). 随着每一层细节的增加,可以在下一个更高的尺度上获得近似值。可以使用逆DWT(IDWT)重建原始信号,按照上述相反的顺序进行操作。综合从近似系数和细节系数开始cA公司 j个 cD公司 j个 ,然后重建cA公司j个−1通过上采样和重构滤波器滤波[11,12].

语音傅里叶变换

由于语音是在时间帧的基础上处理的,因此使用DFT评估语音频谱。信号的DFT(n个)定义为0≤n个 ≤ M(M) − 1由以下公式给出

S公司 k个 = n个 = 0 M(M) 1 n个 e(电子) j个 2 π k个 n个 / M(M) , 0 k个 M(M) 1
(6)

一般来说,S公司(k个)是变量的复杂函数k个并且可以用极坐标表示为:

S公司 k个 = | S公司 k个 | e(电子) j⁄ k个
(7)

序列S公司(k个)具有与相同数量的元素(n个). 然而,最后M(M)/DFT的两个元素是第一个元素的共轭M(M)/2个元素,顺序相反。因此,幅度谱|S公司(k个)|可以由第一个M(M)/2个频率分量,因为它满足以下对称性:

S公司 k个 = S公司 M(M) k个
(8)

此等式表示在以量级隐藏消息时必须保持的DFT属性之一。此功能用于快速傅里叶变换(FFT)算法,以降低DFT的计算复杂度[13]. 为了简单起见,我们将在后续章节中采用以下符号:

S公司 = 快速傅里叶变换
(9)

= ifft公司 S公司
(10)

其中,逆FFT ifft计算逆DFT。

语音频谱特征

语音是一种基带信号,对于窄带和宽带语音,大多数相关的可懂度保持频率分量分别限制在4 kHz和7 kHz的带宽内[14]. 前三个语音共振峰的分布代表了英语元音的主要线索。大多数元音能量在1 kHz以下被压缩,并随频率以大约−6 db/oct的速度衰减[15]. 1显示了液体帧和清音擦音帧的宽带语音频谱。在所有元音和大多数浊辅音中,震级谱在高频下显示出非常弱的成分。即使很少清浊的摩擦辅音,如/s/,在高频下表现出较大的幅度,如果我们不准确地建模这些频率分量,语音信号的可懂度也会受到轻微影响[14]. 另一方面,即使是宽带清音摩擦辅音,7千赫以上的频率对语音频谱内容也没有太大影响。这两个事实促使我们在覆盖信号的低振幅高频中嵌入一个单独的信号。

图1
图1

(a)浊音帧,(b)清音帧的幅度谱。

秘密语音参数化

许多因素需要在隐藏过程之前对秘密语音消息进行参数化。在这些因素中,我们引用了窄带覆盖语音中隐藏位置的数量限制。语音参数化称为语音分析通常用于不同的研究领域,如自动语音识别和语音编码。在语音编码中,原始信号经过语音分析算法提取相关的语音参数。为了重新创建原始信号的副本,使用了一种称为语音合成的逆算法。大多数语音分析方案都基于人类语音生成模型[15]. 在这个语音生成模型中,使用两个滤波器的顺序激励来生成语音信号,使用线性预测(LP)滤波器来建模声道,产生所有类型语音中存在的短期相关性和基音滤波器,以表示浊音段中声带振动产生的周期性。语音生成模型的基本图如图所示2LPC基于该图。LPC方案通常用于语音编码领域。例如,在传输中,语音帧用有限数量的参数表示。接收器侧的这些参数用于重建合成质量的语音信号。语音分析算法基于两个阶段:LP分析以获得第页LP系数, ( = 1, …, 第页)和基音分析以提取基音增益和俯仰延迟d日。分别使用LP参数和螺距构造LP滤波器和螺距滤波器。在LPC模型中,对于清音语音信号,由于这类语音没有周期性,所以使用了LP滤波器。基音滤波器用于浊音帧。有关语音分析过程的详细信息,请参见[16]. 在进行任何处理之前,必须将LP系数(LPC)转换为一种更为改进的表示形式,因为LPC非常容易出错,并且其直接量化可能会产生不平衡LP滤波器。最常用的表示之一是LSF[17]. 在本研究中,我们在隐藏过程中采用了这种表示法第页震级位置替换为第页秘密语音的LSF系数。

图2
图2

语音生成的LP模型。

秘密语音分析

为了进行秘密语音分析,我们将使用LP语音生成模型。在这个模型中,语音信号先进行LP分析,然后进行基音分析。

LP分析

每L-ms进行一次LP分析(对于M=L×Fs样本),采样频率为Fs kHz,以提取第页LP系数。这些系数表示声道极点(或共振峰)。为了平滑光谱参数的帧间变化,分析窗口包含的样本比分析框架多。除当前语音帧外,分析窗口还包含距离过去语音5毫秒和距离未来语音5毫秒的内容。在LP分析中,我们采用了一个由三部分组成的锥形矩形窗口[18]. 第一部分是汉明窗的前半部分,第二部分是矩形窗,第三部分是汉明窗的后半部分。该窗口产生比G.729和G722.2编解码器标准中使用的非对称窗口更窄的主瓣。

w个 n个 = { 54 .46 余弦 2 π n个 M(M) 1 , n个 = 0 , , M(M) 2 1 1 , n个 = M(M) 2 , , M(M) 2 1 .54 .46 余弦 2 π n个 M(M) 2 M(M) 1 , n个 = M(M) 2 , , 2 M(M)
(11)

语音信号中短期相关性的存在促使我们采用LP分析。这种相关性有助于预测语音样本2(n个)时间n个与之前相比第页样品2(n个 − ). 对于每个语音帧,10阶预测器(第页 = 10) 用于窗口化的演讲,2(n个),以估计光谱包络。预测信号ŝ(n个)由提供

^ n个 = = 1 第页 n个
(12)

LP系数 ( = 1, …, 第页)根据加窗样本之间误差的最小化(通过自相关方法)进行预测2(n个)和预测样本ŝ2(n个). 由于基音和激励分析阶段是以闭环方式完成的,因此需要LP合成滤波器,以减少原始语音和合成语音候选之间的误差。中的LP合成过滤器Z轴-域,H(H)(z(z)),通过以下方式连接到LPC矢量

H(H) z(z) = 1 = 1 第页 z(z) 1
(13)

过滤器H(H)(z(z))在时域中由脉冲响应函数表示小时(n个).

音高分析

由于声带振动,语音语音片段表现出一定的长期相关性。振动频率,称为音高,反映在时域语音波形的准周期性行为中。自相关方案用于计算基音滞后(基音频率的倒数)。由于LP分析帧可能包含多个基音周期,因此基于子帧执行基音分析以提取一个基音增益和一个基频延迟。使用一个基音增益和一个基频滞后来表示每个语音帧中的周期性[19]. 在基音分析算法中,首先对每个语音帧进行开环分析以估计基音周期。基于加权语音信号的开放式基音估计 w个 (n个)通过感知加权滤波器对输入语音信号进行滤波得到, w个 由以下公式给出:

W公司 z(z) = A类 Z轴 / 1 A类 Z轴 / 2 = 1 + = 1 10 1 z(z) 1 1 + = 1 10 2 z(z) 1
(14)

也就是说,在一个大小的框架中L(左),加权语音由以下公式给出:

S公司 w个 n个 = n个 + = 1 10 1 n个 = 1 10 2 w个 n个 , n个 = 0 , , L(左) 1
(15)

剩余励磁

信号e(n个)去除长期和短期冗余后,其形状呈噪声状,频谱平坦。显示去除长相关和短相关后的剩余信号。该信号可以由随机信号调制。由于随机信号没有相关性,该残差将使用随机信号发生器在接收器侧生成。这样,我们减少了隐藏在掩护信号中的信息量。如前所述,语音分析算法基于两个阶段:LP分析以获得第页LP系数, ( = 1, …, 第页)和基音分析阶段,以提取基音增益和俯仰延迟d日.表1显示了窄带语音的LP模型的使用参数。

图3
图3

去除长相关和短相关后的剩余信号。

表1LP模型参数

LP模型参数调整

由于应用于语音频谱的绝对值,频谱振幅必须始终为正值。在幅度谱中直接嵌入LP系数C将严重破坏覆盖信号,因为LP参数可能具有负值。为了解决这个问题,我们建议将LP系数C转换为它们的频率表示之一,例如LSF。如下式所示,LSF参数w个 都是有序的,都是肯定的。

0 w个 1 w个 2 w个 第页 π
(16)

由于基音延迟在20到147个样本之间变化,直接将基音延迟嵌入覆盖语音频谱将影响高频小幅度覆盖频谱分量。因此,在隐藏过程之前,需要将基音延迟标准化147,即最大基音延迟。标准化变桨延迟的值范围为0到1。因此,隐藏这些参数的最佳位置是最后一个覆盖语音频谱位置,因为最后一个分量的幅度非常小。

LSF提示

伊塔库拉[20]已建议LSF代表LPC。已经证明,它们获得了不同的优势属性,如有界范围、顺序排序和恒常性验证能力[21]. 此外,LSF系数有助于在频域表示中集成人类观测系统特性。根据ITU-T建议G.723.1,建议在需要将LPC参数转换为LSF时提取LSF参数[22]. 在LPC中,原始语音和预测语音之间的均方误差在短时间间隔内最小化,以产生独特的LP系数集。LPC滤波器的传递函数如下所示

H(H) z(z) = G公司 1 + k个 = 1 P(P) k个 z(z) k个
(17)

哪里P(P)预测顺序,G公司是收益,并且 k个 是LPC滤波器系数。这个传递函数的极点包括声道的极点和声源的极点。求解传递函数分母的根可以得到共振峰频率和对应于声源的极点。两个传递函数第页+1(z(z))和P(P)第页+1(z(z))分别称为差分多项式和和多项式H(H)(z(z)). 差分多项式如下所示:

第页 + 1 = A类 第页 z(z) z(z) 第页 + 1 ) A类 第页 z(z) 1
(18)

和多项式由下式给出:

P(P) 第页 + 1 = A类 第页 z(z) + z(z) 第页 + 1 A类 第页 z(z) 1
(19)

哪里A类 第页 (z(z))是的分母H(H)(z(z)). 多项式包含偶数值的零第页z=−1和z(z) = 1.可以去除这些根,以获得以下数量:

^ z(z) = 第页 + 1 z(z) 1 + z(z) = β 0 z(z) 第页 + β 1 z(z) 第页 1 + + β 第页 ,
(20)

P(P) ^ z(z) = P(P) 第页 + 1 z(z) 1 + z(z) = α 0 z(z) 第页 + α 1 z(z) 第页 1 + + α 第页 .
(21)

LSF是 ^ z(z) P(P) ^ z(z) 并且在单位圆上彼此交替。请注意第页+1(z(z))是反对称多项式P(P)第页+1(z(z))是对称多项式。多项式 ^ z(z) P(P) ^ z(z) 派生自第页+1(z(z))和P(P)第页+1(z(z))都是对称的。因此,对于偶数值第页我们可以导出以下属性:

α = α 第页 , 0 第页 2
(22)

因此,(20)和(21)可以写成如下:

^ z(z) = z(z) 第页 / 2 β 0 z(z) 第页 / 2 + z(z) 第页 / 2 + β 1 z(z) 第页 / 2 1 + z(z) 第页 / 2 1 + + β 第页 / 2 ,
(23)

P(P) ^ z(z) = z(z) 第页 / 2 α 0 z(z) 第页 / 2 + z(z) 第页 / 2 + α 1 z(z) 第页 / 2 1 + z(z) 第页 / 2 1 + + α 第页 / 2
(24)

通过放置z(z) = e(电子)jw公司然后z(z) + z(z)−1 = 2科斯(w个),我们根据实际根方案ITU-T建议G.723.1,获得了要求解的方程,以便找到LSF:

^ e(电子) jw公司 = 2 e(电子) j个 第页 w个 / 2 β 0 余弦 第页 2 w个 + β 1 余弦 第页 2 2 w个 + + 1 2 β 第页 / 2
(25)

P(P) ^ e(电子) jw公司 = 2 e(电子) j个 第页 w个 / 2 α 0 余弦 第页 2 w个 + α 1 余弦 第页 2 2 w个 + + 1 2 α 第页 / 2
(26)

输入语音被分割成不同的帧。此外,每个帧被细分为四个子帧。在这些子帧上,进行LPC分析。转换第页LPC系数转换为第页在最后一个子帧中执行相应的LSF。对于三个子帧,通过在当前帧和前一帧的LSF之间执行线性插值来获得LSF。

为了达到这个目的,单位圆被分成512个相等的间隔,每个间隔的长度π/256.的根(LSF)(z(z))和P(P)(z(z))沿着单位圆从0到π搜索多项式。在观察到符号变化的区间上执行线性插值,以找到多项式的零点。根据[20],如果间隔之间出现符号变化 − 1,按如下方式执行一阶插值:

^ = 1 + P(P) z(z) 1 P(P) z(z) 1 + P(P) z(z)
(27)

哪里 ^ 是插值解指数|P(P)(z(z)) |是区间和多项式计算结果的绝对大小(类似于 − 1). 由于LSF在从0到π的区域内交错,因此在P(P)(z(z))在每个步骤。通过计算不同的多项式来搜索下一个解(z) ,从当前解决方案开始[23,24]. 因此,有两个主要原因促使我们选择考虑LSF表示。第一个原因与LP系数对误差非常敏感这一事实有关。这些系数的直接量化可能会产生不稳定的LP滤波器。第二个原因与LSF广泛用于传统编码方案有关。这避免了加入可能需要对当前设备和编解码器进行重大且昂贵修改的新参数。

语音隐藏算法

我们提出了一种新的语音信号隐写方法,将秘密语音信号嵌入小波域的系数中。DWT将覆盖语音信号分解为低频和高频分量。对于语音信号来说,低频分量是语音感知最重要的部分。另一方面,高频成分影响信号的味道或细微差别(噪音)。让我们考虑一下人类的声音。如果我们去掉高频成分,声音听起来就不同了,但我们仍然可以分辨出所说的内容。然而,若我们去掉足够数量的低频分量,我们就会听到胡言乱语,无法理解所说的内容。因此,我们决定在小波域中隐藏高频信息。此外,在小波分析中,我们可以对语音信号进行近似和细节分割。近似值是信号的高标度、低频分量。细节是低尺度、高频分量。如图所示4经过两个互补滤波器后,两个信号从原始信号中出现。

图4
图4

DWT系数的1级分解。

根据预期结果,可以使用多种小波。每个小波家族(如Haar或Daubechies家族)都是小波子类,通过滤波器系数的数量和迭代级别来区分。在隐写术中,无论使用何种隐藏数据的算法,我们都需要在原始信号中嵌入消息后重建语音信号。然后,可以使用性能度量来比较原始语音信号和隐写语音。在我们的方法中,在使用DWT分解语音信号以隐藏消息语音信号之后,我们使用IDWT重构信号。语音隐藏算法如图所示5为了便于隐藏过程,必须对秘密和掩护语音进行预处理。封面演讲分为L(左)-毫秒帧。每个时间帧的DFT1(m) 定义为0≤ ≤  − 1使用DWT-FFT方法计算。将获得的语音谱分解为幅度谱和相位谱。每个L(左)-密信的毫秒数2(m) 被嵌入到覆盖信号的幅度频谱的低幅度高频区域中。

图5
图5

显示嵌入秘密语音信号的一般步骤的框图 2 在另一个掩护语音信号内 1 产生隐写信号 .

秘密语音隐藏

为了隐藏秘密语音,将小波变换应用于语音覆盖语音帧中,分离出高频和低频区域。然后将FFT应用于产生频谱的高频小波部分S公司1(k个)(k个 = 0, …, M(M) − 1). 谱被分解为幅度谱|S公司1(k个)|和相位谱ϕ1(k个).

震级谱是对称的。隐藏过程包括表示L(左)前半部分的最后元素|S公司1(k个)|通过LP参数V(V)2秘密演讲的2().

由此产生的震级谱,表示为|S公司(k个)|,由以下表达式定义:

S公司 k个 = { S公司 1 k个 , k个 = 0 , , M(M) 2 第页 V(V) 2 k个 M(M) 2 第页 2 , k个 = M(M) 2 第页 2 , , M(M) 2 1 V(V) 2 M(M) 2 + 第页 + 1 k个 , k个 = M(M) 2 , , M(M) 2 + 第页 + 1 S公司 1 k个 , k个 = M(M) 2 + 第页 + 2 , , M(M) 1
(28)

上述等式中的第三个右项用于保持DFT对称性。这些修改产生了新的语音信号.其谱是震级谱的简单组合|S公司(k个)|和覆盖相位谱ϕ1(k个),

S公司 k个 = S公司 k个 e(电子) j个 ϕ 1 k个 k个 = 0 , , M(M) 1
(29)

时间帧合成(stego)信号(),  = 0, …, M(M) − 1,由IDWT获得,

= IDWT公司 S公司
(30)

隐身信号()是复合信号,因为它包含L(左)-ms封面演讲1()和L(左)-ms保密信号2().

能量归一化

为了提高语音质量,我们通过将所有隐藏参数归一化为原始谱幅值的总能量来保留语音能量。然而,能量的保存需要隐藏能量作为副信息。在接收器处,此能量将用于将隐藏信息重新缩放为其原始值。缩放系数由提供

= E类 c(c) 1 + E类 LSF机密
(31)

哪里E类 c(c) 是覆盖语音频谱的能量E类LSF公司是LSF矢量的能量。

秘密语音重建

秘密语音由隐写语音通过后续的隐藏算法以翻转顺序重建。6说明了提取隐藏信息和重构秘密语音消息的步骤。第一步包括执行DWT。通过FFT将利用DWT获得的高频变换为其对应的频谱。然后从语音频谱中获取幅度谱。秘密语音参数是从嵌入到隐写语音信号频谱幅度中的相同位置提取的。LSF矢量被转换回P(P)-顺序LPC向量(1, …,  第页 )构建LP合成过滤器H(H)(z(z)).

H(H) z(z) = 1 1 = 1 10 z(z)
(32)
图6
图6

显示检索秘密语音信号的一般步骤的框图 S公司 2 从密语中 S公司 .

随机激励信号e(电子)(n个)应用于基音和LP合成滤波器系列。信号ŝ(n个)在LP合成滤波器的输出端,是原始秘密消息的再现(n个). 由于从隐写语音中提取的LPC模型参数值与嵌入参数具有近似相同的精确值,因此重构的秘密语音信号不受隐藏过程的影响。与原始秘密信号相比,该信号中出现的轻微退化是由LPC模型和LSF转换引起的。

评价

实验装置

为了评估所提出的隐藏技术的性能,我们使用NOIZEUS数据库进行了几次仿真[2527]. 这个语料库包含了来自IEEE句子数据库的30个句子,这些句子是用塔克-戴维斯技术公司的录音设备在一个隔音的房间里录制的。这些句子由三名男性和女性演讲者组成。这30个句子:15名男性和15名女性演讲者包含了美语中的所有音素。这些句子最初是在25 kHz的频率下采样的,下采样到8 kHz。语音文件的长度在0.02到0.03毫秒之间变化。在比较评估中,我们进行了四组测试。在第一组模拟中,我们将15个男性语音文件中的每一个嵌入到15个女性语音文件中。在第二组测试中,我们将15个女性语音文件中的每一个隐藏在15个男性语音文件中。在第三组测试中,我们将15个男性语音信号中的每一个都嵌入到剩下的14个男性语音文件中。在最后一组测试中,我们在剩下的相同性别的语音文件中隐藏了15个女性语音片段中的每一个。每个集合针对五个不同的小波族(Haar、Daubechies、Symlets、Coiflets和BiorSpline)进行迭代。我们总共进行了4210次计算机模拟((15*15*2+14*14*2)*5)。

为了评估DWT-FFT技术的影响,我们进行了两个不同的比较实验,分别使用DWT-FFT方法和仅使用FFT。

评价结果

任何隐写系统的性能度量之一是覆盖信号和隐写信号之间的比较。在本研究中,我们使用了主观和客观的绩效指标。在主观测量方面,我们进行了几次非正式的听力对比测试。在这些模拟中,我们随机播放了封面演讲1()和stego信号()给几个听众。每个听众都必须在封面和隐藏信号中识别出质量更好的语音文件。大多数听众无法区分这两个语音文件。作为客观测量,我们使用了分段信噪比(SegSNR)和语音质量感知评估(PESQ)。PESQ测量为语音质量评估提供了一种客观和自动化的方法。SegSNR定义如下

分段信噪比 分贝 = 10 日志 10 = 0 159 1 2 = 0 159 1 2
(33)

哪里1分别是封面和stego语音文件。在本研究中,我们将语音文件分割成20毫秒的帧(L(左) = 20) (或160个样本(M=160))。在表中2,我们使用DWT-FFT算法给出了四组不同测试的平均SegSNR值。在表中,我们仅使用FFT表示同一组测试的平均SegSNR。FFT产生的隐写信号的质量优于DWT-FFT。然而,DWT-FFT提高了隐藏算法对隐写分析技术的鲁棒性。我们使用一些现有的小波来比较不同小波对语音质量的影响。所有使用的小波的分解都是在一个级别上完成的。4显示了四组不同测试的不同小波的结果。可以注意到,不同的小波具有几乎相似的结果;因此,该方法不依赖于特定类型的小波。不同小波的SegSNR值差别不大。SegSNR只是一个指示性的性能度量。PESQ是评估隐藏技术性能的更可靠方法。PESQ测量为语音质量评估提供了一种客观和自动化的技术。使用带有主观意见得分的PESQ算法可以预测语音样本的退化。一般来说,PESQ的得分从0.5分到4.5分,分数越高表示质量越好[28,29]. 在我们的实验中使用了PESQ方法来评估隐去语音。参考信号是指原始(覆盖)信号,降级信号是指隐藏秘密消息的隐藏信号。在表中5,我们给出了通过两种隐藏技术(仅使用DWT-FFT和FFT)获得的男性和女性说话人的平均PESQ值。7显示了2种隐藏方法的20个语音信号的PESQ变化。对于DWT-FFT和FFT算法,隐藏方法分别达到3.68和4.14 PESQ平均值。8显示了隐藏秘密信号的LPC参数后覆盖信号的幅度谱和隐写语音的对应关系。PESQ分析表明,隐写和覆盖语音具有相似的主观质量。图中的掩蔽和隐秘语音谱图之间的相似性支持了这一结果9.客观和主观性能测试表明,所提出的隐藏技术不会怀疑隐写语音中是否存在隐藏消息,同时能够在接收方恢复原始秘密消息的可理解副本。对原始秘密言语信息和重新组合的秘密言语信息进行的非正式听力测试支持其他客观表现测量的结果。重构的秘密演讲ŝ(n个)(从DWT-FFT和FFT隐藏方法来看)仍然完全可以理解,甚至一些感知失真也是显而易见的。我们关心的是语言的可懂度,因为目标是将秘密信息传递给预期的接收者。6显示了隐藏算法对SegSNR保密语音的影响。

表2基于DWT-FFT的隐藏方法的信噪比
表3基于FFT的隐藏方法的信噪比
表4基于DWT-FFT的隐写系统的不同小波结果
表5DWT-FFT的PESQ和基于FFT的隐藏方法
图7
图7

DWT-FFT和基于FFT的隐写术系统之间PESQ变化的比较:PESQ封面演讲得分1()和stego信号()使用DWT-FFT和FFT隐藏方法的语音。

图8
图8

(a)封面演讲的幅度谱 1 ( )(b)隐秘演讲。

图9
图9

(a)封面讲话,(b)在封面讲话中隐藏男性秘密信息后的相应stego讲话的频谱图。

表6基于SegSNR的隐藏过程对秘密语音的影响

结论

在本文中,我们提出了一种用于保密应用的新隐写系统。所提出的隐藏方法产生的隐写语音文件与其等效的覆盖语音文件无法区分。此外,我们的隐藏技术的复杂性非常高,任何窃听者都无法提取隐藏的信息,即使怀疑存在秘密消息。因为我们的目标是使对手的隐写分析(试图从隐写信号中提取秘密消息)更加复杂。我们的方法首先使用DWT利用高频,然后利用语音幅度谱的低通频谱特性,在覆盖语音信号的低幅度高频区域隐藏另一个语音信号。对女性和男性演讲者的实验模拟表明,我们的方法能够产生一种隐秘语音,这种语音与掩护语音无法区分。接收器仍然能够恢复机密语音信息的清晰副本。在未来的工作中,我们将努力将我们的方法扩展到涉及IP语音语音保密的应用程序,即在传输前压缩stego语音。这就提出了在解码压缩的隐写语音后保留秘密语音的问题。

缩写

干膜厚度:

离散傅里叶变换

载重吨:

离散小波变换

载重吨:

FFT离散小波变换-快速傅里叶变换

快速傅里叶变换:

快速傅里叶变换

国际干重:

逆离散小波变换

国际金融时报:

快速傅里叶逆变换

有限合伙人:

线性预测

液化石油气:

线性预测编码

最低有效位:

最低有效位

LSF:

线谱频率

公共工程服务质量:

语音质量的感知评估

分段SNR:

分段信噪比

不锈钢:

扩频。

工具书类

  1. 卡恩·D:隐写术的历史。计算机科学课堂讲稿.1174版。纽约州施普林格;1996:11023.

    谷歌学者 

  2. Johnson NF,Jajodia S:探索隐写术:看不见的东西。IEEE计算。1998, 31(2):26-34.

    第条 谷歌学者 

  3. Sridevi R,Damodaram A,Narasimham SVL:通过改进的LSB算法和增强安全性的强加密密钥实现高效的音频隐写方法。J.西奥。申请。技术信息。2009, 5(6):768-771.

    谷歌学者 

  4. Bender W,Gruhl D,Morimoto N:数据隐藏技术。IBM系统。J。1996, 35(3):313-336.

    第条 谷歌学者 

  5. Kirovski D,Malvar H:音频信号的扩频水印。IEEE传输。信号处理。2003, 51(4):1020-1033. 10.1109/TSP.2003.809384

    第条 数学科学网 谷歌学者 

  6. 黄D,Yeo T:稳健且不易听懂的多音音频水印,第三届IEEE Pacific-Rim多媒体会议论文集,台北多媒体信息处理进展.中国;2002:615-622.

    谷歌学者 

  7. Shirali-Shahreza S,Shirali_ShahrezaM:沉默语音间隔中的隐写术,第四届IEEE智能信息隐藏和多媒体信号处理国际会议论文集(IIH-MSP 2008).中国哈尔滨;2008年8月15日至17日:605-607。

    谷歌学者 

  8. Misiti M、Misiti Y、Oppenheim G、Poggi JM:Matlab小波工具箱(4.0版):教程和参考指南数学美国纳蒂克;2007年1月。

    谷歌学者 

  9. Lin B,Nguyen B,Olsen ET音频、图像和电信信号处理方法。正交小波与信号处理编辑:Clarkson PM,Stark H.Academic,London;1995:1-70. 编辑:

    谷歌学者 

  10. Mallat S公司:信号处理的小波巡视。学术,加利福尼亚州圣地亚哥;1998.

    谷歌学者 

  11. Nievergelt Y公司:小波变得简单Birkhäuser,波士顿;1999

     谷歌学者 

  12. Ooi J,Viswanathan V:小波在语音处理中的应用。 现代语音处理方法。编辑:Ramachandran RP,Mammone R.Kluwer学术出版社,波士顿;1995:449-464.

    第章 谷歌学者 

  13. Elliott DF,Rao KR:快速变换:算法《分析与应用》(学术出版社,纽约;1982年)。

    谷歌学者 

  14. Andreas S、Ed PT、Venkatraman A:音频信号处理和编码Wiley-Interscience Publication,美国;2006年,ISBN 978-0-471-79147-8,TK5102.92.S73

    谷歌学者 

  15. Strange W,Edman TR,Jenkins JJ:元音识别中的声学和语音因素。《心理学实验杂志》。嗯,感觉到了。执行。1979, 5(4):643-656.

    第条 谷歌学者 

  16. CY Espy-Wilson:美国英语中区分半元音的语言特征的声学度量。J.声学。Soc.美国1992, 92: 736-757. 10.1121/1.403998

    第条 谷歌学者 

  17. Childers DG,Hahn M,Larr JN:无声和浊音/清音/混合激励(四向)语音分类。IEEE传输。ASSP公司1989, 37(11):1771-1774. 10.1109/29.46561

    第条 谷歌学者 

  18. 奥肖内西D:语音通信:人与机器第二版。Wiley-IEEE出版社,纽约州纽约市;1999

     谷歌学者 

  19. Makhoul J:线性预测:教程回顾。程序。电气与电子工程师协会1975, 63(5):561-580.

    第条 谷歌学者 

  20. Itakura F:语音信号线性预测系数的线谱表示。J.声学。Soc.美国1975年,57(1):第35页。10.1121/1.380398

    第条 谷歌学者 

  21. 奥本海姆AV、谢弗WR、巴克AJ:离散时间信号处理新泽西州上马鞍河Prentice Hall;1999:468-471. 国际标准书号0-13-754920-2

    谷歌学者 

  22. 赫斯·W:语音信号的基音确定.施普林格,柏林;1983

     谷歌学者 

  23. 宋凤、娟乙:线谱对(LSP)和语音数据压缩。IEEE声学、语音和信号处理国际会议论文集(ICASSP’84).美国加利福尼亚州圣地亚哥9;1984年3月37日至40日。

    谷歌学者 

  24. 国际电联电话:建议G.723.1。用于以5.3和6.3 kbit/s速率传输多媒体通信的双速率语音编码器. 1996.

    谷歌学者 

  25. Hu Y,Loizou P:语音增强算法的主观评估和比较。语音通信2007, 49: 588-601. 2016年10月10日/j.specom.2006.12.006

    第条 谷歌学者 

  26. Hu Y,Loizou P:语音增强客观质量度量的评估。IEEE传输。语音音频处理。2008, 16(1):229-238.

    第条 谷歌学者 

  27. 马J,胡Y,Loizou P:基于新的频带重要性函数预测噪声条件下语音可懂度的客观测量。J.声学。美国南部。2009, 125(5):3387-3405. 10.1121/1.3097493

    第条 谷歌学者 

  28. 国际电联:语音质量的感知评估(PESQ)和窄带电话网络和语音编解码器端到端语音质量评估的客观方法,ITU-T建议862. 2000.

    谷歌学者 

  29. ITU-T建议:国际电信联盟语音质量主观测定方法.日内瓦;2003:800.

    谷歌学者 

下载参考资料

作者信息

作者和附属机构

作者

通讯作者

与的通信西瓦尔·雷基克.

其他信息

竞争性利益

作者声明,他们没有相互竞争的利益。

作者提交的原始图像文件

权利和权限

开放式访问本文根据Creative Commons Attribution 2.0 International License的条款分发(https://creativecommons.org/licenses/by/2.0)它允许在任何介质中不受限制地使用、分发和复制原始作品,前提是正确引用了原始作品。

转载和许可

关于本文

引用这篇文章

Rekik,S.、Guerchi,D.、Selouani,SA。等。使用小波和傅里叶变换的语音隐写术。J语音音乐程序。 2012, 20 (2012). https://doi.org/10.1186/1687-4722-2012-20

下载引文

  • 收到:

  • 认可的:

  • 出版:

  • 内政部:https://doi.org/10.1186/1687-4722-2012-20

关键词