×

基于DNN的抗去同步攻击的语音水印。 (英语) Zbl 07741299号

摘要:去同步攻击被证明是音频水印系统面临的最大挑战,因为它们会导致信号载波和水印之间的失准。本文提出了一种基于DNN的语音水印系统,该系统由两个对抗性网络联合训练一组去同步攻击来嵌入随机生成的水印。检测器神经网络通过空间金字塔池层进行扩展,以处理受这些攻击影响的信号。为了实现鲁棒性,提出了一种引入渐进攻击的上述DNN系统的详细训练过程。在语音数据集上进行的实验表明,根据测试的所有基准,该系统取得了令人满意的结果。水印嵌入后,系统保持了信号质量。最重要的是,该系统能够抵抗所有考虑到的去同步攻击。大多数攻击平均导致不到1.70%的错误检测水印比特,在这方面优于比较技术。

MSC公司:

2017年10月68日 人工神经网络与深度学习
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Charpentier,F.和Stella,M.,《使用重叠添加技术进行语音波形级联的双音合成》,载于ICASSP’86:IEEE Int.Conf.Acoustics,speech,and Signal Processing,第11卷,日本东京,1986年,第2015-2018页。
[2] Cox,I.J.、Kilian,J.、Leighton,F.T.和Shamoon,T.,多媒体安全扩频水印,IEEE Trans。图像处理。6(12)(1997)1673-1687。
[3] Cui,Z.和Bao,C.,语音增强中基于DNN的掩模近似的幂指数加权准则,IEEE信号处理。信函28(2021)618-622。
[4] Cybenko,G.,通过sigmoid函数的叠加进行逼近,数学。控制信号系统2(1989)303-314·Zbl 0679.94019号
[5] Dabas,N.和Singh,R.P.,ELM-内核和基于简化内核ELM的水印方案,J.Inf.Secur。申请46(2019)173-192。
[6] Drurović,I.、Stanković,S.和Pitas,I.,分数傅里叶变换域中的数字水印,J.Netw。计算。申请24(2)(2001)167-173。
[7] Dozat,T.,《将Nesterov动量纳入Adam》,载于《2016年国际Conf.学习代表》,波多黎各圣胡安,2016年。
[8] Flanagan,J.L.和Golden,R.M.,相位声码器,贝尔系统。技术杂志J.45(9)(1966)1493-1509。
[9] Guariglia,E.,Harmonic Sierpinski垫片和应用,Entropy20(9)(2018)714。
[10] Guariglia,E.,《素数、分形与图像分析》,Entropy21(3)(2019)304·Zbl 1459.26011号
[11] Guariglia,E.和Guido,R.,Chebyshev小波分析,J.Funct。太空2022(2022)1-17。
[12] Guariglia,E.和Silvestrov,S.,《正定分布和小波的分数小波分析》,载于《工程数学II》(Springer International Publishing,Cham,2016),第337-353页·Zbl 1365.65294号
[13] He,K.,Zhang,X.,Ren,S.和Sun,J.,用于视觉识别的深度卷积网络中的空间金字塔池,收录于《计算机视觉-ECCV 2014》(Springer International Publishing,2014),第346-361页。
[14] Hornik,K.,Stinchcombe,M.和White,H.,多层前馈网络是通用逼近器,神经网络2(5)(1989)359-366·Zbl 1383.92015年
[15] Hu,H.-T.和Lee,T.-T.,通过改进的自适应平均调制和基于感知的DWT域加性调制实现的帧同步盲语音水印,Digit。信号处理87(2019)75-85。
[16] Hua,G.,Goh,J.和Thing,V.L.L.,具有优化不可感知性和鲁棒性的基于时间扩散回声的音频水印,IEEE/ACM Trans。《语音语言过程》23(2)(2015)227-239。
[17] Huang,Y.,Niu,B.,Guan,H.和Zhang,S.,利用自适应嵌入参数和PSNR保证增强图像水印,IEEE Trans。多用途。21(10)(2019)2447-2460。
[18] 黄,M.-J.,李,J.-S.,李,M.-S.和康,H.-G.,基于SVD的立体声音频信号自适应QIM水印,IEEE Trans。Multimed.20(1)(2018)45-54。
[19] Jadda,A.和Prabha,I.S.,《通过自适应维纳滤波和优化的深度学习框架进行语音增强》,《国际小波多分辨率》。《信息处理》21(2023)2250032。
[20] Jiang,W.,Huang,X.和Quan,Y.,《使用全局特征和自适应帧分割对抗同步攻击的音频水印算法》,《信号处理》162(2019)153-160。
[21] Kandi,H.、Mishra,D.和Gorthi,S.R.S.,探索卷积神经网络用于鲁棒图像水印的学习能力,计算。证券65(2017)247-268。
[22] D.P.Kingma和J.Ba,Adam:随机优化方法,CoRR,预印本(2014),arXiv:abs/1412.6980。
[23] Kurková,V.,Kolmogorov定理和多层神经网络,《神经网络》5(3)(1992)501-506。
[24] Leung,H.Y.,Cheng,L.M.和Cheng,L L.L.,基于HVS模型的使用选择性曲线系数的鲁棒水印方案,《国际小波多分辨率》。《信息处理》08(2010)941-959·Zbl 1203.94019号
[25] Li,S.,Kang,X.,Fang,L.,Hu,J.和Yin,H.,《像素级图像融合:现状调查》,Inf.Fusion33(2017)100-112。
[26] Liang,X.和Xiang,S.,基于高阶差分统计的鲁棒可逆音频水印,《信号处理》173(2020)107584。
[27] Liu,Z.,Huang,Y.和Huang(J.),基于补丁的音频水印对去同步和重新捕获攻击的鲁棒性,IEEE Trans。《Inf.Forensic Sec.14(5)》(2019)1171-1180。
[28] Liu,Y.,Xia,C.,Zhu,X.和Xu,S.,使用自深匹配和提议超胶水的两阶段复制-移动伪造检测,IEEE Trans。图像处理31(2021)541-555。
[29] Lopac,N.,Hríic,F.,Vuksanovic,I.P.和Lerga,J.,使用深度学习从科恩的时频表示类中检测高噪声中的非平稳GW信号,IEEE Access10(2022)2408-2428。
[30] Maity,S.P.和Kundu,M.K.,《使用小波的扩频图像水印性能改进》,《国际小波多分辨率》。《信息处理》09(2011)1-33·Zbl 1208.94060号
[31] Malah,D.,《语音信号谐波带宽减少和时间缩放的时域算法》,IEEE Trans。阿库斯特。语音信号处理。27(2)(1979)121-133。
[32] Mallat,S.,《多分辨率信号分解理论:小波表示》,IEEE Trans。模式分析。机器。《情报》11(7)(1989)674-693·Zbl 0709.94650号
[33] Mun,S.-M.,Nam,S.-H.,Jang,H.,Kim,D.和Lee,H.-K.,从攻击中寻找鲁棒域:盲水印的学习框架,Neurocomputing337(2019)191-202。
[34] Natgunanthan,I.,Xiang,Y.,Hua,G.,Beliakov,G.和Yearwood,J.,基于补丁的多层音频水印,IEEE/ACM Trans。《语音语言过程》25(11)(2017)2176-2187。
[35] Nesterov,Y.,具有收敛速度的无约束凸最小化问题的一种方法\(\text{O}(1/k^2)\),Dokl。阿卡德。诺克SSSR269(1983)543-547。
[36] Oppenheim,A.,《离散时间信号处理》(Prentice Hall,Upper Saddle River,NJ,1999)。
[37] Pavlović,K.、Kovaĉević,S.、Djurović、I.和Wojciechowski,A.,联合训练的嵌入器和检测器使用DNN的鲁棒语音水印,数字。信号处理.122(2021)103381。
[38] Peng,H.,Li,B.,Luo,X.,Wang,J.和Zhang,Z.,一种使用核fisher判别分析的基于学习的音频水印方案,数字。信号处理。23(1)(2013)382-389。
[39] Rabiner,L.和Schafer,R.,《语音信号的数字处理》(Prentice Hall,Englewood Clifs,NJ,1978)。
[40] Rix,A.W.、Beerends,J.G.、Hollier,M.P.和Hekstra,A.P.,语音质量感知评估(PESQ)——电话网络和编解码器语音质量评估的新方法,收录于2001年IEEE国际声学、语音和信号处理程序。(目录号01CH37221),第2卷,美国犹他州盐湖城,2001年,第749-752页。
[41] Ronneberger,O.,Fischer,P.和Brox,T.,《U-net:生物医学图像分割的卷积网络》,载于《国际医学图像计算与计算机辅助干预》,第9351卷(新加坡,2015年),第234-241页。
[42] Stankovic,S.、Djurovic,I.和Pitas,I.,《使用二维Radon-Wigner分布的空间/空间-频域水印》,IEEE Trans。图像处理。10(4)(2001)650-658·Zbl 1036.68626号
[43] Steinebach,M.、Petitcolas,F.A.P.、Raynal,F.、Dittmann,J.、Fontaine,C.、Seibel,C.、Fates,N.和Ferri,L.,《StirMark基准:音频水印攻击》,Proc。《国际信息技术:编码和计算》,内华达州拉斯维加斯,2001年,第49-54页。
[44] Wang,S.,Yuan,W.和Unoki,M.,基于音频信号时频相似性的多子空间回波隐藏,IEEE/ACM Trans。《语音语言处理》28(2020)2349-2363。
[45] Xiang,Y.,Natgunanathan,I.,Peng,D.,Hua,G.和Liu,B.,使用多个正交PN序列和可变嵌入强度和极性的扩频音频水印,IEEE/ACM Trans。《语音语言过程》26(3)(2018)529-539。
[46] Xiao,D.,Zhao,A.和Li,F.,基于置乱和Kronecker压缩感知的加密图像鲁棒水印方案,IEEE信号处理。Lett.29(2022)484-488。
[47] Zhao,J.,Zong,T.,Xiang,Y.,Gao,L.,Zhou,W.和Beliakov,G.,基于频率奇异值系数修改的去同步攻击弹性水印方法,IEEE/ACM Trans。《音频语音语言处理》29(2021)2282-2295。
[48] Zheng,X.,Tang,Y.和Zhou,J.,无向图上信号的自适应多尺度小波分解框架,IEEE Trans。信号处理。67(7)(2019)1696-1711·Zbl 1458.94160号
[49] 周德兴,深度卷积神经网络的普遍性,应用。计算。哈蒙。分析48(2)(2020)787-794·兹比尔1434.68531
[50] Zhu,J.,Kaplan,R.,Johnson,J.和Fei-Fei,L.,《隐藏:用深层网络隐藏数据》,第15届欧洲会议,德国慕尼黑,2018年,第682-697页。
[51] Zong,T.,Xiang,Y.,Natgunanathan,I.,Guo,S.,Zhou,W.和Beliakov,G.,基于鲁棒直方图形状的图像水印方法,IEEE Trans。电路系统。视频技术。25(5)(2015)717-729。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。