超越$L_p$剪辑:针对ASR的基于均衡的心理声学攻击

哈迪·阿卜杜拉(Hadi Abdullah)、穆罕默德·萨吉杜尔·拉赫曼(Muhammad Sajidur Rahman)、克里斯蒂安·皮特斯(Christian Peeters)、卡西迪·吉布森(Cassidy Gibson)、华盛顿加西亚(Washington Garcia)、文森特·宾施凯德勒(Vincent Bind
第十三届亚洲机器学习会议论文集,PMLR 157:672-6882021年。

摘要

自动语音识别(ASR)系统将语音转换为文本,可分为两大类:传统的和完全端到端的。这两种类型都被证明容易受到对抗性音频示例的攻击,这些示例听起来对人耳无害,但却迫使ASR生成恶意转录。在这些攻击中,只有“心理声学”攻击才能创造出具有相对难以察觉的扰动的例子,因为它们利用了人类听觉系统的知识。不幸的是,现有的心理声学攻击只能应用于传统模型,而对于更新的、完全端到端的ASR来说,这种攻击已经过时。在本文中,我们提出了一种基于均衡的心理声学攻击,可以利用传统的和完全端到端的ASR。我们成功地演示了针对真实世界ASR的攻击,其中包括DeepSpeech和Wav2Letter。此外,我们采用了一项用户研究来验证我们的方法可以产生较低的听觉失真。具体来说,100名参与者中有80人投票支持我们的攻击音频样本,认为其噪音比现有的最先进的攻击更低。通过这一点,我们证明了两种类型的现有ASR管道都可以在最低程度上被利用来攻击音频质量。

引用本文


BibTeX公司
@诉讼中{pmlr-v157-abdullah21a,title={Beyond$L_{p}$Clipping:针对{ASRs}}的基于均衡的心理声学攻击,作者={Abdullah、Hadi和Rahman、Muhammad Sajidur和Peeters、Christian和Gibson、Cassidy和Garcia、Washington和Bindschaedler、Vincent和Shrimpton、Thomas和Traynor、Patrick},booktitle={第13届亚洲机器学习会议论文集},页数={672--688},年份={2021},editor={Balasubramanian,Vineeth N.和Tsang,Ivor},体积={157},series={机器学习研究论文集},月={11月17日--19日},publisher={PMLR},pdf={https://procedures.mlr.press/v157/abdullah21a/abdullah21\a.pdf},url={https://procedures.mlr.press/v157/abdullah21a.html},abstract={自动语音识别(ASR)系统将语音转换为文本,可以分为两大类:传统系统和完全端到端系统。这两种类型都被证明容易受到对抗性音频示例的攻击,这些示例听起来对人耳无害,但却迫使ASR生成恶意转录。在这些攻击中,只有“心理声学”攻击能够产生相对难以察觉的扰动,因为它们利用了人类听觉系统的知识。不幸的是,现有的心理声学攻击只能应用于传统模型,而对于更新的、完全端到端的ASR来说,这种攻击已经过时。在本文中,我们提出了一种基于均衡的心理声学攻击,可以利用传统的和完全端到端的ASR。我们成功地演示了针对真实世界ASR的攻击,其中包括DeepSpeech和Wav2Letter。此外,我们还通过用户研究验证了我们的方法可以产生较低的听觉失真。具体来说,100名参与者中有80人投票支持我们的攻击音频样本,认为其噪音比现有的最先进的攻击更低。通过这一点,我们证明了两种类型的现有ASR管道都可以在最低程度上被利用来攻击音频质量。}}
尾注
%0会议论文%T Beyond$L_p$Clipping:针对ASR的基于均衡的心理声学攻击%哈迪·阿卜杜拉%穆罕默德·萨吉杜尔·拉赫曼%克里斯蒂安·皮特斯%卡西迪·吉布森%华盛顿加西亚%文森特·宾施凯德勒%托马斯·施里普顿%帕特里克·特雷纳%B第13届亚洲机器学习大会论文集%C机器学习研究进展%D 2021年%E Vineeth N.Balasubramanian公司%E Ivor Tsang先生%F pmlr-v157-abdullah21a型%我PMLR%电话672--688%U型https://proceedings.mlr.press/v157/abdullah21a.html%第157页%X自动语音识别(ASR)系统将语音转换为文本,可分为两大类:传统的和完全端到端的。这两种类型都被证明容易受到对抗性音频示例的攻击,这些示例听起来对人耳无害,但却迫使ASR生成恶意转录。在这些攻击中,只有“心理声学”攻击能够产生相对难以察觉的扰动,因为它们利用了人类听觉系统的知识。不幸的是,现有的心理声学攻击只能应用于传统模型,而对于更新的、完全端到端的ASR来说已经过时了。在本文中,我们提出了一种基于均衡的心理声学攻击,可以利用传统的和完全端到端的ASR。我们成功地演示了针对真实世界ASR的攻击,其中包括DeepSpeech和Wav2Letter。此外,我们还通过用户研究验证了我们的方法可以产生较低的听觉失真。具体而言,100名参与者中有80人投票赞成\textit{all}我们的攻击音频样本比现有的最先进的攻击噪声更小。通过这一点,我们证明了两种类型的现有ASR管道都可以在最低程度上被利用来攻击音频质量。
亚太地区
Abdullah,H.、Rahman,M.S.、Peeters,C.、Gibson,C.、Garcia,W.、Bindschaedler,V.、Shrimpton,T.和Traynor,P.(2021年)。超越$L_p$剪辑:针对ASR的基于均衡的心理声学攻击。第十三届亚洲机器学习会议论文集,英寸机器学习研究进展157:672-688网址:https://proceedings.mlr.press/v157/abdullah21a.html。

相关材料