超越$L_p$剪辑:针对ASR的基于均衡的心理声学攻击
哈迪·阿卜杜拉(Hadi Abdullah)、穆罕默德·萨吉杜尔·拉赫曼(Muhammad Sajidur Rahman)、克里斯蒂安·皮特斯(Christian Peeters)、卡西迪·吉布森(Cassidy Gibson)、华盛顿加西亚(Washington Garcia)、文森特·宾施凯德勒(Vincent Bind
第十三届亚洲机器学习会议论文集,PMLR 157:672-6882021年。
摘要
自动语音识别(ASR)系统将语音转换为文本,可分为两大类:传统的和完全端到端的。这两种类型都被证明容易受到对抗性音频示例的攻击,这些示例听起来对人耳无害,但却迫使ASR生成恶意转录。在这些攻击中,只有“心理声学”攻击才能创造出具有相对难以察觉的扰动的例子,因为它们利用了人类听觉系统的知识。不幸的是,现有的心理声学攻击只能应用于传统模型,而对于更新的、完全端到端的ASR来说,这种攻击已经过时。在本文中,我们提出了一种基于均衡的心理声学攻击,可以利用传统的和完全端到端的ASR。我们成功地演示了针对真实世界ASR的攻击,其中包括DeepSpeech和Wav2Letter。此外,我们采用了一项用户研究来验证我们的方法可以产生较低的听觉失真。具体来说,100名参与者中有80人投票支持我们的攻击音频样本,认为其噪音比现有的最先进的攻击更低。通过这一点,我们证明了两种类型的现有ASR管道都可以在最低程度上被利用来攻击音频质量。
引用本文
相关材料