王刚,加州大学圣巴巴拉分校;王天一,加州大学圣巴巴拉分校和清华大学;郑海涛,赵本义,加州大学圣巴巴拉分校
最近在安全和系统方面的工作采用了机器学习(ML)技术来识别不当行为,例如社交网络中的垃圾邮件和假冒(Sybil)用户。然而,ML模型通常派生自固定的数据集,必须定期重新培训。在对抗环境中,攻击者可以通过修改自己的行为来适应,甚至可以通过污染训练数据来破坏ML模型。
在本文中,我们在检测恶意众包系统的背景下,对针对机器学习模型的对抗性攻击进行了实证研究,在该系统中,站点将付费用户与愿意进行恶意活动的工作人员联系起来。通过使用人工,这些系统可以轻松绕过部署的安全机制,例如验证码。我们收集了一个恶意工作人员在中国推特微博上积极执行任务的数据集,并使用它开发基于ML的检测器。我们表明,传统的ML技术在检测方面是准确的(95%–99%),但很容易受到对手的攻击,包括简单的逃避攻击(工人改变他们的行为)和强大中毒攻击(管理员篡改培训集的地方)。我们使用地面实况数据在一系列实际对抗模型中对ML分类器进行评估,从而量化ML分类器的鲁棒性。我们的分析详细介绍了针对ML模型的实际对抗性攻击,并帮助防御者在设计和配置ML检测器时做出明智的决定。
USENIX致力于开放访问我们活动上展示的研究。活动开始后,所有人都可以免费获得论文和会议记录。活动结束后发布的任何视频、音频和/或幻灯片也免费向所有人开放。支持USENIX以及我们对开放存取的承诺。
下载音频