程思源(普渡大学)、陶冠宏(普渡学院)、刘英琪(普渡高校)、安胜伟(普渡院校)、徐向哲(普度大学)、冯世伟(普度学院)、沈光裕(普渡学校)、张开元(普渡大学)、徐秋玲(普渡校)、马世庆(罗格斯大学)、,张湘玉(普渡大学)
深度学习后门攻击具有与传统网络攻击类似的威胁模型。攻击取证是传统网络攻击的关键对抗措施,因此对于防御模型后门攻击至关重要。在本文中,我们提出了一种新的模型后门取证技术。给定一些攻击样本,例如带有后门触发器的输入,它们可能代表不同类型的后门,我们的技术会自动将其分解为干净的输入和相应的触发器。然后,它根据触发器的属性对其进行聚类,以实现自动攻击分类和总结。然后可以自动合成后门扫描仪,以在其他模型中找到相同类型后门的其他实例。我们对2532个预训练模型、10个流行攻击进行了评估,并与9个基线进行了比较,结果表明我们的技术非常有效。分解的干净输入和触发器与基本事实非常相似。合成的扫描器大大优于现有扫描器的普通版本,这些扫描器很难推广到不同类型的攻击。