摘要
网站指纹攻击允许本地被动窃听者利用客户端数据包序列的特征来确定客户端的网络活动。这些攻击破坏了隐私技术用户期望的隐私,包括代理、VPN或Tor等低延迟匿名网络。作为一门学科,网站指纹识别是机器学习技术在不同隐私领域的应用。为了执行网站指纹攻击,窃听攻击者被动记录客户端数据包的时间、方向和大小。然后,他使用机器学习算法对数据包序列进行分类,以确定其来自的网页。在这项工作中,我们构建并评估了三种新的网站指纹攻击:Wa-OSAD,一种使用修改后的编辑距离作为支持向量机内核的攻击,比之前的攻击具有更高的准确性;Wa-FLev,一种快速近似编辑距离计算的攻击,允许低资源攻击者同时对多个客户端进行匿名处理;和Wa-kNN,这是当前最先进的攻击,有效且快速,在开放世界场景中的误报率非常低。虽然我们的新攻击在理论场景中表现良好,但在野外和实验室中的情况有显著差异。具体来说,我们解决了有关训练集新鲜度的问题,拆分数据包序列,使每个部分对应一个网页访问(便于分类),并从数据包序列中消除误导性噪音。为了防御此类攻击,我们需要既有效又可证明的防御。在这项工作中,我们严格定义并激发了可证明防御的概念,并提出了三种新的可证明防御:Tamaraw,这是一种相对有效的方法,可以用固定速率的分组调度淹没信道;超序列,使用最小的公共超序列来节省带宽开销;和Walkie-Talkie,它使用半双工通信来显著减少带宽和时间开销,从而实现真正有效但可证明的防御。