梯度凸轮

Grad-CAM:基于梯度定位的深层网络视觉解释。我们提出了一种技术来为来自大量基于CNN的模型的决策生成“视觉解释”,使它们更加透明。我们的方法-梯度加权类激活映射(Grad-CAM),利用任何目标概念的梯度,流入最终的卷积层,生成一个粗定位图,突出图像中的重要区域,用于预测概念。Grad-CAM适用于各种CNN模型族:(1)具有完全连接层的CNN,(2)用于结构化输出的CNN,(3)用于具有多模式输入或强化学习的任务中的CNN,无需任何架构更改或重新训练。我们将Grad-CAM与细粒度可视化相结合,创建一个高分辨率的类区分可视化,并将其应用于现成的图像分类、字幕和可视问答(VQA)模型,包括基于ResNet的体系结构。在图像分类模型的背景下,我们的可视化(a)可以洞察其失效模式,(b)对敌对图像具有鲁棒性,(c)在定位上优于以前的方法,(d)更忠实于底层模型,(e)通过识别数据集偏差帮助实现泛化。对于字幕和VQA,我们表明即使是非注意力模型也可以将输入本地化。我们设计了一种通过Grad-CAM识别重要神经元的方法,并将其与神经元名称相结合,为模型决策提供文本解释。最后,我们设计并进行了人体研究,以衡量Grad-CAM是否有助于用户建立对模型预测的适当信任,并表明Grad-CAM帮助未经训练的用户成功地识别出“强”节点和“弱”节点,即使两者的预测相同。