深度神经网络中基于完备性软件概念的解释

的一部分神经信息处理系统的进展33(NeurIPS 2020)

作者反馈 Bibtex公司 MetaReview公司 纸类 审查 补充的

作者

Chih-Kuan Yeh、Been Kim、Sercan Arik、Chun-Liang Li、Tomas Pfister、Pradeep Ravikumar

摘要

人类对高层决策的解释通常是根据决策所基于的关键概念来表达的。在本文中,我们研究了基于概念的深度神经网络(DNN)的可解释性。首先,我们定义了emph{完整性}的概念,它量化了一组特定的概念在解释模型预测行为方面的充分性,其假设是完整的概念得分是模型预测的充分统计信息。接下来,我们提出了一种概念发现方法,该方法旨在推断出一组完整的概念,这些概念被额外鼓励为可解释的,这解决了现有方法在概念解释方面的局限性。为了定义每个发现的概念的重要性得分,我们将游戏理论概念用于集合,并提出\emph{ConceptSHAP}。通过提出的指标和用户研究,在具有先验已知概念解释的合成数据集上,以及在真实世界的图像和语言数据集上进行,我们验证了我们的方法在寻找在解释决策时既完整又可解释的概念方面的有效性。