走向基于概念的自动解释

的一部分神经信息处理系统进展32(NeurIPS 2019)

作者反馈 Biptex公司 MetaReview公司 元数据 纸类 评论 补充的

作者

Amirata Ghorbani、詹姆斯·韦克斯勒、詹姆斯·邹(James Y.Zou)、比恩·金(Been Kim)

摘要

随着更多机器学习(ML)模型的部署和广泛应用,可解释性已经成为一个重要的研究课题。大多数当前的解释方法都通过特征重要性得分来提供解释,这些分数确定了对每个输入都重要的特征。然而,如何系统地总结和解释每样本特征重要性得分本身是一个挑战。在这项工作中,我们提出了基于\emph{conception}的解释的原则和必要性,它超越了逐样本特征来识别适用于整个数据集的更高层次的人类可理解概念。我们开发了一种新的算法ACE,用于自动提取视觉概念。我们的系统实验表明,alg发现了一些概念,这些概念对神经网络的预测具有人类意义、连贯性和重要性。