Explaining by Removing: A Unified Framework for Model Explanation

Ian Covert; Scott Lundberg; Su-In Lee

研究人员提出了各种各样的模型解释方法，但尚不清楚大多数方法是如何关联的，或者一种方法何时优于另一种方法。我们描述了一类新的统一方法，即基于移除的解释，该方法基于模拟特征移除的原理来量化每个特征的影响。这些方法在几个方面有所不同，因此我们开发了一个框架，从三个方面描述了每个方法的特征：1）方法如何删除特征，2）方法解释了什么模型行为，以及3）方法如何总结每个特征的影响。我们的框架统一了26种现有方法，包括几种最广泛使用的方法：SHAP、LIME、有意义扰动和置换测试。这类新理解的解释方法有着丰富的联系，我们使用的工具在很大程度上被解释性文献所忽视。为了支撑认知心理学中基于移除的解释，我们表明特征移除是减法反事实推理的简单应用。合作博弈论的思想揭示了不同方法之间的关系和权衡，我们推导出了所有基于移除的解释都具有信息理论解释的条件。通过这一分析，我们开发了一个统一的框架，帮助从业者更好地理解模型解释工具，并为未来的解释性研究奠定了坚实的理论基础。

通过删除进行解释：模型解释的统一框架

摘要