×

可解释机器学习中的定义、方法和应用。 (英语) Zbl 1431.62266号

概要:机器学习模型在学习复杂模式方面取得了巨大成功,这些模式使它们能够对未观察到的数据进行预测。除了使用模型进行预测外,解释模型所学内容的能力也越来越受到关注。然而,这种日益关注导致了对可解释性概念的相当大的困惑。特别是,目前尚不清楚拟议的各种解释方法之间有何关联,以及可以使用哪些通用概念对其进行评估。我们旨在通过在机器学习的背景下定义可解释性,并引入预测性、描述性、相关性(PDR)框架来讨论解释,从而解决这些问题。PDR框架为评估提供了三个首要需求:预测准确度、描述性准确度和相关性,以及相对于人类受众判断的相关性。此外,为了帮助管理大量的解释方法,我们将现有技术分类为基于模型的类别和事后类别,并将子组包括稀疏性、模块性和可模拟性。为了演示从业者如何使用PDR框架来评估和理解解释,我们提供了许多真实世界的示例。这些例子突出了人类受众在可解释性讨论中所发挥的往往未被充分重视的作用。最后,基于我们的框架,我们讨论了现有方法的局限性和未来工作的方向。我们希望这项工作将提供一个通用词汇,使从业者和研究人员更容易讨论和选择各种解释方法。

MSC公司:

62小时30分 分类和区分;聚类分析(统计方面)
68T07型 人工神经网络与深度学习
68T05型 人工智能中的学习和自适应系统
PDF格式BibTeX公司 XML格式引用