状态2解释:基于概念的解释有利于Agent学习和用户理解

的一部分神经信息处理系统进展36(NeurIPS 2023)主要会议轨道

Bibtex公司 纸类

作者

Devleena Das、Sonia Chernova、Been Kim

摘要

随着越来越多的非人工智能专家将复杂的人工智能系统用于日常任务,人们越来越努力开发出非人工智能专家可以理解的人工智能决策解释方法。为了实现这一目标,利用更高层次的概念并生成基于概念的解释已经成为一种流行的方法。大多数基于概念的解释都是针对分类技术开发的,我们认为现有的少数顺序决策方法的范围有限。在这项工作中,我们首先提出了在顺序决策环境中定义“概念”的迫切性。此外,受Protege Effect的启发,解释知识通常会增强人的自学能力,我们探讨了基于概念的RL代理决策解释如何反过来提高代理的学习速度,以及如何提高最终用户对代理决策的理解。为此,我们提供了一个统一的框架,State2Explanation(S2E),它包括学习状态-动作对和基于概念的解释之间的联合嵌入模型,并利用这种学习模型来实现以下两个目的:(1)在代理培训期间通知奖励形成,以及(2)在部署时向最终用户提供解释,以改进任务性能。我们在Connect 4和Lunar Lander中的实验验证表明,S2E成功地提供了双赢,成功地通知了奖励形成,提高了代理学习率,并显著提高了部署时的最终用户任务性能。