走向管理主体的效能:深度透明强化学习的行动条件$β$-VAE
John Yang、Gyuejeong Lee、Simyung Chang、Nojun Kwak
第十一届亚洲机器学习会议记录,PMLR 101:32-472019年。
摘要
我们在强化学习(RL)的环境中解决深度神经网络的黑箱问题,在强化学习中,神经代理以一种不可控的方式学习最大化奖励收益。当交互环境包含广阔的状态空间时,这种学习方法是有风险的,因为几乎不可能预见到所有不想要的结果,并预先以负面奖励惩罚它们。我们提出了动作条件$\beta$-VAE(AC-$\beta$-VEE),它允许动作相关因素在潜在表征的理想维度中进行简洁映射,同时分离环境因素。我们提出的方法通过鼓励RL策略网络通过区分影响冰和不可控环境因素来学习可解释的潜在特征来解决黑盒问题,这与人类理解场景的方式非常相似。我们的实验结果表明,学习到的潜在因素不仅是可解释的,而且能够建模整个访问状态-动作空间的分布。我们已经进行了实验,该结构的这一特性可以导致对RL代理所需行为的事后治理。
引用本文
相关材料