走向管理主体的效能:深度透明强化学习的行动条件$β$-VAE

John Yang、Gyuejeong Lee、Simyung Chang、Nojun Kwak
第十一届亚洲机器学习会议记录,PMLR 101:32-472019年。

摘要

我们在强化学习(RL)的环境中解决深度神经网络的黑箱问题,在强化学习中,神经代理以一种不可控的方式学习最大化奖励收益。当交互环境包含广阔的状态空间时,这种学习方法是有风险的,因为几乎不可能预见到所有不想要的结果,并预先以负面奖励惩罚它们。我们提出了动作条件$\beta$-VAE(AC-$\beta$-VEE),它允许动作相关因素在潜在表征的理想维度中进行简洁映射,同时分离环境因素。我们提出的方法通过鼓励RL策略网络通过区分影响冰和不可控环境因素来学习可解释的潜在特征来解决黑盒问题,这与人类理解场景的方式非常相似。我们的实验结果表明,学习到的潜在因素不仅是可解释的,而且能够建模整个访问状态-动作空间的分布。我们已经进行了实验,该结构的这一特性可以导致对RL代理所需行为的事后治理。

引用本文


BibTeX公司
@会议记录{pmlr-v101-yang19a,title={朝向管理者的效能:行动-条件性$β$-VAE用于深度透明强化学习},author={Yang、John和Lee、Gyuejeong和Chang、Simyung和Kwak、Nojun},booktitle={第十一届亚洲机器学习会议论文集},页数={32--47},年份={2019},editor={Lee,Wee Sun和Suzuki,Taiji},体积={101},series={机器学习研究论文集},月={11月17日--19日},publisher={PMLR},pdf={http://proceedings.mlr.press/v101/yang19a/yang19a.pdf},url={https://proceedings.mlr.press/v101/yang19a.html},abstract={我们解决了强化学习(RL)环境下深层神经网络的黑箱问题在那里,神经代理人学习以一种不可控的方式最大化报酬收益。当交互环境包含广阔的状态空间时,这种学习方法是有风险的,因为几乎不可能预见到所有不想要的结果,并预先以负面奖励惩罚它们。我们提出了动作条件$\beta$-VAE(AC-$\beta$-VEE),它允许动作相关因素在潜在表征的理想维度中进行简洁映射,同时分离环境因素。我们提出的方法通过鼓励RL策略网络通过区分影响冰和不可控环境因素来学习可解释的潜在特征来解决黑箱问题,这与人类理解场景的方式非常相似。我们的实验结果表明,学习到的潜在因素不仅是可解释的,而且能够建模整个访问状态-动作空间的分布。我们已经试验过,所建议结构的这一特性可以导致对RL代理所需行为的事后治理。}}
尾注
%0会议论文%管理者的效能:行动条件$β$-VAE用于深度透明强化学习%约翰·杨%A Gyuejeong Lee(李桂琼)%A Simyung Chang先生%A Nojun Kwak%第十一届亚洲机器学习会议论文集%C机器学习研究进展%D 2019年%E Wee Sun Lee先生%E铃木太极拳%F pmlr-v101-yang19a公司%我PMLR%第32-47页%U型https://proceedings.mlr.press/v101/yang19a.html%101伏%X我们在强化学习(RL)的环境中解决深度神经网络的黑箱问题,在强化学习中,神经代理以一种不可控的方式学习最大化奖励收益。当交互环境包含广阔的状态空间时,这种学习方法是有风险的,因为几乎不可能预见到所有不想要的结果,并预先以负面奖励惩罚它们。我们提出了动作条件$\beta$-VAE(AC-$\beta$-VEE),它允许动作相关因素在潜在表征的理想维度中进行简洁映射,同时分离环境因素。我们提出的方法通过鼓励RL策略网络通过区分影响冰和不可控环境因素来学习可解释的潜在特征来解决黑箱问题,这与人类理解场景的方式非常相似。我们的实验结果表明,学习到的潜在因素不仅是可解释的,而且能够建模整个访问状态-动作空间的分布。我们已经进行了实验,该结构的这一特性可以导致对RL代理所需行为的事后治理。
亚太地区
Yang,J.,Lee,G.,Chang,S.&Kwak,N.(2019年)。管理者的功效:行动-条件性$β$-VAE,用于深度透明强化学习。第十一届亚洲机器学习会议记录,英寸机器学习研究进展101:32-47可从https://proceedings.mlr.press/v101/yang19a.html。

相关材料