IR-VIC:无监督地发现RL中的转让子目标

IR-VIC:无监督地发现RL中的转让子目标

尼尔比·莫德(Nirbhay Modhe)、普里什维吉特·查托帕迪亚伊(Prithvijit Chattopadhyay)、莫希特·夏尔马(Mohit Sharma)、阿比舍克·达斯(Abhishek Das)、德维·帕里赫(Devi Parikh)、德鲁夫·巴特拉(Dhruv Batra

第二十届国际人工智能联合会议记录
主轨道。第2022-2028页。https://doi.org/10.24963/ijcai.2020/280

我们提出了一种新的框架来识别在部分可观测性下序列决策任务中有用的子目标。我们利用变分内禀控制框架(Gregor等人,2016)最大化赋权,即可靠地达到不同状态集的能力,并展示如何通过信息论正则化器将子目标识别为具有高度必要选项信息的状态。尽管在没有明确目标监督的情况下被发现,但与先前工作中的受监督同行相比,我们的子目标在具有挑战性的网格世界导航任务中提供了更好的探索和样本复杂性。
关键词:
机器学习:深度强化学习
机器学习:强化学习
机器学习:无监督学习