导航
主页
会议
未来的会议
过去的会议
诉讼
IJCAI 2023会议记录
IJCAI 2022会议记录
所有诉讼
奖品
受托人/管理人员
现任受托人
受托人选举
IJCAI秘书处
IJCAI赞助和宣传官员
IJCAI团队
本地安排主席
在执行委员会任职的前受托人
其他前任官员
人工智能期刊
关于
关于IJCAI
联系信息
IR-VIC:无监督地发现RL中的转让子目标
IR-VIC:无监督地发现RL中的转让子目标
尼尔比·莫德(Nirbhay Modhe)、普里什维吉特·查托帕迪亚伊(Prithvijit Chattopadhyay)、莫希特·夏尔马(Mohit Sharma)、阿比舍克·达斯(Abhishek Das)、德维·帕里赫(Devi Parikh)、德鲁夫·巴特拉(Dhruv Batra
短视频
第二十届国际人工智能联合会议记录
主轨道。
第2022-2028页。
https://doi.org/10.24963/ijcai.2020/280
PDF格式
BibTeX公司
我们提出了一种新的框架来识别在部分可观测性下序列决策任务中有用的子目标。
我们利用变分内禀控制框架(Gregor等人,2016)最大化赋权,即可靠地达到不同状态集的能力,并展示如何通过信息论正则化器将子目标识别为具有高度必要选项信息的状态。
尽管在没有明确目标监督的情况下被发现,但与先前工作中的受监督同行相比,我们的子目标在具有挑战性的网格世界导航任务中提供了更好的探索和样本复杂性。
关键词:
机器学习:深度强化学习
机器学习:强化学习
机器学习:无监督学习