导航
主页
会议
未来的会议
过去的会议
诉讼
IJCAI 2024会议记录
所有诉讼
奖品
受托人/管理人员
现任受托人
受托人选举
IJCAI秘书处
IJCAI赞助和宣传官员
IJCAI团队
本地安排主席
在执行委员会任职的前受托人
其他前任官员
人工智能期刊
关于
关于IJCAI
联系信息
通用强化学习算法:综述与实验
通用强化学习算法:综述与实验
约翰·阿斯兰尼德斯、扬·雷克、马库斯·赫特
第二十六届国际人工智能联合会议记录
正线。
第1403-1410页。
https://doi.org/10.24963/ijcai.2017/1994
PDF格式
BibTeX公司
许多最先进的强化学习(RL)算法通常假设环境是遍历马尔可夫决策过程(MDP)。
相反,通用强化学习(URL)领域涉及的是尽可能少地假设环境的算法。
通用贝叶斯代理AIXI和一系列相关的URL算法都是在这种环境下开发的。
虽然已经证明了这些代理的许多理论优化结果,但迄今为止还没有对其行为进行实证调查。
我们在统一的符号和框架下对这些URL算法进行了一个简短且易于访问的调查,并提供了一些实验的结果,这些实验定性地说明了生成的策略的一些属性,以及它们在部分可观察的网格环境中的相对性能。
我们还提供了这些算法的开源参考实现,我们希望这将有助于进一步理解和实验这些想法。
关键词:
机器学习:强化学习
基于Agent和多Agent系统:Agent理论和模型
人工智能的不确定性:顺序决策