×

R-最大

swMATH ID: 2539
软件作者: 布拉夫曼,罗宁一世。;莫舍·坦尼霍尔茨
描述: R-MAX是一种非常简单的基于模型的强化学习算法,可以在多项式时间内获得接近最优的平均回报。在R-MAX中,代理始终保持其环境的完整但可能不准确的模型,并基于从该模型导出的最佳策略进行操作。模型以乐观的方式初始化:所有状态中的所有操作都会返回最大可能的回报(因此得名)。在执行过程中,它会根据代理的观察结果进行更新。R-MAX改进了以前的几种算法:(1)它比卡恩斯和辛格的E^3算法更简单、更通用,涵盖了零和随机博弈。(2) 它有一个解决勘探与开发困境的内在机制。(3) 它正式证明了许多RL算法中使用的“不确定性下的乐观”偏差。(4) 与Brafman和Tennenholtz的LSG算法相比,它在单控制器随机博弈中的学习更简单、更通用、更高效。(5) 它推广了Monderer和Tennenholtz的算法,用于重复游戏中的学习。(6) 它是迄今为止唯一一种在重复游戏中学习的算法,它被证明是高效的,大大改进和简化了Banos和Megiddo以前的算法。
主页: http://jmlr.csail.mit.edu/papers/v3/brafman02a.html
关键词: 强化学习;在游戏中学习;随机游戏;马尔可夫决策过程;显著高效的学习
相关软件: 棒极了;AlexNet公司;ImageNet公司;阿达·布斯特。MH公司;D4RL型;近似值;GAMUT公司;ProMP公司;MuJoCo公司;PyTorch公司;天秤座;普里巴斯;阿尔法零;张紧器2传感器;DeepStack公司;ElemStatLearn(电子状态学习);PRMLT公司;POMDPS公司
引用于: 36文件
全部的 前5名

62位作者引用

5 罗恩·布拉夫曼(Ronen I。Brafman)。
5 迈克尔·利特曼。
4 李丽红
4 谢·曼诺
4 莫舍·坦尼霍尔茨
马库斯·赫特
亚历山大·斯特雷尔。
2 阿夫拉罕·巴布
2 雅各布·W·克兰德尔。
2 丹尼尔·里亚布科
2 纳胡姆·希金
2 塞佩斯瓦里(Csaba Szepesvári)
2 西蒙·怀特森
1 阿戈斯蒂内利,森林
1 斯特凡诺·阿尔布雷赫特(Stefano V.Albrecht)。
1 彼得·奥尔
1 皮埃尔·巴尔迪
1 彼得·L·巴特利特。
1 塔梅尔·巴沙尔
1 丹尼尔·布劳恩(Daniel A.Braun)。
1 艾玛·布伦斯基尔
1 曹伟华
1 陈刚
1 陈欣
1 埃亚尔·埃文·达尔
1 阿米尔·马苏德·法拉赫曼德
1 冯,利奥
1 卡里·弗拉姆林
1 Gal,纱线
1 迈克尔·A·古德里奇。
1 格雷纳杰、特隆德
1 亚历山大·汉斯
1 纪尧姆·霍奎特
1 卡贾·霍夫曼
1 马克西米利安·伊格尔
1 托马斯·雅克什
1 Bethany R.莱夫勒。
1 鲁聪
1 伊莎·曼苏尔
1 吴基祥
1 佩德罗·奥尔特加。
1 罗纳德·奥尔特纳
1 鲍尔斯,罗伯
1 Subramanian拉马穆尔蒂
1 罗伊,尼古拉斯
1 托马斯·桑德霍姆。
1 塞巴斯蒂安·舒尔泽
1 基里亚科斯·希亚利斯
1 约夫·肖姆
1 大卫·M·西尔弗。
1 萨米尔·辛格
1 安布吉·特瓦里
1 斯特芬·乌德卢夫特
1 威廉·T·B·乌瑟尔。
1 乔尔·维内斯
1 托马斯·沃尔什。
1 怀特,玛莎
1 吴敏
1 杨卓然
1 于佳元
1 张凯庆
1 Luisa M.津格拉夫。

按年份列出的引文