R-最大 swMATH ID: 2539 软件作者: 布拉夫曼,罗宁一世。;莫舍·坦尼霍尔茨 描述: R-MAX是一种非常简单的基于模型的强化学习算法,可以在多项式时间内获得接近最优的平均回报。在R-MAX中,代理始终保持其环境的完整但可能不准确的模型,并基于从该模型导出的最佳策略进行操作。模型以乐观的方式初始化:所有状态中的所有操作都会返回最大可能的回报(因此得名)。在执行过程中,它会根据代理的观察结果进行更新。R-MAX改进了以前的几种算法:(1)它比卡恩斯和辛格的E^3算法更简单、更通用,涵盖了零和随机博弈。(2) 它有一个解决勘探与开发困境的内在机制。(3) 它正式证明了许多RL算法中使用的“不确定性下的乐观”偏差。(4) 与Brafman和Tennenholtz的LSG算法相比,它在单控制器随机博弈中的学习更简单、更通用、更高效。(5) 它推广了Monderer和Tennenholtz的算法,用于重复游戏中的学习。(6) 它是迄今为止唯一一种在重复游戏中学习的算法,它被证明是高效的,大大改进和简化了Banos和Megiddo以前的算法。 主页: http://jmlr.csail.mit.edu/papers/v3/brafman02a.html 关键词: 强化学习;在游戏中学习;随机游戏;马尔可夫决策过程;显著高效的学习 相关软件: 棒极了;AlexNet公司;ImageNet公司;阿达·布斯特。MH公司;D4RL型;近似值;GAMUT公司;ProMP公司;MuJoCo公司;PyTorch公司;天秤座;普里巴斯;阿尔法零;张紧器2传感器;DeepStack公司;ElemStatLearn(电子状态学习);PRMLT公司;POMDPS公司 引用于: 36文件 标准条款 1出版物描述软件,包括1出版物以zbMATH为单位 年份 R-MAX–用于近最优强化学习的通用多项式时间算法。 Zbl 1088.68694号罗恩·布拉夫曼(Ronen I。Brafman)。;莫舍·坦尼霍尔茨 2003 全部的 前5名62位作者引用 5 罗恩·布拉夫曼(Ronen I。Brafman)。 5 迈克尔·利特曼。 4 李丽红 4 谢·曼诺 4 莫舍·坦尼霍尔茨 三 马库斯·赫特 三 亚历山大·斯特雷尔。 2 阿夫拉罕·巴布 2 雅各布·W·克兰德尔。 2 丹尼尔·里亚布科 2 纳胡姆·希金 2 塞佩斯瓦里(Csaba Szepesvári) 2 西蒙·怀特森 1 阿戈斯蒂内利,森林 1 斯特凡诺·阿尔布雷赫特(Stefano V.Albrecht)。 1 彼得·奥尔 1 皮埃尔·巴尔迪 1 彼得·L·巴特利特。 1 塔梅尔·巴沙尔 1 丹尼尔·布劳恩(Daniel A.Braun)。 1 艾玛·布伦斯基尔 1 曹伟华 1 陈刚 1 陈欣 1 埃亚尔·埃文·达尔 1 阿米尔·马苏德·法拉赫曼德 1 冯,利奥 1 卡里·弗拉姆林 1 Gal,纱线 1 迈克尔·A·古德里奇。 1 格雷纳杰、特隆德 1 亚历山大·汉斯 1 纪尧姆·霍奎特 1 卡贾·霍夫曼 1 马克西米利安·伊格尔 1 托马斯·雅克什 1 Bethany R.莱夫勒。 1 鲁聪 1 伊莎·曼苏尔 1 吴基祥 1 佩德罗·奥尔特加。 1 罗纳德·奥尔特纳 1 鲍尔斯,罗伯 1 Subramanian拉马穆尔蒂 1 罗伊,尼古拉斯 1 托马斯·桑德霍姆。 1 塞巴斯蒂安·舒尔泽 1 基里亚科斯·希亚利斯 1 约夫·肖姆 1 大卫·M·西尔弗。 1 萨米尔·辛格 1 安布吉·特瓦里 1 斯特芬·乌德卢夫特 1 威廉·T·B·乌瑟尔。 1 乔尔·维内斯 1 托马斯·沃尔什。 1 怀特,玛莎 1 吴敏 1 杨卓然 1 于佳元 1 张凯庆 1 Luisa M.津格拉夫。 全部的 前5名13篇连载文章中引用 7 机器学习研究杂志(JMLR) 4 人工智能 4 人工智能研究杂志 三 机器学习 1 计算机与系统科学杂志 1 运筹学数学 1 理论计算机科学 1 神经网络 1 人工智能综述 1 数学与人工智能年鉴 1 控制理论与应用杂志 1 计算智能研究 1 人工智能与机器学习综合讲座 全部的 前5名在6个字段中引用 34 计算机科学(68至XX) 11 博弈论、经济学、金融和其他社会和行为科学(91-XX) 10 运筹学、数学规划(90-XX) 4 统计学(62-XX) 2 系统论;控制(93至XX) 1 信息与通信理论、电路(94-XX) 按年份列出的引文