软件搜索-zbMATH Open

R-最大

swMATH ID:	2539
软件作者：	布拉夫曼，罗宁一世。；莫舍·坦尼霍尔茨
描述：	R-MAX是一种非常简单的基于模型的强化学习算法，可以在多项式时间内获得接近最优的平均回报。在R-MAX中，代理始终保持其环境的完整但可能不准确的模型，并基于从该模型导出的最佳策略进行操作。模型以乐观的方式初始化：所有状态中的所有操作都会返回最大可能的回报（因此得名）。在执行过程中，它会根据代理的观察结果进行更新。R-MAX改进了以前的几种算法：（1）它比卡恩斯和辛格的E^3算法更简单、更通用，涵盖了零和随机博弈。（2）它有一个解决勘探与开发困境的内在机制。（3）它正式证明了许多RL算法中使用的“不确定性下的乐观”偏差。（4）与Brafman和Tennenholtz的LSG算法相比，它在单控制器随机博弈中的学习更简单、更通用、更高效。（5）它推广了Monderer和Tennenholtz的算法，用于重复游戏中的学习。（6）它是迄今为止唯一一种在重复游戏中学习的算法，它被证明是高效的，大大改进和简化了Banos和Megiddo以前的算法。
主页：	http://jmlr.csail.mit.edu/papers/v3/brafman02a.html
关键词：	强化学习;在游戏中学习;随机游戏;马尔可夫决策过程;显著高效的学习
相关软件：	棒极了;AlexNet公司;ImageNet公司;阿达·布斯特。MH公司;D4RL型;近似值;GAMUT公司;ProMP公司;MuJoCo公司;PyTorch公司;天秤座;普里巴斯;阿尔法零;张紧器2传感器;DeepStack公司;ElemStatLearn（电子状态学习）;PRMLT公司;POMDPS公司
引用于：	36文件

标准条款

1出版物描述软件，包括1出版物以zbMATH为单位	年份
R-MAX–用于近最优强化学习的通用多项式时间算法。 Zbl 1088.68694号罗恩·布拉夫曼（Ronen I。Brafman）。;莫舍·坦尼霍尔茨	2003

全部的前5名

62位作者引用

5	罗恩·布拉夫曼（Ronen I。Brafman）。
5	迈克尔·利特曼。
4	李丽红
4	谢·曼诺
4	莫舍·坦尼霍尔茨
三	马库斯·赫特
三	亚历山大·斯特雷尔。
2	阿夫拉罕·巴布
2	雅各布·W·克兰德尔。
2	丹尼尔·里亚布科
2	纳胡姆·希金
2	塞佩斯瓦里（Csaba Szepesvári）
2	西蒙·怀特森
1	阿戈斯蒂内利，森林
1	斯特凡诺·阿尔布雷赫特（Stefano V.Albrecht）。
1	彼得·奥尔
1	皮埃尔·巴尔迪
1	彼得·L·巴特利特。
1	塔梅尔·巴沙尔
1	丹尼尔·布劳恩（Daniel A.Braun）。
1	艾玛·布伦斯基尔
1	曹伟华
1	陈刚
1	陈欣
1	埃亚尔·埃文·达尔
1	阿米尔·马苏德·法拉赫曼德
1	冯，利奥
1	卡里·弗拉姆林
1	Gal，纱线
1	迈克尔·A·古德里奇。
1	格雷纳杰、特隆德
1	亚历山大·汉斯
1	纪尧姆·霍奎特
1	卡贾·霍夫曼
1	马克西米利安·伊格尔
1	托马斯·雅克什
1	Bethany R.莱夫勒。
1	鲁聪
1	伊莎·曼苏尔
1	吴基祥
1	佩德罗·奥尔特加。
1	罗纳德·奥尔特纳
1	鲍尔斯，罗伯
1	Subramanian拉马穆尔蒂
1	罗伊，尼古拉斯
1	托马斯·桑德霍姆。
1	塞巴斯蒂安·舒尔泽
1	基里亚科斯·希亚利斯
1	约夫·肖姆
1	大卫·M·西尔弗。
1	萨米尔·辛格
1	安布吉·特瓦里
1	斯特芬·乌德卢夫特
1	威廉·T·B·乌瑟尔。
1	乔尔·维内斯
1	托马斯·沃尔什。
1	怀特，玛莎
1	吴敏
1	杨卓然
1	于佳元
1	张凯庆
1	Luisa M.津格拉夫。

全部的前5名

13篇连载文章中引用

7	机器学习研究杂志（JMLR）
4	人工智能
4	人工智能研究杂志
三	机器学习
1	计算机与系统科学杂志
1	运筹学数学
1	理论计算机科学
1	神经网络
1	人工智能综述
1	数学与人工智能年鉴
1	控制理论与应用杂志
1	计算智能研究
1	人工智能与机器学习综合讲座

全部的前5名

在6个字段中引用

34	计算机科学（68至XX）
11	博弈论、经济学、金融和其他社会和行为科学（91-XX）
10	运筹学、数学规划（90-XX）
4	统计学（62-XX）
2	系统论；控制（93至XX）
1	信息与通信理论、电路（94-XX）

示例

R-最大

标准条款

62位作者引用

13篇连载文章中引用

在6个字段中引用

按年份列出的引文