×

使用最大似然估计学习和规划时变MDP。 (英语) Zbl 07370552号

摘要:本文提出了一种形式化的在线学习方法,用于在先验未知、时变环境中运行的代理的在线学习和规划。所提出的方法计算环境的最大可能模型,给定代理在系统运行早期对环境的观察,并假设知道系统动力学的最大变化率的界限。这种方法推广了具有时不变转移概率的未知马尔可夫决策过程学习算法中常用的估计方法,但也能够快速准确地识别变化后的系统动力学。基于该方法,我们通过在学习的时变模型中引入不确定性的概念,推广了用于时不变马尔可夫决策过程学习的探索奖金,并基于探索和探索权衡,制定了时变马尔可夫过程的控制策略。我们在四个数值例子上演示了所提出的方法:系统动力学发生变化的巡逻任务、动作结果周期性变化的两状态MDP、风流量估计任务和具有不同回报的周期性变化概率的多臂盗贼问题。

MSC公司:

68T20型 人工智能背景下的问题解决(启发式、搜索策略等)
68T05型 人工智能中的学习和自适应系统
90立方厘米 马尔可夫和半马尔可夫决策过程
62C12号机组 经验决策程序;经验贝叶斯程序
PDF格式BibTeX公司 XML格式引用
全文: arXiv公司 链接

参考文献:

[1] Wesam H.Al-Sabban、Luis F.Gonzalez和Ryan N.Smith。基于马尔可夫决策过程的无人机风能路径规划。2013年IEEE机器人与自动化国际会议,第784-789页。
[2] 阿斯玛·阿勒·塔米米(Asma Al-Tamimi)、弗兰克·L·刘易斯(Frank L.Lewis)和穆拉德·阿布·哈拉夫(Murad Abu-Khalaf)。线性离散时间零和对策的无模型Q学习设计及其在H-无穷大控制中的应用。Automatica,43(3):473-4812007年·Zbl 1137.93321号
[3] 艾伦·安德里斯。具有多种可能失效原因的物理部件可靠性数据的统计建模策略。林堡大学中心博士论文,2004年。
[4] Narayanaswamy Balakrishnan和Valery B.Nevzorov。统计分布入门。威利,2004年。
[5] 阿米尔·贝克。非线性优化导论:MATLAB的理论、算法和应用。工业和应用数学学会,2004年·Zbl 1320.90001号
[6] 贾斯汀·博扬(Justin A.Boyan)和迈克尔·利特曼(Michael L.Littman)。时间相关MDP的精确解。《神经信息处理系统》,第1026-1032页,2001年。
[7] Ronen I.Brafman和Moshe Tennenholtz。R-MAX-用于近最优强化学习的通用多项式时间算法。机器学习研究杂志,3:213-2312002·Zbl 1088.68694号
[8] 彼得·布伦(Peter S.Bullen)。平均数及其不等式手册。斯普林格,2003年·Zbl 1035.26024号
[9] Yushan Chen、Jana T˚umov´a和Calin Belta。基于环境动力学自动机学习的LTL机器人运动控制。2012年IEEE机器人与自动化国际会议,第5177-5182页。
[10] Bal´azs Csan´ad Cs´aji和L´aszl´o Monostori。在不断变化的马尔可夫环境中基于价值函数的强化学习。机器学习研究杂志,9:1679-17092008·Zbl 1225.68169号
[11] 弗朗西斯·迪博尔德(Francis X.Diebold)、李俊亨(Joon Haeng Lee)和格雷琴·C·温巴赫(Gretchen C.Weinbach)。具有时变转移概率的状态切换。科林·哈格里夫斯(Colin P.Hargreaves)主编,《非平稳时间序列分析与协整》,第283-302页。1994
[12] 迈克尔·达夫和安德鲁·巴托。最优学习问题的局部强盗近似。《神经信息处理系统》,第1019-1025页,1997年。
[13] Hamza El-Kebir和Melkior Ornik。高超声速飞行器飞行中空气密度的估算和预测。在2020年第23届AIAA国际空间飞机和高超音速系统与技术会议上。
[14] 阿尔贝托·埃尔费斯(Alberto Elfes)。基于声纳的真实世界地图和导航。Ingemar J.Cox和Gordon T.Wilfong编辑,《自动驾驶机器人车辆》,第233-249页。1990
[15] Avraham Feintuch公司。最终时不变系统的稳定性和灵敏度。《线性代数及其应用》,122-124:105-1141989·Zbl 0678.93049号
[16] Lori K.Fenton、Anthony D.Toigo和Mark I.Richardson。火星普洛克托陨石坑的风沙过程:沙丘形成风的中尺度模拟。地球物理研究杂志:行星,110(E6),2005年。
[17] 安德鲁·费拉多(Andrew J.Filardo)。商业周期阶段及其过渡动态。《商业与经济统计杂志》,12(3):299-3081994年。
[18] Sarah Filippi、Olivier Capp´e、Aur´elien Garivier和Csaba Szepesv´ari。参数强盗:广义线性情况。《神经信息处理系统》,第586-5942010页。
[19] 杰夫·福布斯(Jeff Forbes)、蒂姆·黄(Tim Huang)、金泽敬二(Keiji Kanazawa)和斯图亚特·罗素(Stuart Russell)。BATmobile:朝向贝叶斯自动出租车。第14届国际人工智能联合会议,1878-1885页,1995年。
[20] Jie Fu和Ufuk Topcu。可能是带有时序逻辑约束的近似正确的MDP学习和控制。InRobotics:科学与系统,2014年。
[21] Pratik Gajane、Ronald Ortner和Peter Auer。奖励和转移任意变化的马尔可夫决策过程的滑动窗口算法。arXiv:1805.10066[cs.LG],2018。预打印。
[22] 高海波、宋兴国、梁鼎、夏克瑞、李楠和邓宗全。具有未知滑移的轮式移动机器人的自适应运动控制。《国际控制杂志》,87(8):1513-15222014·兹比尔1317.93190
[23] 蒂埃里·格雷戈里厄斯(Thierry Gregorius)和杰弗里·布莱维特(Geoffrey Blewitt)。天气锋对GPS测量的影响。全球定位系统世界,9:52-601998。
[24] Matthew J.Hausknecht和Peter Stone。部分可观察MDP的深度递归Q学习。2015年InAAAI秋季研讨会。
[25] 胡安·大卫·埃尔恩安德斯(Juan David Hern´andez)、爱德华·维达尔(Eduard Vidal)、吉列姆·瓦利克罗萨(Guillem Vallicrosa)、恩里克·加尔塞兰(Enric Galceran)和马克·卡雷拉斯。未知环境下自主水下机器人的在线路径规划。2015年IEEE机器人与自动化国际会议,第1152-1157页。
[26] 艾丽斯·希克曼。飞行员气球飞行的历史。天气,2015年70:521-523。
[27] Rui Huang、Sachin C.Pathwardhan和Lorenz T.Biegler。一类离散非线性递归观测器的稳定性。过程控制杂志,20(10):1150-11602010。
[28] Zsolt Kalm´ar、Csaba Szepesv´ari和Andr´as Löorincz。基于模块的强化学习:使用真实机器人进行实验。机器学习,31(1-3):55-851998·Zbl 0907.68149号
[29] 迈克尔·卡恩斯和萨丁德·辛格。多项式时间内的近最优强化学习。机器学习,49:209-2322002·Zbl 1014.68071号
[30] J.Zico Kolter和Andrew Y.Ng.多项式时间内的Near-Bayes探索。在2009年第26届国际机器学习会议上,第513-520页。
[31] 李英英,钟敖晓,瞿冠南,李娜。具有时变转移概率和报酬的在线马尔可夫决策过程。InICML现实世界顺序决策研讨会,2019年。
[32] James N.K.Liu、K.M.Kwong和P.W.Chan。基于混沌振荡的神经网络,用于利用激光雷达数据进行风切变和湍流预测。IEEE系统、人与控制论汇刊——第C部分:应用与评论,42(6):1412-14232012。
[33] 刘兰涛(Lantao Liu)和高拉夫(Gaurav S.Sukhatme)。时变马尔可夫决策过程的解决方案。IEEE Robotics and Automation Letters,3(3):1631-16382018年。
[34] Melkior Ornik、Jie Fu、Niklas T.Lauffer、W.K.Perera、Mohammed Alshiekh、Masahiro Ono和Ufuk Topcu。利用附带信息加快MDP学习。第57届IEEE决策与控制会议,第1941-1948页,2018年。
[35] 罗纳德·奥尔特纳(Ronald Ortner)、普拉蒂克·加贾尼(Pratik Gajane)和彼得·奥尔(Peter Auer)。强化学习的变分后悔界。第35届人工智能不确定性会议,第81-90页,2020年。
[36] 马丁·普特曼。马尔可夫决策过程:离散随机动态规划。威利,2005年·Zbl 1184.90170号
[37] 谢尔登·M·罗斯。应用概率模型与优化应用。霍尔登·戴,1970年·Zbl 1191.60001号
[38] 胡安·桑塔玛、理查德·萨顿和阿什温·拉姆。在具有连续状态和动作空间的问题中进行强化学习的实验。适应性行为,6(2):163-2171997。
[39] 雨果·桑塔纳(Hugo Santana)、盖伯·拉马霍(Geber Ramalho)、文森特·科鲁布尔(Vincent Corruble)和博达纳·拉蒂奇(Bohdana Ratitch)。多智能体巡逻与强化学习。第三届国际自治代理和多代理系统联合会议,第1122-1129页,2004年。
[40] Alexander L.Strehl和Michael L.Littman。马尔可夫决策过程基于模型的区间估计分析。计算机与系统科学杂志,74(8):1309-13312008·兹比尔1157.68059
[41] 亚历山大·斯特雷尔(Alexander L.Strehl)、李丽红(Lihong Li)和迈克尔·利特曼(Michael L.Littman)。有限MDP中的强化学习:PAC分析。机器学习研究杂志,10:2413-24442009·Zbl 1235.68193号
[42] 理查德·萨顿(Richard S.Sutton)和安德鲁·巴托(Andrew G.Barto)。强化学习:简介。麻省理工学院出版社,2018年·Zbl 1407.68009号
[43] 理查德·萨顿(Richard S.Sutton)、多伊娜·普雷科普(Doina Precup)和萨汀德·辛格(Satinder Singh)。在MDP和半MDP之间:强化学习中时间抽象的框架。人工智能,112:181-211999·Zbl 0996.68151号
[44] Istv´an Szita、B´alint Tak´acs和Andr´as L¨orincz.ε-MDP:在不同环境中学习。机器学习研究杂志,3:145-1742002。
[45] 罗德里戈·托罗·伊卡特(Rodrigo Toro Icarte)、托林·克拉森(Toryn Q.Klassen)、理查德·瓦伦扎诺(Richard Valenzano)和希拉·麦克莱思(Sheila A.McIlraith)。在强化学习中使用奖励机器进行高级任务规范和分解。第35届机器学习国际会议,第2107-2116页,2018年。
[46] 约翰·齐齐克利斯(John N.Tsitsiklis)。Gittins指数定理的简短证明。应用概率年鉴,4(1):194-1994·Zbl 0816.60040号
[47] 哈多·范·哈塞尔特(Hado van Hasselt)。在连续状态和动作空间中强化学习。Marco Wiering和Martijn van Otterlo编辑,《强化学习:艺术现状》,第207-251页。2012
[48] Ashwin R.Vasavada、Sylvain Piqueux、Kevin W.Lewis、Mark T.Lemmon和Michael D.Smith。来自REMS地面温度传感器的火星盖尔陨石坑好奇号穿越段的热物理特性。伊卡洛斯,284:372-3862017。
[49] 马西莫·弗加索拉(Massimo Vergassola)、伊曼纽尔·维尔莫克斯(Emmanuel Villermaux)和鲍里斯·施莱曼(Boris I.Shraiman)。”Infotaxis作为一种无梯度搜索策略。《自然》,445:406-4092007。
[50] H˚akan L.S.Younes和Reid G.Simmons。使用连续相型分布求解广义半马尔可夫决策过程。在第19届全国人工智能会议上,第742-747页,2004年。
[51] 袁建军(Jianjun Yuan)和安德鲁·兰帕斯基(Andrew Lamperski)。在网络最小二乘法和其他方法中处理静态和动态遗憾。第34届AAAI人工智能会议,2020年。
[52] 丹尼尔·泽尔特曼。离散数据模型。牛津大学出版社,2006年·Zbl 1101.62001号
[53] 詹姆斯·R·齐贝尔曼。行星沙丘专题介绍,罗纳德·格里利的风沙生涯。伊卡洛斯,230:1-42014。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。