×

参数化环境下强化学习的随机最大值原理方法。 (英语) Zbl 07696994号

小结:在这项工作中,我们引入了一种随机最大值原理(SMP)方法来解决强化学习问题,假设环境中的未知量可以基于物理知识参数化。为了开发数值算法,我们采用了一种有效的在线参数估计方法作为我们的探索技术,在训练过程中估计环境参数,在SMP框架下,通过一种有效的策略改进反向行为学习方法实现了对最优策略的开发。数值实验表明,用于强化学习的SMP方法能够产生可靠的控制策略,与基于标准动态规划原理的方法相比,SMP求解器中的梯度下降型优化需要更少的训练集。

MSC公司:

60华氏度 随机分析
65立方厘米 概率方法,随机微分方程
68泰克 人工智能
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] 安德里厄,C。;Doucet,A。;Holenstein,R.,《粒子马尔可夫链蒙特卡罗方法》,J.R.Stat.Soc.B,72,3,269-342(2010)·Zbl 1411.65020号
[2] 阿奇博尔德,R。;Bao,F。;Tu,X.,参数估计的直接滤波方法,J.Compute。物理。,398,第108871条pp.(2019)·Zbl 1453.62408号
[3] 阿奇博尔德,R。;Bao,F。;曹毅。;Sun,H.,通过随机梯度下降训练随机神经网络的收敛性分析(2022),arXiv预印本
[4] 阿奇博尔德,R。;Bao,F。;Yong,J。;周,T.,解决数据驱动反馈控制问题的有效数值算法,J.Sci。计算。,85, 51 (2020) ·Zbl 1469.93112号
[5] 贝克,布拉姆,长短期记忆强化学习,高级神经信息处理。系统。,14 (2001)
[6] Bao,F。;科根,N。;多布雷瓦,A。;Paus,R.,合成数据的数据同化作为预测斑秃疾病进展的新策略,数学。医学生物学。(2021) ·Zbl 1472.92120号
[7] 鲍、冯;曹燕钊;Amnon Meir;赵卫东,反向双随机微分方程的一阶格式,SIAM/ASA J.不确定性。量化。,4, 1, 413-445 (2016) ·Zbl 1343.60096号
[8] Crisan,D。;Doucet,A.,《面向从业者的粒子滤波方法收敛结果调查》,IEEE Trans。信号处理。,50, 3, 736-746 (2002) ·Zbl 1369.60015号
[9] 戴克,O。;Ziatdinov,M。;杰西,S。;Bao,F。;Yousefzadi Nobakht,A。;Maksov,A。;Sumpter,B.G。;阿奇博尔德,R。;法律,K.J.H。;Kalinin,S.V.,《通过电子束诱导的单原子动力学探索势能景观》,《材料学报》。,203,第116508条pp.(2021)
[10] 格洛伦内克(Glorennec)、皮埃尔·伊夫斯(Pierre Yves);Jouffe,Lionel,Fuzzy q-learning,(第六届国际模糊系统会议论文集,第2卷(1997),IEEE),659-662
[11] 龚波;刘文斌;唐涛;赵卫东;周涛,随机最优控制问题的一种有效梯度投影方法,SIAM J.Numer。分析。,552982-3505(2017)·Zbl 1386.60239号
[12] 新泽西州戈登。;Salmond,D.J。;Smith,A.F.M.,非线性/非高斯贝叶斯状态估计的新方法,IEE Proc。F、 140、2、107-113(1993)
[13] 顾世祥;Timothy Lillicrap;伊利亚·萨茨克弗;Sergey Levine,《基于模型加速的连续深度q学习》(2016年机器学习国际会议,PMLR),2829-2838
[14] 加里宁,S。;Borisevich,A。;Jesse,S.,《点燃原子炉》,《自然》(2016年11月22日)
[15] 克劳登,体育。;Platen,E.,随机微分方程的数值解,数学应用(纽约),第23卷(1992年),Springer-Verlag:Springer-Verlag Berlin·Zbl 0925.65261号
[16] Viraj Mehta、Biswajit Paria、Jeff Schneider、Stefano Ermon、Willie Neiswanger,《基于模型的强化学习的实验设计观点》,2021年。
[17] Morzfeld,M。;涂,X。;阿特金斯,E。;Chorin,A.J.,隐式过滤器的随机映射实现,J.Compute。物理。,231, 4, 2049-2066 (2012) ·Zbl 1242.65012号
[18] Yousefzadi Nobakht,Ali;昂德雷·戴克;Lingerfelt,David B。;鲍、冯;马克西姆·齐亚丁诺夫(Maxim Ziatdinov);阿特姆·马克索夫;鲍比·桑普特(Bobby G.Sumpter)。;理查德·阿奇博尔德(Richard Archibald);谢尔盖五世·加里宁。;杰西,斯蒂芬;Law,Kody J.H.,从动态轨迹的统计分析中重建有效潜力,AIP Adv.10,文章065034 pp.(2020)
[19] 彭静;Williams,Ronald J.,增量多步骤q-learning,(《机器学习学报》1994(1994),Elsevier),226-232
[20] 彭世革,最优控制问题的一般随机最大值原理,SIAM J.控制优化。,28, 4, 966-979 (1990) ·Zbl 0712.93067号
[21] 理查德·萨顿(Richard S.Sutton)。;Andrew G.Barto,《强化学习:导论》(2014),2015年。2014 ·Zbl 1407.68009号
[22] Tesauro,Gerald,时间差异学习和td-gammon,Commun。ACM,38,358-68(1995年)
[23] 米歇尔·托基克;Palm,Günther,基于价值差异的探索:epsilon贪婪和softmax之间的自适应控制,(人工智能年会(2011),Springer),335-346
[24] Neythen J.Treloar、Nathan Braniff、Brian Ingalls、Chris P.Barnes,《生物优化实验设计的深度强化学习》,bioRxiv,2022年。
[25] 范·哈塞尔特(Hado Van Hasselt);亚瑟·盖兹;Silver,David,《双q学习的深度强化学习》(AAAI人工智能会议论文集,第30卷(2016))
[26] 王浩然;萨利亚·扎里普普鲁(Thaleia Zariphopoulou);周迅于,《连续时间和空间中的强化学习:随机控制方法》,J.Mach。学习。研究,21,198,1-34(2020)·Zbl 07307478号
[27] 克里斯托弗·沃特金斯(Christopher J.C.H.Watkins)。;Dayan,Peter,Q-learning,Mach。学习。,8, 3, 279-292 (1992) ·Zbl 0773.68062号
[28] Yong,Jiongmin;周迅于,《随机控制:哈密顿系统和HJB方程》,《数学应用》(纽约),第43卷(1999年),Springer-Verlag:Springer-Verlag New York·Zbl 0943.93002号
[29] 张剑峰,BSDEs的数值格式,Ann.Appl。概率。,14, 1, 459-488 (2004) ·Zbl 1056.60067号
[30] 张小平;刘一浩;胡敦力;Liu,Lei,一种基于好奇心和强化学习的迷宫机器人自主导航方法,(第七届国际高级计算智能和智能信息学研讨会(IWACII 2021)(2021)),文章M1-6,第1页
[31] 赵卫东;傅瑜;周,陶,耦合正倒向随机微分方程的新型高阶多步格式,SIAM J.Sci。计算。,36、4、A1731-A1751(2014)·Zbl 1316.65014号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。