×

设计通过深度强化学习和增强卡尔曼滤波器校准历史相关模型的实验。 (英语) Zbl 07691253号

摘要:实验数据的获取往往成本高昂,这使得校准复杂模型变得困难。对于许多模型来说,在有限的实验预算下,产生最佳校准的实验设计并不明显。本文介绍了一种用于设计实验的深度强化学习(RL)算法,该算法通过卡尔曼滤波器(KF)获得的Kullback-Leibler发散测量的信息增益最大化。这种组合使实验设计能够用于快速在线实验,而在高维参数化设计空间中,手动试错是不可行的。我们将实验的可能配置表示为一个决策树和一个马尔可夫决策过程,其中每个增量步骤都有有限的操作选择。一旦采取行动,就会使用各种测量来更新实验状态。这些新数据导致KF对参数进行贝叶斯更新,用于增强状态表示。Nash-Sutcliffe效率指数需要额外的抽样来测试正向预测的假设,与此相反,KF可以通过直接估计通过额外行动获得的新数据的值来降低实验成本。在这项工作中,我们的应用重点是材料的机械测试。使用复杂的历史相关模型进行数值实验,以验证RL设计实验的实现和性能基准。

MSC公司:

74-XX岁 可变形固体力学
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] 新墨西哥州艾姆斯;斯利瓦斯塔瓦,V。;南非切斯特;Anand,L.,非晶聚合物大变形的热-机械耦合理论。第二部分:应用,国际石膏杂志,25,1495-1539(2009)·Zbl 1272.74083号 ·doi:10.1016/j.ijplas.2008.11.005
[2] Baird L(1995)残差算法:函数逼近强化学习。收录于:《1995年机器学习汇编》。Elsevier,第30-37页
[3] 鲍尔,AF,固体应用力学(2009),博卡拉顿:CRC出版社,博卡拉顿·doi:10.1201/9781439802489
[4] Catanach TA(2017)复杂系统中贝叶斯推理的计算方法。加州理工学院博士论文
[5] Chaloner K,Verdinelli I(1995)《贝叶斯实验设计:综述》。《统计科学》第273-304页·Zbl 0955.62617号
[6] 查茨,英语;Smyth,AW,非同位异构传感非线性结构系统辨识的无迹卡尔曼滤波和粒子滤波方法,结构控制健康监测,16,1,99-123(2009)·doi:10.1002/stc.290
[7] Darema F(2004)《动态数据驱动应用程序系统:应用程序模拟和测量的新范式》。2004年6月6日至9日,波兰克拉科夫,计算科学-ICCS 2004:第四届国际会议,会议记录,第三部分4。施普林格,pp 662-669
[8] Daum,F.,《非线性滤波器:超越卡尔曼滤波器》,IEEE Aerosp Electron Syst Mag,20,8,57-69(2005)·doi:10.1109/MAES.2005.1499276
[9] De Bruin,T。;Kober,J。;Tuyls,K。;Babuška,R.,《将状态表征学习融入深度强化学习》,IEEE Robot Autom Lett,3,3,1394-1401(2018)·doi:10.1109/LRA.2018.2800101
[10] 丁Z,黄Y,袁H,董H(2020)强化学习导论。主题:深度强化学习:基础、研究和应用,第47-123页·Zbl 1435.68011号
[11] Doya,K.,连续时间和空间中的强化学习,神经计算,12,12119-245(2000)·doi:10.1162/089976600300015961
[12] Erazo,K。;森·D。;Nagarajaiah,S。;Sun,L.,使用卡尔曼滤波在不断变化的环境条件下进行基于振动的结构健康监测,机械系统信号处理,117,1-15(2019)·doi:10.1016/j.ymssp.2018.07.041
[13] Evensen,G.,《集合卡尔曼滤波器:理论公式和实际实现》,Ocean Dyn,53,4,343-367(2003)·doi:10.1007/s10236-003-0036-9
[14] Feinberg V,Wan A,Stoica I,Jordan MI,Gonzalez JE,Levine S(2018),高效无模型强化学习的基于模型的价值评估。arXiv:1803.00101
[15] 费希尔,RA,《实验设计》(1937),爱丁堡:奥利弗和博伊德出版社
[16] 富克斯,A。;Heider,Y。;王凯。;太阳,卫生间;Kaliske,M.,DNN2:基于神经网络的弹塑性本构描述自我设计的超参数强化学习游戏,计算结构,249,106505(2021)·doi:10.1016/j.compstruc.2021.106505
[17] 加尼姆,R。;Ferro,G.,使用集合卡尔曼滤波器对强非线性系统进行健康监测,结构控制健康监测,13,1,245-259(2006)·doi:10.1002/stc.139
[18] Gnecco,G。;Sanguineti,M.,通过Rademacher复杂性逼近误差界,应用数学科学,2153-176(2008)·Zbl 1169.42320号
[19] Gu S,Lillicrap T,Sutskever I,Levine S(2016)基于模型加速的持续深度q学习。参加:机器学习国际会议。PMLR,第2829-2838页
[20] Gu S、Holly E、Lillicrap T、Levine S(2017)《利用异步非政策更新进行机器人操作的深度强化学习》。2017年IEEE机器人与自动化国际会议(ICRA)。IEEE,第3389-3396页
[21] Heider,Y。;王凯。;Sun,WC,So(3)-各向异性弹塑性材料基于信息纹理的深度神经网络的不变性,计算方法应用机械工程,363112875(2020)·Zbl 1436.74012号 ·doi:10.1016/j.cma.2020.112875
[22] Heider,Y。;Suh,HS;Sun,WC,通过自行设计/自我改进的神经网络实现的离线多尺度非饱和孔隙力学模型,国际数值分析方法地质力学杂志,45,9,1212-1237(2021)·doi:10.1002/nag.3196
[23] 海丝特,T。;Stone,P.,Texplore:机器人实时样本高效强化学习,《马赫学习》,90,385-429(2013)·doi:10.1007/s10994-012-5322-7
[24] 欢,X。;Marzouk,YM,《非线性系统基于仿真的最优贝叶斯实验设计》,《计算物理杂志》,232,1,288-317(2013)·doi:10.1016/j.jcp.2012.08.013
[25] Huan X,Marzouk YM(2016)通过近似动态规划的序列贝叶斯最优实验设计。arXiv:1604.08320
[26] 黄,J。;李,D。;李,H。;Song,G。;Liang,Y.,基于新型协整卡尔曼滤波方法的大型斜拉桥在变化环境下的损伤识别,结构控制健康监测,25,5,e2152(2018)·doi:10.1002/stc.2152
[27] 黄,Y。;于建奇;贝克,JL;朱,H。;Li,H.,新型稀疏诱导双卡尔曼滤波器及其在跟踪时变空间解析结构刚度变化和输入中的应用,计算方法应用机械工程,372113411(2020)·兹比尔1506.62376 ·doi:10.1016/j.cma.2020.113411
[28] 贾兹温斯基,AH,《随机过程和过滤理论》(2007),北切姆斯福德:Courier Corporation,北切姆斯福德·Zbl 1203.60001号
[29] Jin,C。;Jang,S。;太阳,X。;李,J。;Christenson,R.,《使用扩展卡尔曼滤波训练神经网络检测严重温度变化下公路桥梁的损伤》,J Civ Struct Heal Monit,6,3,545-560(2016)·doi:10.1007/s13349-016-0173-8
[30] Jones RE、Frankel AL、Johnson KL(2022)通过内部状态变量模拟非弹性应力响应的神经常微分方程框架。J马赫数学习模型计算3(3)
[31] Julier SJ,Uhlmann JK(1997)卡尔曼滤波器对非线性系统的新扩展。In:信号处理、传感器融合和目标识别VI,第3068卷。SPIE,第182-193页
[32] 朱利尔,SJ;Uhlmann,JK,《无中心滤波和非线性估计》,IEEE程序,92,3,401-422(2004)·doi:10.1109/JPROC.2003.823141
[33] Kaelbling,有限合伙人;利特曼,ML;Moore,AW,《强化学习:一项调查》,J Artif Intell Res,4237-285(1996)·doi:10.1613/jair.301
[34] 《线性滤波和预测问题的新方法》,《基础工程杂志》,82,1,35-45(1960)·数字对象标识代码:10.1115/1.3662552
[35] Kingma DP,Ba J(2014)Adam:一种随机优化方法。arXiv:1412.6980
[36] Kiumarsi,B。;Vamvoudakis,KG;莫达雷斯,H。;路易斯,佛罗里达州,《使用强化学习的最优和自治控制:一项调查》,IEEE Trans Neural Netw Learn Syst,29,6,2042-2062(2017)·doi:10.1109/TNNLS.2017.2773458
[37] Kober,J。;安德鲁·巴格内尔,J。;Peters,J.,《机器人强化学习:一项调查》,《国际机器人研究杂志》,32,11,1238-1274(2013)·doi:10.1177/0278364913495721
[38] Kuss M,Rasmussen C(2003)强化学习中的高斯过程。高级神经信息处理系统16
[39] Landajuela M、Petersen BK、Kim S、Santiago CP、Glatt R、Mundhenk N、Pettit JF、Faissol D(2021)通过深度强化学习发现象征性政策。参加:机器学习国际会议。PMLR,第5979-5989页
[40] LaViola JJ(2003)《用于估计四元数运动的无迹和扩展卡尔曼滤波的比较》。载:《2003年美国控制会议记录》,2003年,第3卷。IEEE,第2435-2440页
[41] Lee,JH;Lawrence Ricker,N.,基于扩展卡尔曼滤波器的非线性模型预测控制,工业工程化学研究,33,6,1530-1541(1994)·doi:10.1021/ie00030a013
[42] Lee S-H,Song J(2020)基于正则化的双重自适应卡尔曼滤波器,用于使用稀疏测量识别突发结构损伤。应用科学10(3)
[43] 李毅(2017)深度强化学习:概述。arXiv:1701.07274
[44] Lubliner,J.,塑性理论(2008),北切姆斯福德:Courier Corporation,北切姆斯福德
[45] 马·R。;Sun,WC,结晶岩的计算热力学。第二部分:强各向异性多晶体中的化学损伤塑性和愈合,计算方法应用机械工程,369,113184(2020)·doi:10.1016/j.cma.2020.113184
[46] 麦科恩,RH;奈特,Z。;Gillian Cutter,A.,《纳什-苏特克利夫效率指数评估》,《水文工程杂志》,11,6,597-602(2006)·doi:10.1061/(ASCE)1084-0699(2006)11:6(597)
[47] 莫斯科维茨,T。;Parker-Holder,J。;帕奇亚诺,A。;阿贝尔,M。;Jordan,M.,深度强化学习的战术乐观主义和悲观主义,高级神经信息处理系统,3412849-12863(2021)
[48] Murphy KP(1998)切换卡尔曼滤波器。技术报告,DEC/Compaq剑桥研究实验室
[49] Nguyen,左;Goulet,JA,《使用切换卡尔曼滤波器进行结构健康监测的异常检测》,结构控制健康监测,25,4,e2136(2018)·doi:10.1002/stc.2136
[50] Niv,Y.,《大脑中的强化学习》,《数学心理学杂志》,第53、3、139-154页(2009年)·兹比尔1176.91139 ·doi:10.1016/j.jmp.2008.12.005
[51] O’Donoghue B、Osband I、Munos R、Mnih V(2018)《不确定性贝尔曼方程与探索》。In:机器学习国际会议,第3836-3845页
[52] Ormoneit,D。;Sen,A.,基于内核的强化学习,Mach Learn,49,2-3,161(2002)·Zbl 1014.68069号 ·doi:10.1023/A:1017928328829
[53] Pukelsheim,F.,《实验的优化设计》(2006),费城:SIAM,费城·兹比尔1101.62063 ·数字对象标识代码:10.1137/1.9780898719109
[54] Reda D、Tao T、van de Panne M(2020)《学习移动:理解环境设计对深度强化学习的重要性》。In:运动、互动和游戏。ACM,第1-10页
[55] 瑞恩,EG;德罗万迪,CC;JM McGree;Pettitt,AN,《贝叶斯优化设计的现代计算算法综述》,《国际统计评论》,84,1,128-154(2016)·Zbl 07763475号 ·doi:10.1111/insr.12107
[56] Scherzinger,WM,使用线搜索方法的各向同性和各向异性塑性模型的返回映射算法,计算方法应用机械工程,317526-553(2017)·Zbl 1439.74066号 ·doi:10.1016/j.cma.2016.11.026
[57] Schrittwieser,J。;休伯特,T。;Mandhane,A。;Barekatain,M。;安东尼奥卢,I。;Silver,D.,通过学习模型规划在线和离线强化学习,Adv Neural Inf Process Syst,34,27580-27591(2021)
[58] Silver D、Hubert T、Schrittwieser J、Antonoglou I、Lai M、Guez A、Lanctot M、Sifre L、Kumaran D、Graepel T等(2017a)使用通用强化学习算法通过自学掌握象棋和shogi。arXiv:1712.01815年
[59] Silver D、Hubert T、Schrittwieser J、Antonoglou I、Lai M、Guez A、Lanctot M、Sifre L、Kumaran D、Graepel T等(2017b)使用通用强化学习算法通过自学掌握象棋和shogi。arXiv:1712.01815年
[60] 西尔弗·D。;施里特维泽,J。;Simonyan,K。;安东尼奥卢,I。;黄,A。;盖兹,A。;休伯特,T。;贝克,L。;赖,M。;博尔顿,A.,《在没有人类知识的情况下掌握围棋游戏》,《自然》,5507676354(2017)·doi:10.1038/nature24270
[61] Simo,JC;休斯,TJR,计算无弹性(2006),柏林:施普林格科学与商业媒体,柏林
[62] 太阳,N-Z;Sun,A.,《模型校准和参数估算:环境和水资源系统》(2015),柏林:施普林格出版社,柏林·兹比尔1319.00002 ·doi:10.1007/978-1-4939-2323-6
[63] 萨顿,RS;Barto,AG,《强化学习:简介》(2018),剑桥:麻省理工学院出版社,剑桥·Zbl 1407.68009号
[64] Vlassis NN,Sun W(2022)基于组件的机器学习范式,用于发现速率相关和压力敏感的水平集塑性模型。应用力学杂志89(2)
[65] 王凯。;Sun,WC,通过深度强化学习推导理论一致、基于微观结构的牵引分离定律的元建模游戏,计算方法应用-机械工程,346216-241(2019)·Zbl 1440.74016号 ·doi:10.1016/j.cma.2018.11.026
[66] 王坤,孙伟庆,杜强(2019)一款利用人工智能引导实验自动学习弹塑性知识图形和模型的合作游戏。计算力学1-33
[67] 王凯。;太阳、WC;Qiang,D.,一个非合作的元模型游戏,用于通过并行对抗攻击自动校准、验证和伪造第三方构成定律,计算方法应用机械工程,373113514(2021)·Zbl 1506.91035号 ·doi:10.1016/j.cma.2020.113514
[68] West,DB,图论导论(2001),《上鞍河:普伦蒂斯·霍尔》,上鞍河
[69] Williams RJ(1992)使用扩展卡尔曼滤波器训练递归网络。In:【Proceedings 1992】IJCNN国际神经网络联合会议,第4卷。IEEE,第241-246页
[70] 杨,JN;Lin,S。;黄,H。;Zhou,L.,用于结构损伤识别的自适应扩展卡尔曼滤波器,结构控制健康监测,13,4,849-867(2006)·doi:10.1002/stc.84
[71] Yang Z,Jin C,Wang Z,Wang M,Jordan MI(2020)关于强化学习中的函数逼近:面对大状态空间的乐观主义。arXiv:2011.04622号
[72] Zhao W,Queralta JP,Westerlund T(2020)《机器人深度强化学习中的模拟现实迁移:一项调查》。2020年IEEE计算智能(SSCI)系列研讨会。IEEE,第737-744页
[73] 周,L。;W.Shinya。;Yang,JN,用于结构损伤识别的自适应扩展卡尔曼滤波器的实验研究,《基础设施系统杂志》,14,1,42-51(2008)·doi:10.1061/(ASCE)1076-0342(2008)14:1(42)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。