×

使用自适应多重网格强化学习框架的鲁棒最优井控。 (英语) Zbl 1522.86004号

摘要:强化学习(RL)是解决模型参数高度不确定且系统在实际中部分可观测的鲁棒最优井控问题的一种很有前途的工具。然而,鲁棒控制策略的RL通常依赖于执行大量仿真。对于计算密集型模拟的情况,这很容易变得难以计算。为了解决这一瓶颈,受迭代数值算法中几何多重网格方法原理的启发,引入了一种自适应多重网格RL框架。RL控制策略最初是通过对基本偏微分方程(PDE)进行粗网格离散化的计算效率低的模拟来学习的。随后,仿真保真度以自适应方式增加,以达到与模型域的最佳离散化相对应的最高保真度仿真。使用最先进的、基于无模型策略的RL算法,即近端策略优化算法,证明了该框架。受SPE-10模型2基准案例研究的启发,给出了稳健最优井控问题的两个案例研究结果。使用该框架可以显著提高计算效率,与单个精细网格相比,节省了大约60-70%的计算成本。

MSC公司:

86-08 地球物理问题的计算方法
68T05型 人工智能中的学习和自适应系统
65号55 多重网格方法;含偏微分方程边值问题的区域分解
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] 安德里尼,E。;正手,DI;斯坦塞尔,P。;肖,Q。;Abusara,M.,使用强化学习控制点吸收器,IEEE Trans Sustain Energy,7,4,1681-1690(2016)·doi:10.1109/TSTE.2016.2568754
[2] Anderson C,Crawford Hines S(1994)多网格q学习。在技术报告CS-94-121中,Citeser
[3] Brouwer D、Jansen J、Van der Starre S、Van Kruijsdijk C、Berentsen C等(2001),通过智能井技术注水提高采收率。在:SPE欧洲地层损害会议,石油工程师协会
[4] Christie MA、Blunt M等人(2001)第十个SPE比较解决方案项目:升级技术的比较。石油工程师协会。主题:SPE油藏模拟研讨会
[5] 迪克西,A。;ElSheikh,AH,使用强化学习实现地下储层的随机最优井控,Eng-Appl-Artif Intell,114(2022)·doi:10.1016/j.engappai.2022.105106
[6] Dornheim,J。;链接,N。;Gumbsch,P.,使用强化学习对间歇固定水平制造过程进行无模型自适应最优控制,国际J控制自动化系统,18,6,1593-1604(2020)·doi:10.1007/s12555-019-0120-7
[7] Fachantidis,A。;帕塔拉斯,I。;Tsoumakas,G。;Vlahavas,I.,在强化学习代理中转移任务模型,神经计算,107,23-32(2013)·doi:10.1016/j.neucom.2012.08.039
[8] Fernández,F。;加西亚,J。;Veloso,M.,任务间转移学习的概率策略重用,机器人自动系统,58,7,866-871(2010)·doi:10.1016/j.robot.2010.03.007
[9] Lazaric A、Restelli M、Bonarini A(2008)批量强化学习中的样本转移。第25届机器学习国际会议论文集,544-551
[10] 李斌,夏露(2015)建筑暖通空调节能与舒适性的多网格强化学习方法。2015年IEEE自动化科学与工程国际会议(CASE),IEEE,444-449
[11] Miftakhov R、Al-Qasim A、Efremov I(2020)《深度强化学习:基于像素的水库优化》。参加:OnePetro国际石油技术会议
[12] Müller S,Schüler L(2019)Geostat-framework/gtools:蹦蹦蓝
[13] Narvekar S、Sinapov J、Leonetti M、Stone P(2016)课程学习源任务创建。摘自:2016年自主代理和多代理系统国际会议记录,566-574
[14] Nasir Y,He J,Hu C,Tanaka S,Wang K,Wen X(2021)地下两相流约束油田开发优化的深度强化学习。arXiv预打印arXiv:2104.00527
[15] Pareigis S(1996)受控扩散过程中强化学习的多网格方法。In:NIPS,Citeser,第1033-1039页
[16] Park K(2011)度量空间中的建模不确定性。斯坦福大学
[17] Rabault,J。;库赫塔,M。;詹森,A。;雷格莱德,美国。;Cerardi,N.,通过深度强化学习训练的人工神经网络,发现主动流控制的控制策略,《流体力学杂志》,865281-302(2019)·兹比尔1415.76222 ·doi:10.1017/jfm.2019.62
[18] Raffin A,Hill A,Ernestus M,Gleave A,Kanervisto A,Dormann N(2019)稳定基线3。https://github.com/DLR-RM/stable-baselines3 ·Zbl 07626783号
[19] Roseta-Palma,C。;Xepapadeas,A.,《水管理中的稳健控制》,《风险不确定性杂志》,29,1,21-34(2004)·Zbl 1074.91033号 ·doi:10.1023/B:RISK.0000031443.39763.f0
[20] Schulman J,Moritz P,Levine S,Jordan M,Abbeel P(2015)使用广义优势估计的高维连续控制。arXiv预打印arXiv:1506.02438
[21] Schulman J、Wolski F、Dhariwal P、Radford A、Klimov O(2017)近似策略优化算法。arXiv预打印arXiv:1707.06347
[22] 斯托恩,R。;Price,K.,差分进化——连续空间上全局优化的一种简单有效的启发式算法,J Glob Optim,11,4,341-359(1997)·Zbl 0888.90135号 ·doi:10.1023/A:1008202821328
[23] Taylor ME,Stone P(2005),基于价值函数的强化学习的行为迁移。收录:第四届自主代理和多代理系统国际联合会议记录,53-59
[24] Taylor ME,Stone P(2009),强化学习领域的迁移学习:一项调查。J Mach学习研究10(7)·Zbl 1235.68196号
[25] van Essen,G。;Zandvliet,M。;范登霍夫,P。;O.博斯格拉。;Jansen,JD,《多地质场景的稳健注水优化》,SPE J,14,1,202-210(2009)·doi:10.2118/102913-PA
[26] Virtanen P、Gommers R、Oliphant TE、Haberland M、Reddy T、Cournapeau D、Burovski E、Peterson P、Weckesser W、Bright J、van der Walt SJ、Brett M、Wilson J、Millman KJ、Mayorov N、Nelson ARJ、Jones E、Kern R、Larson E、Carey CJ、Polat I、Feng Y、Moore EW、VanderPlas J、Laxalde D、Perktold J、Cimrman R、Henriksen I、Quintro EA、Harris CR、,Archibald AM,Ribeiro AH,Pedregosa F,van Mulbregt P,SciPy 10 Contributors,(2020)SciPy1.0:python中科学计算的基本算法。自然方法17:261-272
[27] Whitaker S(1999)均质多孔介质中的单相流动:达西定律。In:体积平均法,柏林施普林格,161-180
[28] Ziv O,Shimkin N(2005)政策评估和强化学习的多重网格方法。摘自:2005年IEEE国际研讨会论文集,2005年控制和自动化智能控制地中海会议,IEEE,1391-1396
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。