文件Zbl 1521.76029-zbMATH Open

保罗·卡尼尔;乔纳森·维克拉特;Jean Rabault;奥雷连·拉彻;亚历山大·库内尔;Elie Hachem

流体力学深层强化学习综述。（英文） Zbl 1521.76029号

计算。流体 225，文章ID 104973，13 p.（2021）.

摘要：深度强化学习（DRL）最近被广泛应用于物理和工程领域，因为它能够解决决策问题，而这些问题以前是由于非线性和高维的结合而无法解决的。近几年来，它在计算力学领域，特别是在流体动力学领域得到了广泛的应用，并在流动控制和形状优化方面得到了最新的应用。在这项工作中，我们对流体力学问题的现有DRL应用进行了详细审查。此外，我们提供了最近的结果，进一步说明了DRL在流体力学中的潜力。涵盖了每种情况下使用的耦合方法，详细说明了它们的优点和局限性。我们的综述还着重于与经典的最优控制和优化方法的比较。最后，描述了几个测试用例，说明了该领域的最新进展。本出版物的目标是为希望解决这些方法的新问题的研究人员提供对DRL能力的理解以及流体动力学中最先进的应用。

引用于12文件

MSC公司：

76A02级	流体力学基础
76M99型	流体力学基本方法

关键词：

深度强化学习;流体力学

软件：

OpenAI健身房;FEniCS公司;普里巴斯;稳定基线;github

PDF格式 BibTeX公司 XML格式引用

全文：内政部 arXiv公司哈尔

参考文献：

[1]	阿里，N。；Behdinan，K.，《使用遗传算法的飞机优化几何设计》，Trans-Can Soc MechEng，26，373-388（2003）
[2]	Alns，医学硕士。；Bletcha，J。；Hake，A。；Johansson，B。；Kehlet，B。；Logg，A.，《FEniCS项目1.5版》，Arch Numer Softw，3（2015）
[3]	编辑：Aeronautics A。具有四个变形参数的变形翼型。2008
[4]	巴达瑙，D。；Brakel，P。；Xu，K。；戈亚尔，A。；罗伊。；Pineau，J.，序列预测的actor-critic算法，CoRR，2015，1-17（2016）
[5]	Bellman，R.，《马尔科夫决策过程》，《数学力学杂志》，6，5，679-684（1957）·兹伯利0078.34101
[6]	贝尔曼，R。；Dreyfus，S.E.，应用动态编程（1962），普林斯顿大学出版社，普林斯顿：普林斯顿大学出版，普林斯顿新泽西·Zbl 0106.34901号
[7]	Bergmann，M。；科迪尔，L。；Brancher，J.-P.，使用适当的正交分解降阶模型对圆柱尾迹进行最优旋转控制，《物理流体》，17，9，097101（2005）·Zbl 1187.76044号
[8]	Bewley，A。；Rigley，J。；刘，Y。；霍克，J。；沈，R。；Lam，V.-D.，《在没有真实世界标签的情况下从模拟中学习驾驶》，arXiv电子版（2018年）
[9]	博图，L。；柯蒂斯，F.E。；Nocedal，J.，《大规模机器学习的优化方法》，SIAM Rev，60，223-311（2018）·Zbl 1397.65085号
[10]	布罗克曼，G。；张，V。；佩特森，L。；施耐德，J。；舒尔曼，J。；Tang，J.，OpenAI健身房，arXiv电子版（2016）
[11]	Brown，N。；Sandholm，T.，《多人扑克的超人AI》，《科学》（2019）·Zbl 1433.68316号
[12]	Bucci，硕士。；塞梅拉罗，O。；Allauzen，A。；维斯涅夫斯基，G。；科迪尔，L。；Mathelin，L.，通过深度强化学习控制混沌系统，arXiv（2019）·Zbl 1472.68171号
[13]	科拉布雷斯，S。；古斯塔夫森，K。；Celani，A。；Biferale，L.，通过强化学习实现智能微处理机的流量导航，Phys Rev Lett，118，15，158004（2017）
[14]	弗朗索瓦·拉维（François-lavet，V.）。；亨德森，P。；伊斯兰共和国。；Bellemare，M.G.，深度强化学习简介，机器学习的基础和趋势（2018）·Zbl 1448.68021号
[15]	Garnier P.，Viquerat J.，减少阻力的控制气缸位置。https://github.com/DonsetPG/fenics-DRL; 2019
[16]	加佐拉，M。；Tchieu，A.A。；Alexeev，D。；de Brauer，A。；Koumoutsakos，P.，《流体力学杂志》，789726-749（2016）
[17]	古德费罗，I。；Y.本吉奥。；A.Courville，《深度学习》（2017），麻省理工学院出版社
[18]	盖尼亚特，F。；马瑟林，L。；Hussaini，M.Y.，流体流量闭环控制的统计学习策略，Theor Compute fluid Dyn，30，6，497-510（2016）
[19]	古斯塔夫森，K。；二倍体，L。；Celani，A。；Colabrese，S.，《通过强化学习在三维混沌流中寻找有效的游泳策略》，arXiv e-prints（2017）
[20]	Hill A.、Raffin A.、Ernestus M.、Gleave A.、Traore R.、Dhariwal P.、Hesse C.、Klimov O.、Nichol A.、Plappert M.、Radford A.、Schulman J.、Sidor S.、Wu Y.稳定基线。https://github.com/hill-a/stable-baselines网站; 2018
[21]	Hochreiter，S。；Schmidhuber，J.，《长短期记忆》，神经计算，91735-1780（1997）
[22]	侯曾，A.C。；Tong，P.W。；Nallan，S。；Pak，O.S.，《在低雷诺数下自学游泳》，arXiv（2018）
[23]	Houthooft，R。；Chen，R.Y。；Isola，P。；斯塔迪，B.C。；沃尔斯基，F。；Ho，J.，《演变的政策梯度》，arXiv电子版（2018年）
[24]	Howard，R.A.，《动态规划与马尔可夫过程》（1960），科技出版社和威利出版社：纽约科技出版社和威利出版社·Zbl 0091.16001号
[25]	肯德尔，A。；霍克，J。；Janz，D。；Mazur，P。；雷达，D。；Allen，J.-M.，《一天内学会开车》，arXiv电子版（2018）
[26]	Knight W.谷歌刚刚将数据中心冷却的控制权交给了人工智能。https://www.technologyreview.com/s/611902/google-just-gave-control-over-data-center-cooling-to-an-ai网站/; 2018
[27]	Lee，J。；Hajela，P.，多学科转子叶片设计中的并行遗传算法实现，J Aircr，33，962-969（1996）
[28]	Lee，X.Y。；巴鲁，A。；Stoecklein，D。；Ganapathysubramanian，B。；Sarkar，S.，《利用深度强化学习进行微流体装置的流型设计》，CoRR，1-10（2018）
[29]	Lillicrap，T.P。；亨特·J·J。；Pritzel，A。；海斯，北。；埃雷兹，T。；塔萨，Y。；西尔弗·D。；Wierstra，D.，《深度强化学习的持续控制》，arXiv电子版（2015）
[30]	UMI订单号GAX93-22750
[31]	Liou，C.-Y。；Cheng，W.C。；刘，J.-W。；Liou，D.-R.，单词自动编码器，神经计算，13984-96（2014）
[32]	马，P。；田，Y。；潘，Z。；任，B。；Manocha，D.，使用深度强化学习的流体导向刚体控制，ACM Trans Graph，37，1-11（2018）
[33]	梅基宁，R.A.E。；Periaux，J。；Toivanen，J.，使用遗传算法的空气动力学和电磁学多学科形状优化，国际数值方法流体，30，149-159（1999）·Zbl 0929.76105号
[34]	马托斯，R。；劳尔森，T。；巴尔加斯，J。；Bejan，A.，强迫对流中交错翅片圆管和椭圆管的三维优化，国际热科学杂志，43，477-487（2004）·Zbl 1045.76558号
[35]	https://hal.archives-ouvertes.fr/hal-01082600
[36]	Mnih，V。；Kavukcuoglu，K。；西尔弗·D。；格雷夫斯，A。；安东尼奥卢，I。；Wierstra，D.，用深度强化学习演奏atari，CoRR（2013）
[37]	姆尼赫，V。；Puigdomènech Badia，A。；米尔扎，M。；格雷夫斯，A。；Lillicrap，T.P。；Harley，T.，深度强化学习的异步方法，arXiv电子打印（2016）
[38]	缪尔，F。；杜马，L。；Herbert，V.，汽车工业气动形状优化的混合方法，计算流体，33849-858（2004）·Zbl 1047.76102号
[39]	诺瓦蒂，G。；Verma，S。；Alexeev，D。；Rossinelli，D。；范·里斯，W.M。；Koumoutsakos，P.，《双鱼同步游泳》，《生物灵感仿生学》，12，3，036001（2017）
[40]	开放人工智能。OpenAI Five。https://blog.openai.com/openai-five网站/; 2018
[41]	平托，L。；安德里科维奇，M。；韦林德，P。；Zaremba，W。；Abbeel，P.，基于图像的机器人学习的非对称演员评论家，CoRR（2017）
[42]	邱，J。；赵，L。；徐，C。；Yao，Y.，《通过强化学习解决细长微型游泳运动员的游泳策略》，arXiv（2018）
[43]	Rabault，J。；库赫塔，M。；Jensen，A。；Réglade，美国。；Cerardi，N.，通过深度强化学习训练的人工神经网络，发现主动流控制的控制策略，《流体力学杂志》，865281-302（2019）·Zbl 1415.76222号
[44]	Rabault，J。；Kuhnle，A.，《通过多环境方法加速主动流控制策略的深度强化学习》，arXiv e-prints（2019）
[45]	Schäfer，M。；Turek，S。；杜斯特，F。；克劳斯，E。；Rannacher，R.，圆柱周围层流的基准计算，高性能计算机的流动模拟II，547-566（1996），Springer·Zbl 0874.76070号
[46]	Schaul，T。；Quan，J。；安东尼奥卢，I。；Silver，D.，优先体验回放，arXiv电子打印（2015）
[47]	舒尔曼，J。；莱文，S。；莫里茨，P。；M.I.乔丹。；Abbeel，P.，《信托区域政策优化》，arXiv电子版（2015）
[48]	舒尔曼，J。；莫里茨，P。；莱文，S。；约旦，M。；Abbeel，P.，使用广义优势估计的高维连续控制，arXiv电子版，1-14（2016）
[49]	http://www.sciencedirect.com/science/article/pii/S0022000085710136 ·兹伯利0826.68104
[50]	西尔弗·D。；Schrittwieser，J。；Simonyan，K。；安东尼奥卢，I。；Huang，A。；A.盖兹。；休伯特，T。；贝克，L。；赖，M。；博尔顿，A。；陈，Y。；Lillicrap，T。；Hui，F。；Sifre，L。；van den Driessche，G。；Graepel，T。；Hassabis，D.，《在没有人类知识的情况下掌握围棋游戏》，《自然》，550（2017）
[51]	Strang，G.，《线性代数与数据学习》（2019），韦尔斯利-剑桥出版社·Zbl 1422.15001号
[52]	Sutton，R.S.，《通过时间差异方法学习预测》，《马赫学习》，第3、1、9-44页（1988年）
[53]	Sutton，R.S。；Barto，A.G.，《强化学习：导论》（1998年），麻省理工学院出版社：麻省理学院出版社剑桥
[54]	Sutton，R.S。；Barto，A.G.，《强化学习：简介》（2018年），麻省理工学院出版社：麻省理学院出版社剑桥·Zbl 1407.68009号
[55]	Tesauro，G.，《时间差异学习和TD-gammon》，美国医学委员会，38（1995）
[56]	齐齐克利斯，J。；Van Roy，B.，《函数逼近下的时间差分学习分析》，IEEE Trans，674-690（1997）·Zbl 0914.93075号
[57]	van Hasselt，H。；A.盖兹。；Silver，D.，双q学习深度强化学习，arXiv电子版（2015）
[58]	Verma，S。；诺瓦蒂，G。；Koumoutsakos，P.，《通过深度强化学习利用旋涡实现高效集体游泳》，arXiv电子版（2018年）
[59]	Vinyals O.、Babuschkin I.、Chung J.、Mathieu M.、Jaderberg M.、Czarnecki W.M.、Dudzik A.、Huang A.、Georgiev P.、Powell R.、Ewalds T.、Horgan D.、Krois M.、Danihelka I.、Agapiou J.、Oh J.、Dalibard V.、Choi、Sifre L.、Sulsky Y.、Vezhnevets S.、Molloy J.、Cai T.、Budden D.、Paine T.、Gulcehre C.、Wang Z.、Pfaff T.、Pohlen T.、Wu Y.、Y。，Cohen J.、McKinney K.、Smith O.、Schaul T.、Lillicrap T.、Apps C.、Kavukcuoglu K.、Hassabis D.、Silver D..AlphaStar:掌握实时战略游戏StarCraft II。https://deepmind.com/blog/alphastar-mastering-real-time-strategy-game-starcraft-ii/; 2019
[60]	Williams，R.J.，连接强化学习的简单统计梯度允许算法，《马赫学习》，第8、3、229-256页（1992年）·Zbl 0772.68076号

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
ab公司	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文档类型(j个：期刊文章；b条：书本；一：书籍文章）

一&b条	逻辑和
一\|b条	逻辑或
!ab公司	逻辑不
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

领域

操作员

流体力学深层强化学习综述。（英文） Zbl 1521.76029号

MSC公司：

关键词：

软件：

参考文献：

示例

领域

操作员

流体力学深层强化学习综述。 （英文） Zbl 1521.76029号

MSC公司：

关键词：

软件：

参考文献：

流体力学深层强化学习综述。（英文） Zbl 1521.76029号