文件Zbl 1482.91225-zbMATH Open

强化学习和随机优化。（英语） Zbl 1482.91225号

财务统计。 26，第1号，103-129（2022）.

概要：金融数学的核心是随机优化问题。解决此类问题的传统方法虽然适用于各种模型，但需要指定一个模型来完成分析并获得可实现的结果。即便如此，维度诅咒也对传统方法在实际相关环境中的可行性提出了挑战。相比之下，机器学习，尤其是强化学习（RL），承诺从数据中学习并同时克服维数灾难。本文涉及现有文献中的几种方法，这些方法可以很好地将我们的传统技术与RL相结合。

引用于6文件

理学硕士：

91G80型	其他理论的金融应用
93E20型	最优随机控制
68T07型	人工神经网络与深度学习
91A15型	随机对策，随机微分对策

关键词：

随机优化;随机博弈;强化学习;机器学习

软件：

深度LOB;DGM公司;火炬;亚当

PDF格式 BibTeX公司 XML格式引用

全文：内政部

参考文献：

[1]	Al-Aradi，A.，Correia，A.，Naiff，D.，Jardim，G.，Saporito，Y.：通过深度学习求解非线性和高维偏微分方程。预印本（2018）。在线提供时间：https://arxiv.org/abs/1811.08782
[2]	Al-Aradi，A。；Jaimungal，S.，《超越绩效和跟踪：主动和被动投资组合管理的动态资产配置》，应用。数学。财务，25，268-294（2018）·Zbl 1418.91445号
[3]	Al-Aradi，A。；Jaimungal，S.，带潜在因素的主动和被动投资组合管理，Quant。金融，211437-1459（2021）
[4]	巴林，D.A。，Schweizer，M.：《使无可避免的不和谐变分：超越NFLVR和NUPBR的新FTAP》，瑞士金融研究所研究论文第18-23号（2020年）。在线提供时间：http://papers.ssrn.com/sol3/papers.cfm？abstract_id=3141770
[5]	Bayer，C.，Horvath，B.，Muguruza，A.，Stemper，B.，Tomas，M.：关于（粗糙）随机波动率模型的深度校准。预印本（2019年）。可在线访问https://arxiv.org/abs/1908.08806
[6]	黑色，F。；Scholes，M.，《期权和公司负债的定价》，《政治经济学杂志》。，81, 637-654 (1973) ·Zbl 1092.91524号
[7]	Bo，L。；Capponi，A.，银行间网络的系统风险，SIAM J.Financ。数学。，6, 386-424 (2015) ·Zbl 1315.91065号
[8]	Borovykh，A。；Pascucci，A。；La Rovere，S.，具有自激冲击的银行同业拆借平均场模型中的系统风险，IISE Trans。，50, 806-819 (2018)
[9]	Bouveret，G.，Dumitrescu，R.，Tankov，P.：用水的技术变化：最佳投资时机的平均场博弈方法。预印本（2020年）。可在线访问https://papers.ssrn.com/sol3/papers.cfm？abstract_id=3640181 ·Zbl 1452.91031号
[10]	Buehler，H。；Gonon，L。；Teichmann，J。；Wood，B.，深度对冲，数量。《金融》，191271-1291（2019）·Zbl 1420.91450
[11]	Buehler，H.、Horvath，B.、Lyons，T.、Perez Arribas，I.、Wood，B.：小数据环境的数据驱动市场模拟器。预印本（2020年）。在线提供时间：https://papers.ssrn.com/sol3/papers.cfm？abstract_id=3632431
[12]	凯恩斯，体育。；Huang，M.，Graphon平均场游戏和GMFG方程，2018年IEEE决策与控制会议（CDC）论文集，4129-4134（2018）
[13]	Campbell，S.、Chen，Y.、Shrivats，A.、Jaimungal，S.：委托代理平均场游戏的深度学习。arXiv预印本2110.01127（2021）
[14]	Cardaliaguet，P。；德拉鲁，F。；Lasry，J.-M。；Lions，P.-L.，《平均场游戏中的主方程和收敛问题》（2019），普林斯顿：普林斯顿大学出版社，普林斯顿·Zbl 1430.91002号
[15]	Cardaliaguet，P。；Lehalle，C.-A.，《平均场控制游戏和贸易拥挤应用》，数学。财务。经济。，12333-363（2018）·Zbl 1397.91084号
[16]	Carmona，R.，Cooney，D.，Graves，C.，Laurière，M.：随机图形游戏：I.静态案例。预印本（2019年）。可在线访问https://arxiv.org/abs/1911.10664
[17]	卡莫纳，R。；Delarue，F.，《平均场博弈的概率理论及其应用I.平均场FBSDE、控制和博弈》（2018），柏林：施普林格出版社，柏林·Zbl 1422.91014号
[18]	卡莫纳，R。；Delarue，F.，平均场博弈的概率理论及其应用II。《带常见噪声和主方程的平均场游戏》（2018），柏林：施普林格，柏林·Zbl 1422.91015号
[19]	卡莫纳，R。；福克，J.-P。；Sun，L.-H.，《平均场游戏和系统风险》，Commun。数学。科学。，13, 911-933 (2015) ·Zbl 1337.91031号
[20]	卡莫纳，R。；Hamidouche，K。；Laurière，M。；Tan，Z.，线性二次零和平均场型博弈的政策优化，2020年IEEE第59届决策与控制会议论文集，1038-1043（2020）
[21]	Carmona，R.，Laurière，M.：平均场控制和博弈数值解机器学习算法的收敛性分析：II-有限水平情况。预印本（2019）。可在线访问https://arxiv.org/abs/1908.01613 ·Zbl 1479.65013号
[22]	Carmona，R.，Laurière，M.，Tan，Z.：线性二次平均场强化学习：策略梯度方法的收敛性。预印本（2019年）。可在线访问https://arxiv.org/abs/1910.04295
[23]	Carmona，R.、Laurière，M.、Tan，Z.：无模型平均场强化学习：平均场MDP和平均场Q学习。预印本（2019年）。可在线访问https://arxiv.org/abs/1910.12802
[24]	加利福尼亚州卡特亚。；Jaimungal，S.，将订单流纳入最佳执行，数学。财务。经济。，10, 339-364 (2016) ·Zbl 1404.91241号
[25]	加利福尼亚州卡特亚。；南加尔。；Sánchez-Betancourt，L。；Capponi，A。；Lehalle，C.-A.，《外汇交易强化学习，金融市场的机器学习和数据科学：当代实践指南》（2022），剑桥：剑桥大学出版社，剑桥
[26]	阿卡蒂亚。，Perez Arribas，I.，Sánchez-Betancourt，L.：外国证券的最优执行：签名和机器学习的双重执行问题。预印本（2020年）。可在线访问https://ssrn.com/abstract=3562251
[27]	Casgrain，P.，Jaimungal，S.：算法交易的部分信息平均场游戏。预印本（2018）。可在线访问https://arxiv.org/abs/1803.04094 ·Zbl 1508.91522号
[28]	卡斯格伦，P。；Jaimungal，S.，《潜在阿尔法模型中学习的交易算法》，数学。《金融》，29735-772（2019）·Zbl 1426.91241号
[29]	卡斯格伦，P。；Jaimungal，S.，Mean-field游戏，算法交易的不同信念，数学。财务，30995-1034（2020）·Zbl 1508.91522号
[30]	Casgrain，P.，Kratsios，A.：优化优化器：回归最优梯度下降算法。预印本（2020年）。可在线访问https://arxiv.org/abs/2101.00041
[31]	Casgrain，P.，Ning，B.，Jaimungal，S.：纳什均衡的深度Q学习：纳什-DQN。预印本（2019）。可在线访问https://arxiv.org/abs/1904.10554 ·Zbl 1426.91241号
[32]	肖万，Y。；Rumelhart，D.E.，《反向传播：理论、架构和应用》（1995），纽约：心理学出版社，纽约
[33]	库切罗，C。；西科斯拉维。；Teichmann，J.，用于校准局部随机波动率模型的生成性对抗网络方法，风险，8，4，1-31（2020）
[34]	库切罗，C。；Larsson，M。；Teichmann，J.，《深度神经网络、通用插值和受控常微分方程》，SIAM J.Math。数据科学。，2, 901-919 (2020) ·Zbl 1485.93062号
[35]	Cybenko，G.，通过sigmoid函数的叠加进行逼近，数学。控制信号系统。，2, 303-314 (1989) ·Zbl 0679.94019号
[36]	Dabérius，K.，Granat，E.，Karlsson，P.：交易和超越市场基准的深度执行价值和基于政策的强化学习。预印本（2019年）。可在线访问https://ssrn.com/abstract=3374766
[37]	De Spiegleer，J。；Madan，D.B。；雷纳，S。；Schoutens，W.，《定量金融的机器学习：快速衍生品定价、套期保值和拟合》，Quant。《金融》，第18期，1635-1643页（2018年）·Zbl 1406.91439号
[38]	德尔巴恩，F。；Schachermayer，W.，资产定价基本定理的一般版本，数学。年鉴，300，463-520（1994）·Zbl 0865.90014号
[39]	E、 W。；Han，J。；Jentzen，A.，基于深度学习的高维抛物型偏微分方程和倒向随机微分方程数值方法，Commun。数学。Stat.，5349-380（2017）·Zbl 1382.65016号
[40]	范，J。；王，Z。；谢毅。；杨，Z。；Bayen，A.M.，深度Q-学习的理论分析，第二届动力学和控制学习会议论文集，486-489（2020）
[41]	Ferguson，R.，Green，A.：深入学习衍生品。预印本（2018）。可在线访问https://arxiv.org/abs/1809.02233
[42]	Fernandez Arjona，L.，Filipović，D.：高维问题投资组合定价和风险管理的机器学习方法。瑞士金融研究所研究论文第20-28号（2020年）。可在线访问https://ssrn.com/abstract=3588376（网址：https://ssrn.com/abstract=3588376）
[43]	Féron，O。；Tankov，P。；Tinsi，L.，《主要参与者日内电力市场的价格形成和最优交易》，风险，8，4，1-21（2020年）
[44]	Ferreira，T.A.：在自动交易中的应用增强了深度马尔可夫模型。预印本（2020年）。可在线访问https://arxiv.org/abs/2011.04391
[45]	Firoozi，D。；Caines，P.E.，《金融中部分观测到的最优执行问题的平均场博弈-纳什均衡》，2016年IEEE第55届决策与控制会议论文集，268-275（2016）
[46]	Firoozi，D.，Jaimungal，S.：具有熵正则化的探索性LQG平均场对策。Automatica（2020年，即将出版）。可在线访问https://arxiv.org/abs/2011.2946
[47]	Gatheral，J.，《非动态随机和市场影响》，Quant。《金融》，10749-759（2010）·Zbl 1194.91208号
[48]	Germain，M.，Pham，H.，Warin，X.：金融中基于神经网络的随机控制和偏微分方程算法。预印本（2021年）。可在线访问https://arxiv.org/abs/2101.08068 ·Zbl 07341723号
[49]	Gierjatowicz，P.，Sabate-Vidales，M.，Šiška，D.，Szpruch，L.，Zhi urič通过神经SDE进行稳健定价和对冲。预印本（2020年）。可在线访问https://ssrn.com/abstract=3646241
[50]	古德费罗，I。；Pouget-Abadie，J。；米尔扎，M。；徐，B。；Warde-Farley，D。；Ozair，S。；科尔维尔，A。；Bengio，Y.，《生成性对抗网络》，Commun。ACM，63、11、139-144（2020年）
[51]	Gu，H.、Guo，X.、Wei，X.和Xu，R.：带学习的平均场控制的动态编程原则。预印本（2019年）。可在线访问https://arxiv.org/abs/1911.07314v5
[52]	Gu，H.，Guo，X.，Wei，X.，Xu，R.：合作MARL的Q学习平均场控制：收敛性和复杂性分析。预印本（2020年）。可在线访问https://arxiv.org/abs/2002.04131 ·兹伯利1479.49088
[53]	顾S。；Lillicrap，T。；Sutskever，I。；莱文，S。；Balcan，M.F。；Weinberger，K.Q.，《基于模型加速的持续深度Q-学习》，机器学习国际会议，2829-2838（2016），纽约：PMLR，纽约
[54]	郭，X。；胡，A。；Xu，R。；张杰。；d'Alché-Buc，F.，《学习平均场游戏，神经信息处理系统的进展》，4966-4976（2019），红钩：Curran Associates，红钩
[55]	Guo，X.，Xu，R.，Zariphopoulou，T.：带学习的平均场对策的熵正则化。预印本（2020年）。可在线访问https://arxiv.org/abs/2010.00145
[56]	Han，J。；胡，R。；卢，J。；Ward，R.，在多智能体游戏中寻找马尔可夫-纳什均衡的深度虚构游戏，《第一届数学和科学机器学习会议论文集》，221-245（2020）
[57]	Han，J。；Long，J.，耦合FBSDE的深BSDE方法的收敛性，Probab。不确定。数量。风险，51-33（2020年）·Zbl 1454.60105号
[58]	哈里森·J·M。；Kreps，D.M.，《多期证券市场中的鞅和套利》，J.Econ。理论，20381-408（1979）·Zbl 0431.90019号
[59]	哈里森·J·M。；Pliska，S.R.，连续交易理论中的鞅和随机积分，斯托克。过程。申请。，11, 215-260 (1981) ·Zbl 0482.60097号
[60]	Horel，E.，Giesecke，K.：走向可解释的人工智能：神经网络的显著性测试。预印本（2019年）。可在线访问https://arxiv.org/abs/1902.06021 ·Zbl 07307487号
[61]	Hornik，K.，多层前馈网络的逼近能力，神经网络。，4, 251-257 (1991)
[62]	霍尼克，K。；Stinchcombe，M。；White，H.，多层前馈网络是通用逼近器，神经网络。，2, 359-366 (1989) ·兹比尔1383.92015
[63]	胡，J。；Wellman，M.P.，广义和随机博弈的Nash Q学习，J.Mach。学习。第4号决议，1039-1069（2003）·兹比尔1094.68076
[64]	Huang，M.，涉及主要参与者的大种群LQG博弈：纳什确定性等价原理，SIAM J.控制优化。，48, 3318-3353 (2010) ·Zbl 1200.91020号
[65]	黄，M。；Caines，体育。；Malhamé，R.P.，具有非均匀代理的大种群成本耦合LQG问题：个体-群体行为和分散-纳什均衡，IEEE Trans。自动。控制，52，1560-1571（2007）·Zbl 1366.91016号
[66]	黄，M。；Malhamé，R.P。；Caines，P.E.，《大种群随机动态博弈：闭环McKean-Vlasov系统和Nash确定性等价原理》，Commun。信息系统。，6, 221-252 (2006) ·Zbl 1136.91349号
[67]	黄，X。；南加尔。；Nourian，M.，Mean-field游戏最佳执行策略，应用。数学。金融，26153-185（2019）·Zbl 1410.91498号
[68]	休雷，C。；Pham，H。；Warin，X.，高维非线性偏微分方程的深向后格式，数学。计算。，89, 1547-1579 (2020) ·Zbl 1440.60063号
[69]	Jaimungal，S.、Pesenti，S.，Wang，Y.S.、Tatsat，H.：稳健的风险感知强化学习。SIAM J.财务。数学。（2021年，即将出版）。https://arxiv.org/abs/1208.10403
[70]	Kingma，D.P.，Ba，J.：亚当：随机优化方法。预印本（2014）。可在线访问https://arxiv.org/abs/1412.6980
[71]	Kreps，D.M.，《无限多商品经济中的套利与均衡》，J.Math。经济。，8, 15-35 (1981) ·Zbl 0454.90010号
[72]	Krishnan，R。；沙利特，美国。；桑塔格，D。；辛格，S。；Markovitch，S.，《非线性状态空间模型的结构化推理网络》，《AAAI人工智能会议论文集》，2101-2109（2017），门罗公园：AAAI出版社，门罗公园
[73]	Krishnan，R.G.，Shalit，U.，Sontag，D.：深层卡尔曼滤波器。预印本（2015）。可在线访问https://arxiv.org/abs/1511.05121
[74]	Kumar，P.：造市的深度重复Q-网络。预印本（2020年）。在线提供时间：http://agi-conf.org/2020/wp-content/uploads/2020/06/agi-20_paper_39.pdf
[75]	Kurutach，T.、Clavera，I.、Duan，Y.、Tamar，A.、Abbeel，P.：模型组装信任区域政策优化。预印本（2018）。在线提供时间：https://arxiv.org/abs/1802.10592
[76]	Lasry，J.M。；狮子，P.L.，Jeuxáchamp moyen。I-Le cas stationnaire，C.R.学院。科学。，343, 619-625 (2006) ·Zbl 1153.91009号
[77]	Lasry，J.M。；狮子，P.L.，Jeuxáchamp moyen。II-地平线确定和控制优化，C.R.Acad。科学。，343, 679-684 (2006) ·兹比尔1153.91010
[78]	Lasry，J.-M。；狮子，P.-L.，平均场比赛，Jpn。数学杂志。，2, 229-260 (2007) ·Zbl 1156.91321号
[79]	Lehalle，C.-A.，Mouzouni，C.：投资组合交易的平均场游戏及其对感知相关性的影响。预印本（2019年）。可在线访问https://arxiv.org/abs/1902.09606
[80]	Lehalle，C.-A。；Neuman，E.，《将信号纳入最佳交易》，金融学出版社。，23, 275-311 (2019) ·Zbl 1411.91517号
[81]	李伟（Li，W.）。；托多罗夫，E。；Araújo，H.，非线性生物运动系统的迭代线性二次调节器设计，第一届控制、自动化和机器人信息学国际会议论文集，222-229（2004）
[82]	李，X。；Wong，T.-K.L。；Chen，R.T。；Duvenaud，D。；奇亚帕，S。；Calandra，R.，随机微分方程的可缩放梯度，第二十三届国际人工智能与统计会议论文集，3870-3882（2020）
[83]	李，X。；Wong，T.-K.L。；Chen，R.T。；Duvenaud，D.K。；Zhang，C.，随机微分方程的可缩放梯度和变分推理，第二届近似贝叶斯推断进展研讨会论文集，1-28（2020）
[84]	Lillicrap，T.P.，Hunt，J.J.，Pritzel，A.，Heess，N.，Erez，T.，Tassa，Y.，Silver，D.，Wierstra，D.：深度强化学习的连续控制。预印本（2015）。可在线访问https://arxiv.org/abs/1509.02971
[85]	Ludkovski，M.，Saporito，Y.：KrigHedge：三角洲套期保值的高斯过程代理。预印本（2020年）。可在线访问https://arxiv.org/abs/2010.08407v3
[86]	梅，S。；Montanari，A。；Nguyen，P.-M.，双层神经网络景观的平均视野，Proc。国家。阿卡德。科学。，115、33、E7665-E7671（2018）·Zbl 1416.92014号
[87]	Merton，R.C.，《理性期权定价理论》，Bell J.Econ。管理。科学。，4, 141-183 (1973) ·Zbl 1257.91043号
[88]	Mnih，V。；Kavukcuoglu，K。；西尔弗·D。；Rusu，A.A。；Veness，J。；Bellemare，M.G。；格雷夫斯，A。；里德米勒，M。；菲杰兰，A.K。；Ostrovski，G.，《通过深度强化学习实现人类层面的控制》，《自然》，518529-533（2015）
[89]	蒙塔冯，G。；萨梅克，W。；Müller，K.-R.，解释和理解深层神经网络的方法，数字。信号处理。，73, 1-15 (2018)
[90]	Nevins，D.，《基于目标的投资：整合传统金融和行为金融》，J.Wealth Manag。，6, 4, 8-23 (2004)
[91]	Ni，C.，Li，Y.，Forsyth，P.，Carroll，R.：超越随机基准目标的最佳资产配置。预印本（2020年）。SSRN 3619332提供。可在线访问https://ssrn.com/abstract=3619332
[92]	Ning，B.，Jaimungal，S.，Zhang，X.，Bergeron，M.：使用可变自动编码器生成无套利隐含波动率曲面。预印本（2021年）。可在线访问https://arxiv.org/abs/1208.04941v1
[93]	Ning，B.，Lin，F.H.T.，Jaimungal，S.：优化执行的双深度Q学习。预印本（2018）。可在线访问https://arxiv.org/abs/1812.06600
[94]	奥默罗德，J.T。；Wand，M.P.，《解释变分近似》，《美国统计》，64，2，140-153（2010）·Zbl 1200.65007号
[95]	Pesenti，S.M.，Jaimungal，S.：Wasserstein球中的投资组合优化。预印本（2020年）。在线提供时间：https://arxiv.org/abs/2012.04500
[96]	Pham，H.，《金融应用的连续时间随机控制与优化》（2009），柏林：施普林格出版社，柏林·Zbl 1165.93039号
[97]	Polyak，B.T.，《加速迭代法收敛的一些方法》，苏联计算机出版社。数学。数学。物理。，4，5，1-17（1964年）·兹伯利0147.35301
[98]	Puterman，M.L.，《马尔可夫决策过程：离散随机动态规划》（2014），纽约：威利出版社，纽约·Zbl 0829.90134号
[99]	里贝罗，M.T。；辛格，S。；Guestrin，C.，“我为什么要相信你？”：解释任何分类器的预测，《第22届ACM SIGKDD国际知识发现和数据挖掘会议论文集》，1135-1144（2016），纽约：计算机械协会，纽约
[100]	里德米勒，M。；Gama，J.，《神经拟合Q迭代——首次体验数据高效的神经强化学习方法》，《机器学习：ECML 2005》，317-328（2005），柏林：斯普林格出版社，柏林
[101]	Rotskoff，G.M.，Vanden-Eijnden，E.：神经网络的可训练性和准确性：交互粒子系统方法。预印本（2018）。可在线访问https://arxiv.org/abs/1805.00915
[102]	Saporito，Y.F.，Zhang，Z.：PDGM：求解路径相关偏微分方程的神经网络方法。预印本（2020年）。可在线访问https://arxiv.org/abs/2003.02035
[103]	Shrivats，A.、Firoozi，D.、Jaimungal，S.：太阳能可再生能源证书市场均衡定价的平均场博弈方法。预印本（2021年）。可在线访问https://arxiv.org/abs/2003.04938v5
[104]	西尔弗·D。；杠杆G。；海斯，N。；度数，T。；Wierstra，D。；里德米勒，M。；Xing，E.P。；Jebara，T.，确定性政策梯度算法，第31届机器学习国际会议论文集，387-395（2014）
[105]	西里尼亚诺，J。；Cont，R.，《金融市场价格形成的普遍特征：深度学习的视角》，Quant。《金融》，第19期，第1449-1459页（2019年）·兹比尔1420.91433
[106]	西里尼亚诺，J。；Spiliopoulos，K.，DGM：求解偏微分方程的深度学习算法，J.Comput。物理。，375, 1339-1364 (2018) ·Zbl 1416.65394号
[107]	西里尼亚诺，J。；Spiliopoulos，K.，《神经网络的平均场分析：大数定律》，SIAM J.Appl。数学。，80, 725-752 (2020) ·兹比尔1440.60008
[108]	Sutskever，I。；Martens，J。；Dahl，G。；辛顿，G。；达斯古普塔，S。；McAllester，D.，《深度学习中初始化和动量的重要性》，机器学习国际会议，1139-1147（2013）
[109]	Sutton，R.S。；Barto，A.G.，《强化学习：导论》（2018），剑桥：麻省理工学院出版社，剑桥·Zbl 1407.68009号
[110]	萨顿，R.S。；McAllester，D.A。；辛格，S.P。；Mansour，Y。；Solla，S.，《函数逼近强化学习的策略梯度方法》，神经信息处理系统进展，1057-1063（2000），剑桥：麻省理工学院出版社，剑桥
[111]	托多罗夫，E。；Li，W.，约束非线性随机系统局部最优反馈控制的广义迭代LQG方法，2005年美国控制会议论文集，2005，300-306（2005）
[112]	Tsitsiklis，J.N.，《异步随机逼近和Q学习》，马赫。学习。，16, 3, 185-202 (1994) ·Zbl 0820.68105号
[113]	Tukey，J.W.，《数据分析的未来》，《数学年鉴》。Stat.，33，1-67（1962）·Zbl 0107.36401号
[114]	van Hasselt，H。；A.盖兹。；Silver，D.，双Q学习深度强化学习，第三十届AAAI人工智能会议论文集（AAAI-16），2094-2100（2016）
[115]	Wang，H。；Zariphopoulou，T。；Zhou，X.Y.，连续时间和空间中的强化学习：一种随机控制方法，J.Mach。学习。研究，21，1-34（2020）·Zbl 07307478号
[116]	Wang，H。；周晓勇，《连续时间均值-方差投资组合选择：强化学习框架》，数学。金融，30，1273-1308（2020）·Zbl 1508.91515号
[117]	王，Z。；Schaul，T。；海塞尔，M。；van Hasselt，H。；Lanctot，M。；弗里塔斯，N。；Balcan，M.F。；Weinberger，K.Q.，深度强化学习的决斗网络架构，国际机器学习会议，1995-2003（2016）
[118]	沃特金斯，C.J。；大研，P.，Q-learning，马赫。学习。，8, 279-292 (1992) ·Zbl 0773.68062号
[119]	Xu，T.，Wenliang，L.K.，Munn，M.，Acciaio，B.：COT-GAN：通过因果最优运输生成序列数据。预印本（2020年）。可在线访问https://arxiv.org/abs/2006.08571
[120]	Yang，Y。；罗，R。；李，M。；周，M。；张伟。；Wang，J。；戴·J。；Krause，A.，《平均场多智能体强化学习》，第35届机器学习国际会议论文集，5571-5580（2018）
[121]	张，Z。；Zohren，S。；Roberts，S.，DeepLOB：用于极限阶书的深度卷积神经网络，IEEE Trans。信号处理。，67, 3001-3012 (2019) ·Zbl 07123269号
[122]	周，B。；科斯拉，A。；拉佩德里扎，A。；奥利瓦，A。；Torralba，A.，《学习区分性定位的深层特征》，第29届IEEE计算机视觉和模式识别会议论文集，2921-2929（2016）

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
ab公司	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文件类型(j个：期刊文章；b条：book；一：图书文章）

一&b条	逻辑和
一\|b条	逻辑或
!ab公司	逻辑不
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

领域

操作员

强化学习和随机优化。（英语） Zbl 1482.91225号

理学硕士：

关键词：

软件：

参考文献：

示例

领域

操作员

强化学习和随机优化。 （英语） Zbl 1482.91225号

理学硕士：

关键词：

软件：

参考文献：

强化学习和随机优化。（英语） Zbl 1482.91225号