On solutions of the distributional Bellman equation

Julian Gerstenberg; Ralph Neininger; Denis Spiegel; Julian Gerstenberg; Ralph Neininger; Denis Spiegel

doi:10.3934/era.2023228

电子研究档案

2023,第31卷, 第8版: 4459-4483. 数字对象标识：10.3934/era.2023228

研究文章特殊问题

关于分布Bellman方程的解

德国法兰克福歌德大学数学研究所

收到：2023年1月31日 修订日期：2023年4月14日 认可的：2023年5月5日 出版：2023年6月14日

在分布强化学习（RL）中，不仅要考虑策略的预期收益，还要考虑策略的完全收益分布。给出了固定策略的收益分布作为相关分布Bellman方程的解。在本文中，我们考虑了一般分布Bellman方程，并研究了其解的存在唯一性以及收益分布的尾部性质。我们给出了收益分布存在唯一性的充要条件，并给出了正则变分的情形。

我们将分布Bellman方程与多元仿射分布方程联系起来。我们证明了分布Bellman方程的任何解都可以作为多元仿射分布方程解的边缘律的向量。这使得此类方程的一般理论适用于分布式强化学习环境。
- 分布式强化学习,
- 分布Bellman方程,
- 随机差分方程,
- 永久性,
- 马尔可夫决策过程,
- 规则变化,
- 机器学习
引用：朱利安·格斯滕贝格（Julian Gerstenberg）、拉尔夫·奈宁格（Ralph Neininger）、丹尼斯·斯皮格尔（Denis Spiegel）。关于分布Bellman方程的解[J]。电子研究档案，2023，31（8）：4459-4483。doi:10.3934/era.2023228

相关论文：

摘要

在分布强化学习（RL）中，不仅要考虑策略的预期收益，还要考虑策略的完全收益分布。给出了固定策略的收益分布作为相关分布Bellman方程的解。在本文中，我们考虑了一般分布Bellman方程，并研究了它们解的存在性和唯一性，以及收益分布的尾部性质。我们给出了收益分布存在唯一性的充要条件，并给出了正则变分的情形。

我们将分布Bellman方程与多元仿射分布方程联系起来。我们证明了分布Bellman方程的任何解都可以作为多元仿射分布方程解的边缘律的向量。这使得此类方程的一般理论适用于分布式强化学习环境。

参考文献

[1]	M.G.Bellemare，W.Dabney，R.Munos，《强化学习的分布视角》国际机器学习会议, (2017), 449–458.
[2]	M.G.Bellemare、W.Dabney、M.Rowland、，分布强化学习麻省理工学院出版社，2023年。
[3]	M.L.Puterman，马尔可夫决策过程：离散随机动态规划，John Wiley&Sons，Inc.，纽约，1994年。https://doi.org/10.1002/9780470316887
[4]	M.Rowland，M.Bellemare，W.Dabney，R.Munos，Y.W.Teh，分类分布强化学习分析国际人工智能与统计会议, (2018), 29–37.
[5]	E.Krasheninikova，J.García，R.Maestre，F.Fernández，保险业定价策略优化的强化学习，工程应用。Artif公司。智力。,80(2019), 8–19. https://doi.org/10.1016/j.engappai.2019.01.010数字对象标识：10.1016/j.engappai.2019.01.010
[6]	P.N.Kolm，G.Ritter，《金融强化学习的现代视角》，J.马赫。学习。财务,1(2019).https://doi.org/10.2139/ssrn.3449401
[7]	P.Embrechts、C.Klüppelberg、T.Mikosch、，极端事件建模：保险和金融《施普林格-弗拉格》，柏林，1997年。https://doi.org/10.1007/978-3-642-33483-2
[8]	V.Zhuang，Y.Sui，无回报强化学习与重奖，in第24届国际人工智能与统计会议记录, (2021), 3385–3393.
[9]	A.M.Medina，S.Yang，《针对重尾线性土匪的非格雷特算法》，年第33届机器学习国际会议论文集（编辑M.F.Balcan和K.Q.Weinberger），PMLR（2016），1642-1650。https://proceedings.mlr.press/v48/medina16.html
[10]	X.Yu，H.Shao，M.R.Lyu，I.King，《以沉重代价纯粹探索多武装匪徒》，年人工智能不确定性会议，（2018），第937–946页。
[11]	H.Shao，X.Yu，I.King，M.R.Lyu，具有重尾收益的线性随机土匪的几乎最优算法神经信息处理系统研究进展（编辑S.Bengio、H.Wallach、H.Larochelle、K.Grauman、N.Cesa-Bianchi和R.Garnett），Curran Associates，Inc.，2018年。
[12]	S.Lu，G.Wang，Y.Hu，L.Zhang，《利普希茨强盗重尾奖励的优化算法》机器学习国际会议，PMLR，（2019），4154–4163。
[13]	S.R.Chowdhury，A.Gopalan，重尾收益下的贝叶斯优化神经信息处理系统研究进展（编辑H.Wallach、H.Larochelle、A.Beygelzimer、F.d\textquotesingle Alché-Buc、E.Fox和R.Garnett），Curran Associates，Inc.，2019年。
[14]	A.Dubey，A.Pentland，Thompson对对称阿尔法稳定土匪的采样第二十八届国际人工智能联合会议记录，IJCAI-19, (2019), 5715–5721.https://doi.org/10.24963/ijcai.2019/792
[15]	G.Alsmeyer，F.Buckmann，马尔科夫环境中永久性稳定性，J.差异。方程式应用。,23(2017), 699–740. https://doi.org/10.1080/1236198.216.1271878数字对象标识：10.1080/10236198.2016.1271878
[16]	D.Buraczewski、E.Damek、T.Mikosch、，幂律尾随机模型，施普林格，2016年，https://doi.org/10.1007/978-3-319-29679-1
[17]	T.Morimura，M.Sugiyama，H.Kashima，H.Hachiya，T.Tanaka，强化学习的非参数回归分布近似，in第27届国际机器学习会议论文集, (2010), 799–806.
[18]	K.J.Chung，M.J.Sobel，贴现mdp：分布函数和指数效用最大化，SIAM J.控制优化。,25(1987), 49–62. https://doi.org/10.1137/0325004数字对象标识：10.1137/0325004
[19]	W.Vervaat，关于随机差分方程和非负无穷可分随机变量的表示，高级申请。普罗巴伯。,11(1979), 750–783. https://doi.org/10.2307/1426858数字对象标识：10.2307/1426858
[20]	C.M.Goldie、R.Grübel，《尾巴薄的永生女神》，高级申请。普罗巴伯。,28(1996), 463–480, https://doi.org/10.2307/1428067。doi（操作界面）：10.2307/1428067
[21]	C.M.Goldie，R.A.Maller，永续经营稳定性，安·普罗巴伯。,28(2000), 1195–1218. https://doi.org/10.1214/aop/1019160331数字对象标识：2014年10月14日/次/1019160331
[22]	U.Rösler，分布的不动点定理，随机过程。申请。,42(1992), 195–214. https://doi.org/10.1016/0304-4149（92）90035-O doi：10.1016/0304-4149（92）90035-O
[23]	N.H.Bingham、C.M.Goldie、J.L.Teugels、，常规变化剑桥大学出版社，剑桥，1987年。https://doi.org/10.1017/CBO9780511721434
[24]	D.Cline，具有规则变化尾部的无限系列随机变量，仪器应用程序。数学。统计师。, (1983).
[25]	A.Brandt，平稳系数随机方程$Y_{n+1}=A_nY_n+B_n$，高级申请。普罗巴伯。,18(1986), 211–220. https://doi.org/10.2307/1427243数字对象标识：10.2307/1427243
[26]	T.Erhardsson，高维随机系数AR（1）过程和垂直度收敛的条件，伯努利,20(2014), 990–1005. https://doi.org/10.3150/13-BEJ513数字对象标识：10.3150/13-北京513
[27]	O.Kallenberg，现代概率论基础施普林格，2021年。https://doi.org/10.1007/978-3-030-61871-1
[28]	P.Bougerol，N.Picard，广义自回归过程的严格平稳性，安·普罗巴伯。,20(1992), 1714–1730.
[29]	T.Mikosch，正则变分、次指数性及其在概率论中的应用埃因霍温理工大学，荷兰埃因霍芬，1999年。