×

数据无关决策集的动态规划。 (英语) Zbl 1522.90047号

摘要:多阶段随机优化问题通常是以路径方式非正式地表述的。例如,这些公式在离散环境中很有吸引力,适用于解决计算难题。但路径问题陈述不允许进行数学严谨的分析,因此不合适。
R.T.Rockafellar公司R.J.B.韦茨[in:存储系统:模型、标识、优化II;数学程序。研究6,170-187(1976;Zbl 0377.90073号)]解决凸成本和约束条件下价值函数的基本可测性问题。本文将继续这些基础。这一贡献证明了中间值函数存在可测量版本,并揭示了其规律性。我们的证明建立在Kolmogorov连续性定理的基础上。
证明了验证定理允许在数学严谨的新环境中陈述传统问题规范。此外,我们还为一般问题提供了动力学方程。涵盖的问题类包括马尔可夫决策过程、强化学习和随机对偶动态规划。

MSC公司:

90立方厘米 随机规划
60G07年 随机过程的一般理论
90C05(二氧化碳) 线性规划
PDF格式BibTeX公司 XML格式引用
全文: 链接

参考文献:

[1] R.E.Bellman:《动态编程》,普林斯顿大学出版社,普林斯顿出版社(1957)·Zbl 0077.13605号
[2] R.E.Bellman:《自适应控制过程》,普林斯顿传统图书馆2045,普林斯顿大学出版社(1961年)·Zbl 0103.12901号
[3] D.Bertsekas:《动态规划和最优控制》,雅典娜科学出版社,贝尔蒙特出版社(2012年)·兹比尔1298.90001
[4] D.Bertsekas,S.E.Shreve:《随机最优控制:离散时间案例》,学术出版社,纽约(1978年)·Zbl 0471.93002号
[5] P.Carpentier,J.-P.Chancelier,G.Cohen,M.De Lara:《随机多阶段优化》,Springer,Cham(2015)·Zbl 1336.90066号
[6] P.Carpentier,J.-P.Chancelier,G.Cohen,M.De Lara,P.Girardeau:《随机最优控制问题的动态一致性》,Ann.Oper。第200/1号决议(2012)247-263·Zbl 1255.90124号
[7] N.Dunford,J.T.Schwartz:线性算子。第一部分:一般理论,Wiley-Interscience,纽约(1957)。
[8] I.V.Evstigneev:可测量选择和动态规划,数学。操作。第1/3号决议(1976年)267-272·Zbl 0373.90086号
[9] E.A.Feinberg:《关于马尔可夫决策过程中战略措施的可测性和表示》,载于:统计学、概率论和博弈论,IMS讲稿和专题系列第30卷,数理统计研究所(1996)29-43·Zbl 0996.60500号
[10] W.H.Fleming,H.M.Soner:受控马尔可夫过程和粘度解,第二版,Springer,纽约(2006)·Zbl 1105.60005号
[11] S.-E.Fleten、E.Haugom、A.Pichler、C.J.Ullrich:高峰发电厂转换成本的结构估算,欧洲期刊Oper。第285/1号决议(2020年)23-33·Zbl 1441.62685号
[12] H.Föllmer,A.Schied:《随机金融:离散时间导论》,《德格鲁伊特数学研究27》,德格鲁伊特,柏林(2004)·Zbl 1126.91028号
[13] P.Girardeau,V.Leclère,A.B.Philpott:关于多级随机凸规划分解方法的收敛性,数学。操作。第40/1号决议(2014年)1-16。
[14] K.Gowrisankaran:产品空间中功能的可测量性,Proc。阿米尔。数学。Soc.31(1972)485-488·Zbl 0229.28006号
[15] O.Kallenberg:《现代概率基础》,纽约斯普林格出版社(2002年)·兹比尔0996.60001
[16] I.Karatzas,S.E.Shreve:《数学金融方法》,《数学数学应用》第39卷,柏林斯普林格出版社(1998年)·Zbl 0941.91032号
[17] A.Klenke:《概率论》,斯普林格出版社,伦敦(2014)·Zbl 1295.60001号
[18] G.Lan,Z.Zhou:多阶段随机优化的动态随机近似,数学。编程服务器。A 187/1-2(2021)487-532·Zbl 1465.90053号
[19] N.Löhndorf,D.Wozabal,S.Minner:使用近似双重动态规划优化水力蓄能系统的交易决策,Oper。第61/4号决议(2013)810-823·兹比尔1291.90125
[20] F.Maggioni,G.Pflug:一般非离散多级风险规避随机优化程序的保证界,SIAM J.optimization 29/1(2019)454-483·Zbl 1411.90241号
[21] P.Olsen:《在lp空间中作为数学规划的追索权的多阶段随机规划》,SIAM J.控制优化3(1976)528-537·Zbl 0336.90041号
[22] P.Olsen:多阶段随机规划问题的离散化,数学。粗粒度研究6(1976)111-124·Zbl 0374.90053号
[23] P.Olsen:多级随机规划问题什么时候定义明确?,SIAM J.控制优化14/3(1976)518-527·Zbl 0336.90040号
[24] T.Pennanen,A.-P.Perkkiö:凸随机优化中的动态规划,《凸分析》30/4(2023)1241-1283·Zbl 1522.90053号
[25] T.Pennanen,A.-P.Perkkiö:凸随机优化,预印本(2023)。
[26] M.V.F.Pereira,L.M.V.G.Pinto:应用于能源规划的多阶段随机优化,数学。编程52/1-3(1991)359-375·Zbl 0749.90057号
[27] G.Pflug,A.Pichler:《多阶段随机优化》,Springer Series in Operations Research and Financial Engineering,Cham出版社,2014年·Zbl 1317.90220号
[28] A.B.Philpott,Z.Guan:关于随机对偶动态规划及相关方法的收敛性,Oper。Res.Letters 36/4(2008)450-455·Zbl 1155.90437号
[29] A.B.Philpott,V.L.de Matos,E.Finardi:关于用一致风险测度求解多阶段随机规划,Oper。第61/4号决议(2013)957-970·Zbl 1291.90152号
[30] A.Pichler,R.P.Liu,A.Shapiro:风险规避随机规划:时间一致性和最优停止,Oper。第70/4号决议(2022年)2439-2455·兹比尔1500.90037
[31] P.Dommel,A.Pichler/动态编程。。。
[32] A.Pichler,A.Shapiro:分布式稳健多级优化的数学基础,SIAM J.optimization 31/4(2021)3044-3067·兹比尔1481.90242
[33] R.T.Rockafellar:积分泛函、正规被积函数和可测选择,收录于:非线性算子和变分法,布鲁塞尔夏令营1975,数学讲义543,柏林斯普林格(1976)157-207·Zbl 0374.49001号
[34] R.T.Rockafellar,R.J.-B.Wets:随机优化问题中的非预期性和L1-鞅,数学。编程研究6(1976)170-187·Zbl 0377.90073号
[35] R.T.Rockafellar,R.J.-B.Wets:关于凸泛函的次微分与条件期望的互换,《随机7/3》(1982)173-182·Zbl 0487.49006号
[36] R.T.Rockafellar,R.J.-B.Wets:变分分析,Grundlehren der Mathematis chen Wissenschaften 317,施普林格,柏林(1998)·Zbl 0888.49001号
[37] W.Römisch,V.Guigues:基于扩展多面体风险度量的多级随机程序基于抽样的分解方法,SIAM J.Optimiza-tion 22/2(2012)286-312·Zbl 1259.90082号
[38] A.Ruszczynski:马尔可夫决策过程的风险规避动态规划,数学。编程服务器。B 125(2010)235-261·Zbl 1207.49032号
[39] A.Shapiro:《随机对偶动态规划方法分析》,Eur.J.Oper。第209/1号决议(2010)63-72·Zbl 1208.90126号
[40] A.Shapiro:动态风险度量的时间一致性,Oper。Res.Letters 40/6(2012)436-439·Zbl 1258.91111号
[41] A.Shapiro:风险规避随机规划中的互换性原则和动态方程,Oper。Res.Letters 45/4(2017)377-381·Zbl 1409.90125号
[42] A.Shapiro:《风险中性、分布稳健和风险规避多阶段随机规划教程》,欧洲期刊Oper。第288/1号决议(2021年)1-13·Zbl 1487.90506号
[43] A.Shapiro,D.Dentcheva,A.Ruszczynski:随机编程讲座。《建模与理论》,第三版,MOS-SIAM优化系列,第28卷,工业与应用数学社会,费城(2021年)·Zbl 1487.90507号
[44] A.Shapiro,W.Tekaya,J.P.da Costa,M.Pereira Soares:风险中性和风险规避随机双重动态规划方法,欧洲期刊Oper。第224/2号决议(2013)375-391·Zbl 1292.90219号
[45] A.N.Shiryaev:《概率》,纽约斯普林格出版社(1996年)。
[46] A.W.van der Vaart,J.A.Wellner:《弱收敛与经验过程》。《统计应用》,《斯普林格统计丛书》,纽约斯普林格出版社(1996年)·Zbl 0862.60002号
[47] J.Zhen,D.Kuhn,W.Wiesemann:鲁棒和分布鲁棒优化的数学基础,arXiv:210500760(2021)。
此参考列表基于出版商或数字数学图书馆提供的信息。它的项目与zbMATH标识符启发式匹配,并且可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。