×

一种具有良好风险度量的主动集策略,用于求解马尔可夫决策过程。 (英语) Zbl 1428.90174号

摘要:本文提出了一种具有良好风险度量的有限状态、有限动作分布鲁棒马尔可夫决策过程转移概率重加权的准闭式解。讨论了预期(风险中性)和最小最大(最坏情况)折现累积成本目标的关系,以及选择风险度量参数的可能方法。数值结果表明了该方法的计算效率。

MSC公司:

90立方厘米 马尔可夫和半马尔可夫决策过程

软件:

ECOS公司
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Abada,I.,Ehrenmann,A.,Smeers,Y.:用内生长期合同建模天然气市场。操作。第65(4)号决议,856-877(2017)·Zbl 1405.91480号
[2] Acerbi,C.:风险的光谱测量:主观风险规避的一致表示。J.银行。金融26(7),1505-1518(2002)
[3] Alizadeh,F.,Goldfarb,D.:二阶锥规划。数学。掠夺。95(1), 3-51 (2003) ·Zbl 1153.90522号
[4] Artzner,P.、Delbaen,F.、Eber,J.M.、Heath,D.、Ku,H.:一致的多期风险调整值和Bellman原则。安·Oper。第152(1)号决议,5-22(2007)·Zbl 1132.91484号
[5] Becherer,D.,Kentia,K.:在漂移和波动的综合不确定性下进行良好的套期保值和估值。普罗巴伯。不确定。数量。风险2(1),13(2017)·Zbl 1411.91480号
[6] Bellman,R.E.,Dreyfus,S.E.:应用动态编程。普林斯顿大学出版社,普林斯顿(2015)·Zbl 0106.34901号
[7] Bertsekas,D.P.,Tsitsiklis,J.N.:神经动力学编程:概述。参见:第34届IEEE决策与控制会议记录,第1卷,第560-564页。IEEE(1995)
[8] Björk,T.,Slinko,I.:走向公平交易界限的一般理论。财务版次10(2),221-260(2006)·Zbl 1125.91049号
[9] Chatterjee,K.、Sen,K.和Henzinger,T.A.:区间Markov链的模型检验[\omega\]ω-正则性质。摘自:软件科学和计算结构基础国际会议,第302-317页。施普林格(2008)·Zbl 1138.68441号
[10] Cheridito,P.、Delbaen,F.、Kupper,M.等人:有界离散时间过程的动态货币风险度量。电子。J.概率。11, 57-106 (2006) ·Zbl 1184.91109号
[11] Chung,K.J.,Sobel,M.J.:折现MDPs:分布函数和指数效用最大化。SIAM J.控制优化。25(1), 49-62 (1987) ·Zbl 0617.90085号
[12] Cochrane,J.H.,Saa-Requejo,J.:超越套利:不完全市场中的优质资产价格界限。《政治经济学杂志》108(1),79-119(2000)
[13] Delage,E.,Ye,Y.:力矩不确定性下的分布稳健优化,应用于数据驱动问题。操作。第58(3)号决议,595-612(2010年)·兹比尔1228.90064
[14] Delbaen,F.:一般概率空间上的相干风险度量。收录:Sandmann K.,Schönbucher P.J.(编辑)《金融与随机学进展》。施普林格,柏林,海德堡(2002)·Zbl 1020.91032号
[15] Domahidi,A.,Chu,E.,Boyd,S.:ECOS:嵌入式系统的SOCP求解器。摘自:欧洲控制会议(ECC),第3071-3076页(2013年)
[16] Druenne,E.,Ehrenmann,A.,de Maere d'Aertrycke,G.,Smeers,Y.:随机发电容量扩展问题中的可靠投资评估。载于:第44届夏威夷国际系统科学会议(HICSS),第1-9页。IEEE(2011)
[17] Epstein,L.,Schneider,M.:递归多前置词。《经济学杂志》。理论113(1),1-31(2003)·Zbl 1107.91360号
[18] Föllmer,H.,Schied,A.:风险和交易约束的凸度量。财务统计。6(4), 429-447 (2002) ·兹比尔1041.91039
[19] Frittelli,M.,Gianin,E.R.:动态凸风险度量。摘自:《21世纪的风险措施》,第227-248页。奇切斯特·威利(2004)
[20] Frittelli,M.,Scandolo,G.:过程的风险度量和资本要求。数学金融16(4),589-612(2006)·Zbl 1130.91030号
[21] Givan,R.,Leach,S.,Dean,T.:有界参数Markov决策过程。Artif公司。智力。122(1-2), 71-109 (2000) ·Zbl 0948.68171号
[22] Harrison,J.M.和Kreps,D.M.:多期证券市场中的鞅和套利。《经济学杂志》。理论20(3),381-408(1979)·Zbl 0431.90019号
[23] Howard,R.,Matheson,J.:风险敏感的马尔可夫决策过程。管理。科学。18(7), 356-369 (1972) ·Zbl 0238.90007号
[24] Iyengar,G.N.:稳健的动态编程。数学。操作。第30(2)号决议,257-280(2005)·Zbl 1082.90123号
[25] Jaquette,S.C.:马尔可夫决策过程的效用准则。管理。科学。23(1), 43-49 (1976) ·Zbl 0337.90053号
[26] Mannor,S.、Simester,D.、Sun,P.、Tsitsiklis,J.N.:价值函数估计中的偏差和方差近似。管理。科学。53(2),308-322(2007)·Zbl 1232.90344号
[27] Nilim,A.,El Ghaoui,L.:转移矩阵不确定的马尔可夫决策问题的稳健性。摘自:《神经信息处理系统进展》,第839-846页(2004年)
[28] Nocedal,J.,Wright,S.:《数值优化操作研究与金融工程》,纽约斯普林格出版社(2006)·Zbl 1104.65059号
[29] Pflug,G.,Römisch,W.:建模、测量和管理风险。《世界科学》,纽约(2007年)·Zbl 1153.91023号
[30] Pichler,A.,Shapiro,A.:风险规避随机规划:时间一致性和最优停止,预印本,arXiv:1808.10807(2018)·Zbl 1500.90037号
[31] Puterman,M.L.:马尔可夫决策过程:离散随机动态规划。霍博肯·威利(2014)·Zbl 0829.90134号
[32] Rockafellar,R.,Uryasev,S.,Zabarankin,M.:风险分析中的广义偏差。财务统计。10(1), 51-74 (2006) ·兹比尔1150.90006
[33] Roorda,B.,Schumacher,J.M.,Engwerda,J.:多周期模型中的一致可接受性度量。数学。财务15(4),589-612(2005)·Zbl 1107.91059号
[34] Ruszczynski,A.:马尔可夫决策过程的风险规避动态规划。数学。程序。125(2), 235-261 (2010) ·Zbl 1207.49032号
[35] Satia,J.K.,Lave Jr.,R.E.:转移概率不确定的马尔可夫决策过程。操作。第21(3)号决议,728-740(1973)·Zbl 0286.60038号
[36] Shapiro,A.:随机程序的最坏情况分布分析。数学。程序。107(1-2), 91-96 (2006) ·Zbl 1149.90112号
[37] Shapiro,A.:分布稳健随机规划。SIAM J.Optim公司。27(4), 2258-2275 (2017) ·Zbl 1373.90089
[38] Staum,J.:良好交易边界的资产定价基本定理。数学。财务14(2),141-161(2004)·Zbl 1090.91030号
[39] Tamar,A.、Mannor,S.、Xu,H.:使用函数近似放大稳健MDP。摘自:机器学习国际会议,第181-189页(2014)
[40] Tseng,P.:解决与log(H)成正比的时间内的H-horizon平稳Markov决策问题。操作。Res.Lett公司。9(5), 287-297 (1990) ·Zbl 0717.90090号
[41] West,D.:更新均值和方差估计:一种改进的方法。Commun公司。ACM 22(9),532-535(1979)·Zbl 0419.62003号
[42] 怀特III,C.C.,埃尔迪布,香港:转移概率不精确的马尔可夫决策过程。操作。第42(4)号决议,739-749(1994)·Zbl 0837.90121号
[43] Wiesemann,W.,Kuhn,D.,Rustem,B.:稳健马尔可夫决策过程。数学。操作。第38(1)号决议,153-183(2013)·Zbl 1291.90295号
[44] Wu,D.,Koutsoukos,X.:使用有界参数Markov决策过程对不确定系统进行可达性分析。Artif公司。智力。172(8-9)、945-954(2008)·Zbl 1183.68406号
[45] Xu,H.,Mannor,S.:分布稳健马尔可夫决策过程。摘自:《神经信息处理系统进展》,第2505-2513页(2010年)
[46] Yu,P.,Xu,H.:马尔可夫决策过程中的分布稳健对应项。IEEE传输。自动化。控制61(9),2538-2543(2016)·Zbl 1359.90150号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。