阿萨德尔,阿尔沙姆;安德烈亚斯·卡佩塔尼斯;瓦奥斯·拉斯科斯;克劳斯,Obermayer 风险敏感部分可观测马尔可夫决策过程作为完全可观测多元效用优化问题。 arXiv公司:1808.04478 预印本,arXiv:11808.04478[math.OC](2018)。 摘要:当风险由效用函数建模,且状态空间和观测空间都是有限的时,我们提供了一种新的求解风险敏感部分可观测马尔可夫决策过程的算法。该算法基于以下观察:测度的变化以及随后引入用于指数效用函数的信息空间,如果引入一个额外的向量参数来跟踪与每个指数对应的“预期累计成本”,则可以实际扩展为指数和。由于每个递增函数都可以用有限区间内的指数和来近似,因此该方法基本上可以应用于任何效用函数,其复杂性取决于指数的数量。 MSC公司: 93E20型 最优随机控制 BibTeX公司 引用 \textit{A.Afsardeir}等人,“风险敏感的部分可观测马尔可夫决策过程作为完全可观测的多元效用优化问题”,预印本,arXiv:1808.04478[math.OC](2018) 全文: arXiv公司 OA许可证 arXiv数据来自arXiv OAI-PMH API.如果你发现了错误,请直接向arXiv报告.