摘要
我们发展了一个连续时间非马尔可夫随机控制问题的理论,该问题具有内在的时间不一致性。它们的显著特点是经典的Bellman最优原理不再成立。我们的公式是在受控的非马尔可夫正向随机微分方程和一般目标函数设置的框架内进行的。我们采用游戏理论的方法来研究这些问题,这意味着我们寻求子博弈精炼纳什均衡点。作为这项工作的第一个新颖之处,我们引入并推动了对平衡定义的改进,使我们能够建立一个直接而严格的证明扩展动态规划原理以与经典理论相同的精神。这反过来又允许我们引入一个由类似于经典HJB方程的无限族倒向随机微分方程组成的系统。我们证明了这个系统是基本的,从这个意义上说,它的完备性对于刻画价值函数和均衡既是必要的也是充分的。作为最后一步,我们给出了一个存在唯一的结果。文中还给出了一些例子和结果的推广。
资金报表
作者感谢对ANR项目PACMAN ANR-16-CE05-0027的支持。
致谢
我们要感谢一位地区编辑和两位匿名评审员的仔细阅读和富有洞察力的评论。这项工作是在作者在哥伦比亚大学时开始的,感谢他们的支持。
引用
下载引文
卡米洛·埃尔南德斯。
迪伦·波萨马伊。
“我、我和我:复杂智能体非马尔科夫时间不一致随机控制的一般理论。”
附录申请。普罗巴伯。
33
(2)
1396 - 1458,
2023年4月。
https://doi.org/10.1214/22-AAP1845
问询处
收到日期:2021年7月1日;修订日期:2022年1月1日;发布日期:2023年4月
欧几里德项目首次提供:2023年3月21日
数字对象标识符:10.1214/22-AAP1845
学科:
主要用户:60 H10型,60华氏30
次要:60G07年
关键词:倒向随机微分方程,一致的规划,均值-方差,非指数折扣,时间不一致
版权所有©2023数理统计研究所