×

具有共同过去信息集的马尔可夫链的分散最优控制。 (英语) Zbl 0625.93077号

针对一类有限状态马尔可夫决策过程,寻求分散动态(闭环)最优控制策略,其特征是在k步延迟后共享公共过去。考虑了有限时间范围内的控制,并证明了基于常维充分统计量的存在性,可以应用非经典动态规划过程。最后,考虑到马尔可夫链的集中和分散控制的平均期望成本最小化的现有结果的推广,简要讨论了无限时域情况。

理学硕士:

93E20型 最优随机控制
60J10型 马尔可夫链(离散状态空间上的离散时间马尔可夫过程)
90立方厘米 动态编程
62B05型 足够的统计数据和字段
PDF格式BibTeX公司 XML格式引用
全文: 内政部