×

有限马尔可夫链的学习控制,在估计和控制之间进行显式权衡。 (英语) Zbl 0674.65036号

针对转移概率未知的有限马尔可夫链的学习控制问题,提出了一种有效的方案。该方案的设计目的是优化渐近系统性能,并且易于应用于具有相对多个状态和决策的模型。在该方案中,每次通过最大化一个简单的性能标准来确定控制策略,该标准明确地包含了未知概率估计和系统控制之间的权衡。即使在大型模型的情况下,也可以轻松地执行策略确定。证明了在相对频率系数趋于最大的意义上,通过适当选择控制参数值,该方案不仅是(ε)最优的,而且也是最优的。
审核人:J.拉米克

MSC公司:

65K10码 数值优化和变分技术
60J10型 马尔可夫链(离散状态空间上的离散时间马尔可夫过程)
93E10型 随机控制理论中的估计与检测
93E20型 最优随机控制
PDF格式BibTeX公司 XML格式引用
全文: 内政部