佐藤、三雄;安倍晋一;武田,宏 有限马尔可夫链的学习控制,在估计和控制之间进行显式权衡。 (英语) Zbl 0674.65036号 IEEE传输。系统。曼赛本。 18,第5期,677-684(1988). 针对转移概率未知的有限马尔可夫链的学习控制问题,提出了一种有效的方案。该方案的设计目的是优化渐近系统性能,并且易于应用于具有相对多个状态和决策的模型。在该方案中,每次通过最大化一个简单的性能标准来确定控制策略,该标准明确地包含了未知概率估计和系统控制之间的权衡。即使在大型模型的情况下,也可以轻松地执行策略确定。证明了在相对频率系数趋于最大的意义上,通过适当选择控制参数值,该方案不仅是(ε)最优的,而且也是最优的。审核人:J.拉米克 引用于三文件 MSC公司: 65K10码 数值优化和变分技术 60J10型 马尔可夫链(离散状态空间上的离散时间马尔可夫过程) 93E10型 随机控制理论中的估计与检测 93E20型 最优随机控制 关键词:渐近优化;随机控制;学习控制问题;有限马尔可夫链;控制政策;性能标准;大尺寸模型;控制参数;频率系数 PDF格式BibTeX公司 XML格式引用 \textit{M.Sato}等人,IEEE Trans。系统。人类网络。18,第5号,677--684(1988;Zbl 0674.65036) 全文: 内政部