文件Zbl 0674.65036-zbMATH Open

有限马尔可夫链的学习控制，在估计和控制之间进行显式权衡。（英语） Zbl 0674.65036号

IEEE传输。系统。曼赛本。 18，第5期，677-684（1988）.

针对转移概率未知的有限马尔可夫链的学习控制问题，提出了一种有效的方案。该方案的设计目的是优化渐近系统性能，并且易于应用于具有相对多个状态和决策的模型。在该方案中，每次通过最大化一个简单的性能标准来确定控制策略，该标准明确地包含了未知概率估计和系统控制之间的权衡。即使在大型模型的情况下，也可以轻松地执行策略确定。证明了在相对频率系数趋于最大的意义上，通过适当选择控制参数值，该方案不仅是（ε）最优的，而且也是最优的。

审核人：J.拉米克

引用于三文件

MSC公司：

65K10码	数值优化和变分技术
60J10型	马尔可夫链（离散状态空间上的离散时间马尔可夫过程）
93E10型	随机控制理论中的估计与检测
93E20型	最优随机控制

关键词：

渐近优化;随机控制;学习控制问题;有限马尔可夫链;控制政策;性能标准;大尺寸模型;控制参数;频率系数

PDF格式 BibTeX公司 XML格式引用

全文：内政部

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
ab公司	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文档类型(j个：期刊文章；b条：book；一：书籍文章）

一&b条	逻辑和
一\|b条	逻辑或
!ab公司	逻辑非
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

领域

操作员

有限马尔可夫链的学习控制，在估计和控制之间进行显式权衡。（英语） Zbl 0674.65036号

MSC公司：

关键词：

示例

领域

操作员

有限马尔可夫链的学习控制，在估计和控制之间进行显式权衡。 （英语） Zbl 0674.65036号

MSC公司：

关键词：

有限马尔可夫链的学习控制，在估计和控制之间进行显式权衡。（英语） Zbl 0674.65036号