×

具有多个剧本的多武装盗贼问题的渐近有效分配规则。二: 马尔科夫式奖励。 (英语) Zbl 0639.93053号

本文是第一部分的后续文章[见作者,同上AC-32968-976(1987;Zbl 0632.93067号)]. 在本文中,报酬过程是马尔可夫的,而不是独立的同分布的。
在每个时刻,都需要从N个马尔可夫链中选择一个固定数(m\geq 1),该链的平稳转移概率矩阵P(x,y,(θ)属于一个由实数(θ。这里是(R中的θ)和x,y(x中的),其中x是有限集。每只手臂都有一个初始未知的θ值。最终目标是使奖励的长期预期价值最大化。分析显示了与上述部分相同的设置。引入了一个后悔函数(如果一个人知道(θ值),那么平均奖励与不知道(θ值)的实际平均奖励之间的差异)。给出了后悔函数的一个下界,并给出了渐近有效准则。
审核人:G.奥尔斯德

MSC公司:

91A60型 概率博弈;赌博
60J27型 离散状态空间上的连续时间马尔可夫过程
91A15型 随机对策,随机微分对策
93C40型 自适应控制/观测系统
93E03型 控制理论中的随机系统(一般)
93E10型 随机控制理论中的估计与检测
PDF格式BibTeX公司 XML格式引用
全文: 内政部