文件Zbl 0639.93053-zbMATH Open

具有多个剧本的多武装盗贼问题的渐近有效分配规则。二：马尔科夫式奖励。（英语） Zbl 0639.93053号

IEEE传输。自动。控制 32, 977-982 (1987).

本文是第一部分的后续文章[见作者，同上AC-32968-976（1987；Zbl 0632.93067号)]. 在本文中，报酬过程是马尔可夫的，而不是独立的同分布的。
在每个时刻，都需要从N个马尔可夫链中选择一个固定数（m\geq 1），该链的平稳转移概率矩阵P（x，y，（θ）属于一个由实数（θ。这里是（R中的θ）和x，y（x中的），其中x是有限集。每只手臂都有一个初始未知的θ值。最终目标是使奖励的长期预期价值最大化。分析显示了与上述部分相同的设置。引入了一个后悔函数（如果一个人知道（θ值），那么平均奖励与不知道（θ值）的实际平均奖励之间的差异）。给出了后悔函数的一个下界，并给出了渐近有效准则。

审核人：G.奥尔斯德

引用于8文件

MSC公司：

91A60型	概率博弈；赌博
60J27型	离散状态空间上的连续时间马尔可夫过程
91A15型	随机对策，随机微分对策
93C40型	自适应控制/观测系统
93E03型	控制理论中的随机系统（一般）
93E10型	随机控制理论中的估计与检测

关键词：

学习计划;多臂强盗;马尔可夫奖励;后悔函数

引文：

Zbl 0632.93067号

PDF格式 BibTeX公司 XML格式引用

全文：内政部

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
ab公司	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
数据传输时间	文档类型(j个：期刊文章；b条：book；一：图书文章）

一&b条	逻辑和
一\|b条	逻辑或
!ab公司	逻辑不
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

领域

操作员

具有多个剧本的多武装盗贼问题的渐近有效分配规则。二：马尔科夫式奖励。（英语） Zbl 0639.93053号

MSC公司：

关键词：

引文：

示例

领域

操作员

具有多个剧本的多武装盗贼问题的渐近有效分配规则。二： 马尔科夫式奖励。 （英语） Zbl 0639.93053号

MSC公司：

关键词：

引文：

具有多个剧本的多武装盗贼问题的渐近有效分配规则。二：马尔科夫式奖励。（英语） Zbl 0639.93053号