文件Zbl 1483.90092-zbMATH Open

带约束臂开关的多臂强盗过程的一般理论。（英语） Zbl 1483.90092号

SIAM J.控制优化。 59，第6号，4666-4688（2021）.

总结：本文发展了一个关于多武装匪徒（MAB）过程在武器切换约束下的最优分配的一般理论，该约束被表示为一般随机时间集。为每个单臂构造了一个Gittins指数，并证明了相应的Gittins-指数策略的最优性。本文建立的约束MAB模型和Gittins索引策略包括连续时间、整数时间、半马尔可夫时间以及一般离散时间设置下的MAB过程。因此，新理论将经典的人与生物圈计划模型作为特例，也适用于文献中尚未研究的许多其他情况。虽然Gittins指数政策的最优性证明得益于现有连续时间MAB过程理论中的思想，但引入了新技术，大大简化了证明。

引用于1文件

理学硕士：

90立方厘米	随机规划
90立方厘米	马尔可夫和半马尔可夫决策过程

关键词：

多武装匪徒程序;基廷斯指数;限制停车时间;随机自适应控制;机器学习/强化学习

PDF格式 BibTeX公司 XML格式引用

全文：内政部 arXiv公司

参考文献：

[1]	R.Agrawal，连环武装匪徒问题，SIAM J.控制优化。，33（1995），第1926-1951页·Zbl 0848.93069号
[2]	J.S.Banks和R.K.Sundaram，转换成本和Gittins指数，《计量经济学》，62（1994），第687-694页·Zbl 0807.90123号
[3]	鲍文华，吴旭，周旭，有限停车时间下的最优停车问题，工业管理杂志。最佳。，13（2017年），第399-411页·Zbl 1367.60042号
[4]	D.Bertsimas和J.Nin͂o-Mora，《不安分的强盗》，线性规划松弛，以及原对偶指数启发式，Oper。研究，48（2000），第80-90页·Zbl 1106.90383号
[5]	B.N.Burnetas、O.Kanavetas和M.N.Katehakis，《多臂强盗观测下的最优数据驱动资源分配》，预印本，arXiv:1811.12852，2018年·Zbl 1373.62040号
[6]	X.Cai、X.Wu和X.Zhou，信息不完全的抢占-重复故障下的随机调度，Oper。Res.，57（2009），第1236-1249页·Zbl 1233.90180号
[7]	X.Cai、X.Wu和X.Zhou，最优随机调度，Springer，纽约，2014年·Zbl 1401.90008号
[8]	W.Cowan和M.N.Katehakis，《普遍贬值和承诺下的多武器匪徒》，Probab。工程通知。科学。，29（2015），第51-76页·Zbl 1414.91104号
[9]	S.Dayanik、W.Powell和K.Yamazaki，针对具有可用性约束的折扣盗贼问题的指数政策，Adv.Appl。概率。，40（2008年），第377-400页·Zbl 1140.93047号
[10]	N.El-Karoui和I.Karatzas，离散时间中的广义Gittins指数过程，Proc。国家。阿卡德。科学。美国，90（1993），第1232-1236页·Zbl 0783.60046号
[11]	N.El Karoui和I.Karatzas，连续时间动态分配问题，Ann.Appl。概率。，4（1994），第255-286页·兹比尔083193069
[12]	W.J.R.Eplett，连续时间分配及其离散时间近似，高级应用。概率。，18（1986），第724-746页·Zbl 0606.60072号
[13]	P.I.Frazier和W.B.Powell，顺序贝叶斯抽样策略的一致性，SIAM J.控制优化。，49（2011），第712-731页·Zbl 1284.62170号
[14]	J.Gittins和D.Jones，《实验顺序分配的动态分配指数》，载于J.Gani等人编辑的《统计进展》，荷兰北部，阿姆斯特丹，第241-266页，1974年·Zbl 0303.62064号
[15]	J.C.Gittins，Bandit过程和动态分配指数（带讨论），J.R.Stat.Soc.Seri。B统计方法。，41（1979年），第148-164页·Zbl 0411.62055号
[16]	J.C.Gittins，《多武器匪徒配置指数》，威利，纽约，1989年·Zbl 0699.90068号
[17]	J.C.Gittins、K.D.Glazebrook和R.R.Webber，《多武器匪徒分配指数》，纽约威利，2011年·Zbl 1401.90257号
[18]	T.Ishikida和P.Varaiya，重温多武器匪徒问题，J.Optim。理论应用。，83（1994年），第113-154页·Zbl 0816.90133号
[19]	T.Jun，《关于转换成本的强盗问题的调查》，《经济学人》，152（2004），第513-541页。
[20]	I.Karatzas，扩散过程动态分配问题中的Gittins指数，Ann.Probab。，12（1984年），第173-192页·Zbl 0536.60058号
[21]	H.Kaspi和A.Mandelbaum，《离散和连续时间中的多武器匪徒》，Ann.Appl。概率。，8（1998），第1270-1290页·Zbl 0940.60063号
[22]	P.R.Kumar，随机自适应控制的一些结果综述，SIAM J.控制优化。，23（1985年），第329-380页·Zbl 0571.93038号
[23]	A.Mandelbaum，离散多武器强盗和多参数过程，Probab。理论相关领域，71（1986），第129-147页·Zbl 0788.60056号
[24]	A.Mandelbaum，《持续的多武装土匪和多参数过程》，Ann.Probab。，15（1987），第1527-1556页·Zbl 0657.62098号
[25]	J.L.，Menaldi和M.Robin，关于连续时间多武器盗贼问题的最优报酬函数，SIAM J.控制优化。，28（1990年），第97-112页·兹比尔0714.90096
[26]	L.Snell，鞅系统定理的应用，Trans。阿默尔。数学。《社会学杂志》，73（1952），第293-312页·Zbl 0048.11402号
[27]	R.S.Sutton和A.G.Barto，《强化学习：导论》，麻省理工学院出版社，马萨诸塞州剑桥，2018年·Zbl 1407.68009号
[28]	P.Varaiya、J.Walrand和C.Buyukkoc，《多武装匪徒问题的扩展：折扣案例》，IEEE Trans。自动化。控制，230（1985），第426-439页·Zbl 0566.90096号
[29]	G.Weiss，分支强盗过程，Prob。工程通知。科学。，2（1988年），第269-278页·Zbl 1134.91314号
[30]	P.Whittle，多武器匪徒和Gittins指数，J.R.Stat.Soc.Ser。B、统计方法。，42（1980），第143-149页·Zbl 0439.90096号
[31]	P.Whittle，《武装强盗》，Ann.Probab。，9（1981年），第284-292页·Zbl 0464.90081号
[32]	P.Whittle，《随时间优化：动态规划和随机控制》，威利出版社，纽约，1982年·Zbl 0557.93001号
[33]	P.Whittle，《不安分的强盗：变化世界中的活动分配》，J.Appl。概率。，25（A）（1988），第287-298页·Zbl 0664.90043号
[34]	X.Wu和X.Zhou，《具有无数状态和时间倒退效应的开放强盗过程》，J.Appl。概率。，50（2013年），第388-402页·Zbl 1266.90112号

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
ab公司	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文档类型(j个：期刊文章；b条：book；一：图书文章）

一&b条	逻辑和
一\|b条	逻辑或
!ab公司	逻辑不
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

字段

操作员

带约束臂开关的多臂强盗过程的一般理论。（英语） Zbl 1483.90092号

理学硕士：

关键词：

参考文献：

示例

字段

操作员

带约束臂开关的多臂强盗过程的一般理论。 （英语） Zbl 1483.90092号

理学硕士：

关键词：

参考文献：

带约束臂开关的多臂强盗过程的一般理论。（英语） Zbl 1483.90092号