×

带约束臂开关的多臂强盗过程的一般理论。 (英语) Zbl 1483.90092号

总结:本文发展了一个关于多武装匪徒(MAB)过程在武器切换约束下的最优分配的一般理论,该约束被表示为一般随机时间集。为每个单臂构造了一个Gittins指数,并证明了相应的Gittins-指数策略的最优性。本文建立的约束MAB模型和Gittins索引策略包括连续时间、整数时间、半马尔可夫时间以及一般离散时间设置下的MAB过程。因此,新理论将经典的人与生物圈计划模型作为特例,也适用于文献中尚未研究的许多其他情况。虽然Gittins指数政策的最优性证明得益于现有连续时间MAB过程理论中的思想,但引入了新技术,大大简化了证明。

理学硕士:

90立方厘米 随机规划
90立方厘米 马尔可夫和半马尔可夫决策过程
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] R.Agrawal,连环武装匪徒问题,SIAM J.控制优化。,33(1995),第1926-1951页·Zbl 0848.93069号
[2] J.S.Banks和R.K.Sundaram,转换成本和Gittins指数,《计量经济学》,62(1994),第687-694页·Zbl 0807.90123号
[3] 鲍文华,吴旭,周旭,有限停车时间下的最优停车问题,工业管理杂志。最佳。,13(2017年),第399-411页·Zbl 1367.60042号
[4] D.Bertsimas和J.Nin͂o-Mora,《不安分的强盗》,线性规划松弛,以及原对偶指数启发式,Oper。研究,48(2000),第80-90页·Zbl 1106.90383号
[5] B.N.Burnetas、O.Kanavetas和M.N.Katehakis,《多臂强盗观测下的最优数据驱动资源分配》,预印本,arXiv:1811.12852,2018年·Zbl 1373.62040号
[6] X.Cai、X.Wu和X.Zhou,信息不完全的抢占-重复故障下的随机调度,Oper。Res.,57(2009),第1236-1249页·Zbl 1233.90180号
[7] X.Cai、X.Wu和X.Zhou,最优随机调度,Springer,纽约,2014年·Zbl 1401.90008号
[8] W.Cowan和M.N.Katehakis,《普遍贬值和承诺下的多武器匪徒》,Probab。工程通知。科学。,29(2015),第51-76页·Zbl 1414.91104号
[9] S.Dayanik、W.Powell和K.Yamazaki,针对具有可用性约束的折扣盗贼问题的指数政策,Adv.Appl。概率。,40(2008年),第377-400页·Zbl 1140.93047号
[10] N.El-Karoui和I.Karatzas,离散时间中的广义Gittins指数过程,Proc。国家。阿卡德。科学。美国,90(1993),第1232-1236页·Zbl 0783.60046号
[11] N.El Karoui和I.Karatzas,连续时间动态分配问题,Ann.Appl。概率。,4(1994),第255-286页·兹比尔083193069
[12] W.J.R.Eplett,连续时间分配及其离散时间近似,高级应用。概率。,18(1986),第724-746页·Zbl 0606.60072号
[13] P.I.Frazier和W.B.Powell,顺序贝叶斯抽样策略的一致性,SIAM J.控制优化。,49(2011),第712-731页·Zbl 1284.62170号
[14] J.Gittins和D.Jones,《实验顺序分配的动态分配指数》,载于J.Gani等人编辑的《统计进展》,荷兰北部,阿姆斯特丹,第241-266页,1974年·Zbl 0303.62064号
[15] J.C.Gittins,Bandit过程和动态分配指数(带讨论),J.R.Stat.Soc.Seri。B统计方法。,41(1979年),第148-164页·Zbl 0411.62055号
[16] J.C.Gittins,《多武器匪徒配置指数》,威利,纽约,1989年·Zbl 0699.90068号
[17] J.C.Gittins、K.D.Glazebrook和R.R.Webber,《多武器匪徒分配指数》,纽约威利,2011年·Zbl 1401.90257号
[18] T.Ishikida和P.Varaiya,重温多武器匪徒问题,J.Optim。理论应用。,83(1994年),第113-154页·Zbl 0816.90133号
[19] T.Jun,《关于转换成本的强盗问题的调查》,《经济学人》,152(2004),第513-541页。
[20] I.Karatzas,扩散过程动态分配问题中的Gittins指数,Ann.Probab。,12(1984年),第173-192页·Zbl 0536.60058号
[21] H.Kaspi和A.Mandelbaum,《离散和连续时间中的多武器匪徒》,Ann.Appl。概率。,8(1998),第1270-1290页·Zbl 0940.60063号
[22] P.R.Kumar,随机自适应控制的一些结果综述,SIAM J.控制优化。,23(1985年),第329-380页·Zbl 0571.93038号
[23] A.Mandelbaum,离散多武器强盗和多参数过程,Probab。理论相关领域,71(1986),第129-147页·Zbl 0788.60056号
[24] A.Mandelbaum,《持续的多武装土匪和多参数过程》,Ann.Probab。,15(1987),第1527-1556页·Zbl 0657.62098号
[25] J.L.,Menaldi和M.Robin,关于连续时间多武器盗贼问题的最优报酬函数,SIAM J.控制优化。,28(1990年),第97-112页·兹比尔0714.90096
[26] L.Snell,鞅系统定理的应用,Trans。阿默尔。数学。《社会学杂志》,73(1952),第293-312页·Zbl 0048.11402号
[27] R.S.Sutton和A.G.Barto,《强化学习:导论》,麻省理工学院出版社,马萨诸塞州剑桥,2018年·Zbl 1407.68009号
[28] P.Varaiya、J.Walrand和C.Buyukkoc,《多武装匪徒问题的扩展:折扣案例》,IEEE Trans。自动化。控制,230(1985),第426-439页·Zbl 0566.90096号
[29] G.Weiss,分支强盗过程,Prob。工程通知。科学。,2(1988年),第269-278页·Zbl 1134.91314号
[30] P.Whittle,多武器匪徒和Gittins指数,J.R.Stat.Soc.Ser。B、 统计方法。,42(1980),第143-149页·Zbl 0439.90096号
[31] P.Whittle,《武装强盗》,Ann.Probab。,9(1981年),第284-292页·Zbl 0464.90081号
[32] P.Whittle,《随时间优化:动态规划和随机控制》,威利出版社,纽约,1982年·Zbl 0557.93001号
[33] P.Whittle,《不安分的强盗:变化世界中的活动分配》,J.Appl。概率。,25(A)(1988),第287-298页·Zbl 0664.90043号
[34] X.Wu和X.Zhou,《具有无数状态和时间倒退效应的开放强盗过程》,J.Appl。概率。,50(2013年),第388-402页·Zbl 1266.90112号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。