×

不安盗贼可指数化的条件和计算Whittle指数的(mathcal{O}(K^3))算法。 (英语) Zbl 1508.90113号

高级应用程序。普罗巴伯。 54,第4期,1164-1192(2022); 更正同上,55,第4号,1473-1474(2023)。
摘要:不安分盗贼是一类连续资源分配问题,涉及在多个可选过程中分配一个或多个资源,其中过程的演变取决于分配给它们的资源。这些模型反映了勘探和开采之间的基本权衡。1988年,惠特尔为不安分的强盗问题开发了一种指数启发式方法,由于其简单性和强大的经验性能,该方法已成为一种流行的解决方法。如果模型满足一个称为可索引性的技术条件,则适用惠特尔指数启发式。在本文中,我们给出了可索引性的两个一般充分条件,并确定了这些条件的简单可验证的改进。然后,我们重新访问了之前提出的一种称为自适应贪婪算法的算法,该算法已知用于计算不安分盗贼子类的Whittle指数。我们证明了自适应贪婪算法的推广可以计算所有可索引的不安盗贼的Whittle指数。我们给出了该算法的一个有效实现,它可以计算在(mathcal{O}(K^3)计算中具有(K)状态的不安分盗贼的Whittle指数。最后,我们给出了一个详细的数值研究,证实了Whittle指数启发式算法的强大性能。

MSC公司:

90立方厘米 马尔可夫和半马尔可夫决策过程
90立方厘米 动态编程
49平方米20 松弛型数值方法
91B32型 资源和成本分配(包括公平分配、分摊等)
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Abad,C.和Iyengar,G.(2016)。自动化灾难恢复设备的近乎最佳的维护策略。IEEE传输。智能电网7,1411-1419。
[2] Akbarzadeh,N.和Mahajan,A.(2019年)。部分观测下的动态频谱接入:不安分的强盗方法。在新泽西州皮斯卡塔韦市电气和电子工程师学会的加拿大信息理论研讨会上,第1-6页。
[3] Akbarzadeh,N.和Mahajan,A.(2019)。控制重启的不安盗贼:可索引性和Whittle指数的计算。第58届IEEE决策与控制会议,电气与电子工程师学会,新泽西州皮斯卡塔韦,第7294-7300页。
[4] Akbarzadeh,N.和Mahajan,A.(2020年)。计算惠特尔指数的改进算法。可在https://codeocean.com/capsule/8680851/tree/v1。 ·Zbl 1508.90113号
[5] Ansell,P.S.、Glazebrook,K.D.、Niño-Mora,J.和o'Keeffe,M.(2003)。Whittle针对具有凸持有成本的多类排队系统的指数策略。数学。运营商。第57号决议,21-39·Zbl 1023.90010号
[6] Archibald,T.W.、Black,D.P.和Glazebrook,K.D.(2009)。一类简单库存路径问题的可索引性和索引启发式。运营商。第57、314-326号决议·邮编:1181.90004
[7] Avrachenkov,K.、Ayesta,U.、Doncel,J.和Jacko,P.(2013)。通过索引策略对互联网路由器中的TCP流进行拥塞控制。计算机网络57,3463-3478。
[8] Ayesta,U.、Erausquin,M.和Jacko,P.(2010年)。一种用于优化时变通道的流程级调度的建模框架。绩效评估671014-1029。
[9] Bertsimas,D.和Niño-Mora,J.(1996)。守恒定律、扩展多拟阵和多武装匪徒问题;可转位系统的多面体方法。数学。运营商。第21号决议,第257-306号·兹比尔0857.90055
[10] Chakravorty,J.和Mahajan,A.(2014)。多武器强盗,基廷斯指数及其计算。《临床试验中统计学的方法和应用:规划、分析和推断方法》,第2卷,新泽西州霍博肯John Wiley出版社,第416-435页。
[11] Deo,S.等人(2013年)。通过社区慢性病护理模式中更好的能力分配来改善健康结果。运营商。1277-1294年第61号决议·兹比尔1291.90106
[12] Egidi,N.和Maponi,P.(2006年)。求解线性系统的Sherman-Morrison方法。J.计算。申请。数学189703-718·Zbl 1090.65037号
[13] Gittins,J.、Glazebrook,K.和Weber,R.(2011)。多武装土匪分配指数。奇切斯特约翰·威利·Zbl 1401.90257号
[14] Gittins,J.C.(1979年)。Bandit进程和动态分配指数。J.R.统计。Soc.B41148-177·Zbl 0411.62055号
[15] Glazebrook,K.、Hodge,D.和Kirkbride,C.(2013)。针对双向不安分强盗的单调策略和可索引性。高级应用程序。探针45,51-85·Zbl 1274.90473号
[16] Glazebrook,K.和Mitchell,H.(2002年)。具有改进/恶化作业的随机调度模型的指数策略。海军后勤研究49,706-721·Zbl 1037.90037号
[17] Glazebrook,K.D.、Kirkbride,C.和Ouenniche,J.(2009)。索引不耐烦客户到异构服务站的准入控制和路由策略。运营商。975-989号决议·Zbl 1226.90129号
[18] Glazebrook,K.D.、Mitchell,H.M.和Ansell,P.S.(2005)。一组修理工维护一组机器的索引策略。欧洲。J.歌剧。第165267-284号决议·Zbl 1112.90323号
[19] Glazebrook,K.D.、Ruiz Hernandez,D.和Kirkbride,C.(2006年)。一些不安分的强盗问题的可索引家庭。高级应用程序。探针38,643-672·Zbl 1101.90079号
[20] Jacko,P.(2012)。随机动态竞争对手单个资源分配的最优指标规则。在VALUETOOLS’11:程序。第五届国际计算机科学技术理事会绩效评估方法和工具会议,计算机械协会,纽约,第425-433页。
[21] Liu,K.和Zhao,Q.(2010)。不安分盗贼问题的可索引性和动态多信道接入的Whittle指数的最佳性。IEEE传输。Inf.理论56,5547-5567·Zbl 1366.94390号
[22] Lott,C.和Teneketzis,D.(2000年)。关于具有多个服务类别的单跳移动网络的多信道分配中索引规则的最优性。探针。工程信息科学.14,259-297·Zbl 0991.90026号
[23] Niño-Mora,J.(2001)。不安分的强盗,部分守恒定律和指数化。高级应用程序。探针33,76-98·Zbl 1039.90019号
[24] Niño-Mora,J.(2002年)。无休止项目和排队准入控制的动态分配指标:多面体方法。数学。程序93361-413·Zbl 1023.90034号
[25] Niño-Mora,J.(2007)。通过无休止的强盗边际生产率指数进行动态优先级分配。TOP15161-198年·Zbl 1142.90015号
[26] Niño-Mora,J.(2006年)。不安分的强盗边际生产率指数、递减的回报和对按订单/按库存M/G/1队列的最优控制。数学。运营商。第31号决议,50-84·Zbl 1278.90099号
[27] Papadimitriou,C.H.和Tsitsiklis,J.N.(1999)。最优排队网络控制的复杂性。数学。运营商。第24号决议,293-305·Zbl 0977.90008号
[28] Puterman,M.L.(2014)。马尔可夫决策过程:离散随机动态规划。新泽西州霍博肯市约翰·威利·Zbl 0829.90134号
[29] Qian,Y.,Zhang,C.,Krishnamachari,B.和Tambe,M.(2016)。不安分的偷猎者:在安全领域处理勘探与开发的权衡。AAMAS’16:程序。2016年自动代理和多代理系统国际会议,计算机械协会,纽约,第123-131页。
[30] Wang,J.、Ren,X.、Mo,Y.和Shi,L.(2020)。远程状态估计中动态多信道分配的惠特尔指数策略。IEEE传输。自动控制65、591-603·Zbl 07256187号
[31] Weber,R.R.和Weiss,G.(1990年)。关于不安分强盗的指数政策。J.应用。问题27,637-648·Zbl 0735.90072号
[32] Whittle,P.(1988)。不安分的强盗:变化世界中的活动分配。J.应用。问题25287-298·Zbl 0664.90043号
[33] Yu,Z.、Xu,Y.和Tong,L.(2018)。最后期限排成了焦躁不安的强盗。IEEE传输。自动控制632343-2358·Zbl 1423.90107号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。