×

马尔科夫的惠特尔指数调制了不安分的强盗。 (英语) Zbl 07613936号

摘要:在本文中,我们研究了一个受时间波动影响的多臂不安匪徒问题(MARBP)。该模型在实践中有许多应用,例如在云计算系统或无线通信网络中。每个土匪都是由两个过程组成的:一个可控过程和一个环境。可控过程的转移速率由环境状态决定,环境状态是一个外生马尔可夫过程。决策者对每一个匪徒的状态都有充分的信息,其目标是确定使长期平均成本最小化的最优策略。鉴于问题的复杂性,我们着手描述Whittle指数的特征,该指数是通过求解一个宽松版本的MARBP获得的。正如文献中所报道的,这种启发式方法对于各种各样的问题都表现得非常好。假设松弛问题的最优策略是阈值类型的,我们提供了一个找到Whittle指数的算法。然后我们考虑一个具有线性成本和不耐烦客户的多类队列。对于该模型,我们证明了阈值最优性,证明了可指数性,并获得了闭合形式的Whittle指数。我们还研究了环境相对较慢和较快于可控过程的极限状态。通过数值模拟,我们评估了惠特尔指数政策在各种情况下的次优性,一般的观察结果是,与标准MARBP一样,惠特尔的指数政策的次优差距很小。

MSC公司:

60K25码 排队论(概率论方面)
60K37型 随机环境中的进程
90立方厘米 马尔可夫和半马尔可夫决策过程
PDF格式BibTeX公司 XML格式引用
全文: 内政部 哈尔

参考文献:

[1] Aalto,S.、Lassila,P.、Osti,P.:采用Whittle指数法对具有时变信道的大型软件调度进行研究。在:2015年ACM SIGMETRICS计算机系统测量与建模国际会议论文集,第57-69页,(2015)
[2] 奥尔特曼,E。;阿夫拉琴科夫,肯塔基州;Nünez-Queija,R.,可数马尔可夫链的扰动分析及其在排队模型中的应用,高级应用。概率。,36, 3, 839-853 (2004) ·Zbl 1062.60066号 ·doi:10.1239/aap/1093962237
[3] Anand,A.,de Veciana,G.:Whittle基于索引的无线网络QoE优化方法。收件人:美国加利福尼亚州欧文市ACM SIGMETRICS会议记录(2018)
[4] 安塞尔,PS;KD格拉泽布鲁克;Niño-Mora,J。;O'Keeffe,M.,Whittle针对具有凸持有成本的多类排队系统的指数策略,数学。方法操作。决议,57,21-39(2003)·Zbl 1023.90010号 ·doi:10.1007/s001860200257
[5] 阿拉珀塔提斯,A。;Das,A。;庞,G。;Zheng,Y.,markov调制多类多服务器队列的最优控制,Stochast。系统。,9, 2, 83-181 (2019) ·Zbl 1446.60061号
[6] 氩,NT;丁·L。;格拉兹布鲁克,KD;Ziya,S.,多服务器排队系统中具有一般延迟成本的客户的动态路由,Probab。工程信息科学。,23, 2, 175-203 (2009) ·Zbl 1181.60132号 ·doi:10.1017/S0269964809000138
[7] Bhulai,S。;扫帚,AC;Spieksma,FM,关于应用于共享重试队列的处理器的无界跳马尔可夫过程的值函数的结构属性,排队系统。,76, 4, 425-446 (2014) ·兹比尔1327.90365 ·doi:10.1007/s11134-013-9371-9
[8] Borkar,V.S.,Kasbekar,G.S.,Pattathil,S.,Shetty,P.:机会主义的计划,就像不安分的强盗。IEEE网络系统控制汇刊(2017年)
[9] Borkar,V.S.和Pattathil,S.:平等处理器共享系统中的Whittle可索引性。安·Oper。决议,第1-21页,(2017年)
[10] 博卡尔,VS;拉维库马尔,K。;Saboo,K.,《基于价格承诺的云计算动态定价指数政策》,Appl。数学。,44215-245(2017)·Zbl 1375.90300号
[11] RJ Boucherie;Van Dijk,NM,《排队网络:基本方法》(2010),纽约:Springer Science&Business Media,纽约
[12] Budhiraja,A。;Ghosh,A。;Liu,X.,高流量下markov调制单服务器多类排队系统的调度控制,排队系统。,78, 1, 57-97 (2014) ·Zbl 1310.60126号 ·doi:10.1007/s11134-014-9396-8
[13] 戴,JG;He,S.,Many-server队列与客户放弃:扩散和流体近似的调查,J.Syst。科学。系统。工程,21,1,1-36(2012)·doi:10.1007/s11518-012-5189年
[14] 杜兰,S。;Verloop,IM,马尔科夫调制不安分强盗的渐近最优控制,Proc。ACM测量。分析。计算。系统。,2, 1, 7 (2018)
[15] 加斯特,N。;Gaujal,B.,离散时间优化的平均场方法,Dis。事件发电机。系统。,2011年1月21日,63-101·Zbl 1233.90275号 ·文件编号:10.1007/s10626-010-0094-3
[16] Gittins,J。;格拉泽布鲁克,K。;韦伯(Weber,R.),《多武器匪徒分配指数》(1989),奇切斯特:约翰·威利父子公司(John Wiley&Sons),奇切斯特·Zbl 0699.90068号
[17] KD格拉泽布鲁克;柯克布里德,C。;Ouenniche,J.,《不耐烦的客户到异构服务站的准入控制和路由的索引政策》,Oper。研究,57,975-989(2009)·Zbl 1226.90129号 ·doi:10.1287/opre.1080.632
[18] KD格拉泽布鲁克;米切尔,HM;安塞尔,PS,《维修人员维护一组机器的索引政策》,欧洲期刊Oper。研究,165,1,267-284(2005)·Zbl 1112.90323号 ·doi:10.1016/j.jor.2004.01.036
[19] Hasenbein,J.,Perry,D.(编辑):关于放弃排队系统的特刊。排队系统。75(2-4), 111-113 2013 ·Zbl 1277.90029号
[20] Ji,B.,Gupta,GG.R.,Sharma,M.,Lin,X.,Shroff,N.B.:在低复杂度的多信道无线网络中实现最优吞吐量和近最优渐近延迟性能:一种实用的贪婪调度策略。IEEE/ACM传输。网络,23(3):880-893,(2014)
[21] Larrañaga,M.,Ayesta,U.,Verloop,I.M.:具有凸持有成本和放弃的多类队列的索引策略。In:美国德克萨斯州奥斯汀市ACM SIGMETRICS会议记录(2014)
[22] 拉腊尼亚加,M。;阿耶斯塔,美国。;Verloop,IM,具有凸保持成本的放弃队列的渐近最优索引策略,排队系统。,81, 2-3, 99-169 (2015) ·Zbl 1341.68018号 ·doi:10.1007/s11134-015-9445-y
[23] 拉腊尼亚加,M。;阿耶斯塔,美国。;Verloop,IM,《生死未卜的强盗的动态控制:资源分配问题的应用》,IEEE/ACM Trans。网络,24,6,3812-3825(2016)·doi:10.1109/TNET.2016.2562564
[24] Mahajan,A.,Teneketzis,D.:多武装土匪问题。《传感器管理的基础与应用》,编辑A.O.Hero III、D.A.Castanon、D.Cochran和K.Kastella。,第121-308页,施普林格,弗拉格,(2007)
[25] Niño-Mora,J.,《焦躁不安的强盗边际生产率指数、收益递减和按订单/按库存制造M/G/1队列的最优控制》,数学。操作。决议,31,1,50-84(2006)·Zbl 1278.90099号 ·doi:10.1287/门1050.0165
[26] Niño-Mora,J.,《通过不安分的强盗边际生产率指数进行动态优先级分配》,TOP,第15期,第161-198页(2007年)·Zbl 1142.90015号 ·doi:10.1007/s11750-007-0025-0
[27] Niño-Mora,J.,Villar,S.S.:传感器调度,通过惠特尔不安的强盗指数政策搜索难以捉摸的隐藏目标。摘自:网络游戏、控制和优化国际会议(NetGCooP 2011),第1-8页。IEEE(2011)·Zbl 1410.90102号
[28] Opp,M。;格拉泽布鲁克,K。;Kulkarni,VG,《外包保修维修:动态分配》,海军后勤研究所。(NRL),52,5,381-398(2005)·兹比尔1072.90010 ·doi:10.1002/nav.20084
[29] Ouyang,W.,Eryilmaz,A.,Shroff,N.B.:马尔可夫衰落信道上的渐近最优下行链路调度。2012年IEEE INFOCOM会议记录,第1224-1232页。IEEE(2012)
[30] Puterman,ML,《马尔可夫决策过程:离散随机动态规划》(1994),纽约:威利出版社·Zbl 0829.90134号 ·doi:10.1002/9780470316887
[31] Stolyar,AL,《广义交换机中的Maxweight调度:状态空间崩溃和重流量下的工作负载最小化》,Ann.Appl。概率。,14, 1, 1-53 (2004) ·Zbl 1057.60092号 ·doi:10.1214/aoap/1075828046
[32] Tijms,HC,《随机建模与分析:计算方法》(1986),纽约:John Wiley&Sons Inc,NY
[33] van Dijk,NM,连续时间马尔可夫链的近似均匀化及其在性能分析中的应用,Stochast。工艺应用。,40, 2, 339-357 (1992) ·Zbl 0753.60066号 ·doi:10.1016/0304-4149(92)90018-L
[34] Verloop,IM,《可索引和不可索引不安盗贼的渐近最优优先级策略》,Ann.Appl。概率。,26, 4, 1947-1995 (2016) ·兹比尔1349.90834 ·doi:10.1214/15-AAP1137
[35] 韦伯,RR;Weiss,G.,《关于不安分强盗的指数政策》,J.Appl。概率。,27, 3, 637-648 (1990) ·Zbl 0735.90072号 ·doi:10.2307/3214547
[36] Whittle,P.:《不安分的强盗:变化世界中的活动分配》。J.应用。概率。,25(A):287-298,(1988)·兹比尔0664.90043
[37] Whittle,P.:最优控制,基础及其他。John Wiley&Sons,纽约(1996)·Zbl 0880.49001号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。