×

学习队列中的未知服务率:一种多武器强盗方法。 (英语) 兹比尔1466.90027

摘要:考虑一个由多个服务器组成的排队系统。工作随着时间推移而到达,并进入服务队列;目标是最小化此队列的大小。每个服务机会最多只能选择一个服务器,最多只能服务一个作业。服务成功的概率(服务概率)那就是先验未知对于每台服务器。知道服务概率的算法(“精灵”)总是可以选择服务概率最高的服务器。我们研究学习未知服务概率的算法。我们的目标是将排队后悔:算法获得的队列长度与“精灵”获得的队列长之间的(预期)差异。由于队列遗憾不能大于经典的遗憾,标准多武器盗贼问题的结果给出了队列遗憾在时间上增加不超过对数的算法。我们的论文显示了令人惊讶的更复杂的行为。特别是,只要盗贼算法的队列具有相对较长的再生周期,队列后悔就与累积后悔类似,并且(本质上)按对数缩放。然而,我们表明,排队强盗的这个“早期阶段”最终会让位于“晚期阶段”,其中最佳的队列重累加比例是\(O(1/t)\)。我们证明了一种算法,该算法(按顺序)在后期实现了这种渐近队列遗憾。我们的结果是在一个更通用的模型中开发的,该模型还允许多个工作类别。
电子伴侣可在https://doi.org/10.1287/opere.2020.1995.

MSC公司:

90B22型 运筹学中的队列和服务
90B35型 运筹学中的确定性调度理论
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Agrawal S,Goyal N(2012)《多武器强盗问题的汤普森抽样分析》。Lee DD、Sugiyama M、Luxburg UV、Guyon I、Garnett R编辑。第25届年度Conf.学习理论(COLT),苏格兰爱丁堡,39.1-39.26谷歌学者
[2] Audibert JY,Munos R,Szepesvári C(2009)《使用多武装匪徒的方差估计进行勘探与开发权衡》。理论。计算。科学。410(19):1876-1902 Crossref,谷歌学者·Zbl 1167.68059号 ·doi:10.1016/j.tcs.2009.01.016
[3] Auer P、Cesa Bianchi N、Fischer P(2002)《多武装匪徒问题的有限时间分析》。机器学习。47(2-3):235-256.Crosref,谷歌学者·Zbl 1012.68093号 ·doi:10.1023/A:1013689704352
[4] Avrachenkov K,Ayesta U,Doncel J,Jacko P(2013)通过索引策略对互联网路由器中TCP流的拥塞控制。计算。网络57(17):3463-3478.Crossref,谷歌学者·doi:10.1016/j.comnet.2013.08.001
[5] Ayesta U、Jacko P、Novak V(2017)《带放弃的多类多服务器排队系统调度》。J.日程安排20(2):129-145.Crossref,谷歌学者·Zbl 1373.90066号 ·doi:10.1007/s10951-015-0456-7
[6] Bubeck S,Cesa-Bianchi N(2012)随机和非随机多武器强盗问题的后悔分析。基础趋势机器学习。5(1):1-122.Crossref,谷歌学者·Zbl 1281.91051号 ·doi:10.1561/220000024
[7] Bubeck S、Perchet V、Rigollet P(2013)《随机多武器匪徒的有限遗憾》。预印本,2月6日提交,https://arxiv.org/abs/1302.1611.谷歌学者
[8] Buyukkoc C、Varaiya P、Walrand J(1985)《重新审视Cµ规则》。高级应用程序。普罗巴伯。17(1):237-238.Crossref,谷歌学者·Zbl 0557.60082号 ·doi:10.2307/1427064
[9] Cesa Bianchi N,Lugosi G(2012)《组合匪徒》。J.计算。系统科学。78(5):1404-1422.Crossref,谷歌学者·Zbl 1262.91052号 ·doi:10.1016/j.jcss.2012.01.001
[10] Combes R,Jiang C,Srikant R(2015a)有预算的土匪:回归下界和最优算法。程序。2015 ACM SIGMETRICS国际。一致性度量模型。计算。Systems(ACM,纽约),245-257.谷歌学者
[11] Combes R、Shahi MSTM、Proutiere A等(2015b)重访组合匪徒。Cortes C,Lee DD,Sugiyama M,Garnett R,eds.神经信息处理系统进展(纽约州Red Hook市Curran Associates),2116-2124.谷歌学者
[12] 考克斯·D、史密斯·W(1961)队列(查普曼和霍尔/CRC,佛罗里达州博卡拉顿)。谷歌学者
[13] Degene R,Perchet V(2016)具有已知协方差的组合半土匪。Lee DD,von Luxburg U,Garnett R,Sugiyama M,Guyon I,eds.《神经信息处理系统进展》,第30卷(Curran Associates,Red Hook,NY),2972-1980。谷歌学者
[14] Gai Y、Krishnamachari B、Jain R(2012)《未知变量组合网络优化:具有线性奖励和个人观察的多武器强盗》。IEEE/ACM传输。网络20(5):1466-1478.Crossref,谷歌学者·doi:10.1109/TNET.2011.2181864
[15] Garivier A,CappéO(2011)有界随机土匪及其后的KL-UCB算法。预印本,2月12日提交,https://arxiv.org/abs/102.2490.谷歌学者
[16] Gittins J、Glazebrook K、Weber R(2011)多武器匪徒分配指标(英国奇切斯特Wiley-Blackwell)。Crossref,谷歌学者·Zbl 1401.90257号 ·数字对象标识代码:10.1002/9780470980033
[17] Gittins JC(1979)班迪特过程和动态分配指数。J.罗伊。统计师。Soc.系列B(方法学)41(2):148-177.Crossref,谷歌学者·Zbl 0411.62055号 ·doi:10.1111/j.2517-6161.1979.tb01068.x
[18] Jacko P(2010)《焦躁不安的强盗》(Restless匪徒)探讨了作业调度问题及其扩展。Piunovsky A编辑。受控随机过程的现代趋势:理论与应用(英国利物浦Luniver出版社),248-267.谷歌学者
[19] Jaksch T,Ortner R,Auer P(2010)强化学习的近似最优后悔界限。J.机器学习。物件。11(4月):1563-1600.谷歌学者·Zbl 1242.68229号
[20] Kaufmann E、Korda N、Munos R(2012)《汤普森抽样:渐近最优有限时间分析》。Bshouty NH、Stoltz G、Vayatis N、Zeugmann T编辑。算法学习理论。ALT 2012,计算机科学课堂讲稿第7568卷(柏林施普林格出版社),199-213.Crossref,谷歌学者·Zbl 1386.91055号 ·doi:10.1007/978-3-642-34106-9_18
[21] Krishnasamy S、Sen R、Johari R、Shakkottai S(2016)《排队抢劫的悔恨》。Lee DD,von Luxburg U,Garnett R,Sugiyama M,Guyon I,eds.神经信息处理系统进展,第30卷(Curran Associates,Red Hook,NY),1669-1677.谷歌学者
[22] 库什纳H(2013)受控排队和通信网络的重流量分析第47卷(Springer Science&Business Media,纽约)。谷歌学者
[23] Lai TL,Robbins H(1985)渐近有效自适应分配规则。高级应用程序。数学。6(1):4-22.Crossref,谷歌学者·Zbl 0568.62074号 ·doi:10.1016/0196-8858(85)90002-8
[24] Larrañaga M,Ayesta U,Verloop IM(2016)不安土匪的生与死动态控制:资源分配问题的应用。IEEE/ACM传输。网络24(6):3812-3825.Crossref,谷歌学者·doi:10.1109/TNET.2016.2562564
[25] Lott C,Teneketzis D(2000)关于具有多个服务类别的单跳移动网络的多信道分配中索引规则的最优性。可能性。工程通知。科学。14(3):259-297.Crossref,谷歌学者·Zbl 0991.90026号 ·doi:10.1017/S0269964800143013
[26] Mahajan A,Teneketzis D(2008)《多武器匪徒问题》。Hero AO、Castañón DA、Cochran D、Kastella K编辑。传感器管理的基础和应用(波士顿斯普林格),121-151。谷歌学者Crossref·doi:10.1007/978-0-387-49819-56
[27] Neely MJ(2010)稳定性和容量区域或离散时间排队网络。预印本,3月17日提交,https://arxiv.org/abs/1003.3396.谷歌学者
[28] Niño-Mora J(2006)调度多类延迟/损失敏感队列的边际生产率指数策略。排队系统54(4):281-312.Crossref,谷歌学者·Zbl 1117.90035号 ·文件编号:10.1007/s11134-006-0302-x
[29] Niño-Mora J(2007)通过不安分的强盗边际生产率指数动态分配优先级。顶部15(2):161-198.Crossref,谷歌学者·Zbl 1142.90015号 ·doi:10.1007/s11750-007-0025-0
[30] Niño-Mora J(2012)《软实时作业对多集群的接纳和路由:指数策略的设计和比较》。计算。操作。物件。39(12):3431-3444.Crossref,谷歌学者·Zbl 1349.90229号 ·doi:10.1016/j.cor.2012.05.004
[31] Ortner R、Ryabko D、Auer P、Munos R(2014)《对不安分的马尔可夫匪徒的悔恨》。理论。计算。科学。558(13):62-76.Crossref,谷歌学者·Zbl 1360.60090号 ·doi:10.1016/j.tcs.2014.09.026
[32] Perchet V、Rigollet P、Chassang S、Snowberg E(2015)《成批盗贼问题》。预印本,5月2日提交,https://arxiv.org/abs/11505.00369.谷歌学者·Zbl 1338.62180号
[33] Salomon A,Audiber JY,El Alaoui I(2013),随机多武器强盗问题中弱一致策略的下限和选择性。J.机器学习。物件。14(1):187-207.谷歌学者·Zbl 1320.91041号
[34] Srikant R,Ying L(2014)通信网络:优化、控制和随机网络的视角(英国剑桥大学出版社)。谷歌学者·Zbl 1350.90001号
[35] Thompson WR(1933)考虑到两个样本的证据,一种未知概率超过另一种概率的可能性。生物特征25(3/4):285-294.Crossref,谷歌学者·doi:10.2307/2332286
[36] Tsybakov AB(2008)非参数估计简介(Springer Science&Business Media,纽约)。谷歌学者
[37] Van Mieghem JA(1995)《具有凸延迟成本的动态调度:广义cµ规则》。附录申请。普罗巴伯。809-833.Crossref,谷歌学者·Zbl 0843.90047号 ·doi:10.1214/aoap/1177004706
[38] Whitt W(1974)《排队的重交通极限定理:一项调查》。Clarke AB编辑。排队论中的数学方法,经济学和数学系统的课堂讲稿(运筹学),第98卷(柏林施普林格出版社),307-350.谷歌学者交叉引用·Zbl 0295.60081号 ·doi:10.1007/978-3642-80838-8_15
[39] Whittle P(1988)《不安分的强盗:变化世界中的活动分配》。J.应用。普罗巴伯。25:287-298谷歌学者·Zbl 0664.90043号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。