×

成本约束下的渐近最优多武装盗贼策略。 (英语) Zbl 1373.62040号

摘要:我们考虑了成本约束下的多武器盗贼问题。每个群体的连续样本都具有未知分布的身份验证,每个样本都会产生已知的依赖于群体的成本。目标是设计一种自适应抽样策略,以最大化期望的样本总数,从而使平均成本不超过给定的约束样本路径。我们为可行一致快速收敛策略的遗憾建立了一个渐近下界,并构造了一类达到该下界的策略。我们还提供了它们在均值和方差未知的正态分布下的显式形式。

MSC公司:

62C25型 统计决策理论中的复合决策问题
91B06型 决策理论
90立方厘米 随机规划
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] 1.受众J-Y.、MunosR.和塞佩斯瓦里奇。(2009). 在多武装土匪中使用方差估计进行勘探-勘探权衡。理论计算机科学410(19):1876-1902.10.1016/j.tcs.2009.01.16·Zbl 1167.68059号 ·doi:10.1016/j.tcs.2009.01.016
[2] 2.澳大利亚。,塞萨·比安奇恩菲舍尔。(2002). 多武器土匪问题的有限时间分析。机器学习47(2-3):235-256.10.1023/A:1013689704352·Zbl 1012.68093号 ·doi:10.1023/A:1013689704352
[3] 3.澳大利亚。和OrtnerR.(2010)。Ucb重新审视:随机多武装土匪问题的改进遗憾界。匈牙利数学周期61(1-2):55-65.10.1007/s10998-010-3055-6·兹比尔1240.68164
[4] 4.巴达尼迪尤鲁。,Kleinberg R.和SlivkinsA。(2013). 背着背包的土匪。计算机科学基础(FOCS)。2013年IEEE第54届IEEE年会,第207-216页·Zbl 1425.68340号
[5] 5.巴特莱特。L.&TewariA.(2009年)。Regal:一种基于正则化的算法,用于弱通信MDP中的强化学习。第二十五届人工智能不确定性会议论文集。AUAI出版社,第35-42页。
[6] 6.BubeckS.和斯利夫金森。(2012年)。两个世界中最好的:随机和敌对的强盗。arXiv:1202.4473。
[7] 7.伯内塔A。N.和KanavetasO。A.(2012年)。不完全信息和成本约束下序贯抽样的自适应策略。N.J.Daras(编辑),《数学和信息学在军事科学中的应用》,Springer,第97-112.10.1007/978-1-4614-4109-0页·Zbl 1247.00058号
[8] 8.伯内塔A。N.和KatehakisM。N.(1993)。在不完全信息下,在单个处理器上对两类任务进行排序。工程与信息科学中的概率7(1):85-119.10.1017/S0269964800002801S0269974800002801·doi:10.1017/S0269964800002801
[9] 9.伯内塔A。N.和KatehakisM。N.(1996)。序列分配问题的大偏差性质。随机分析与应用14(1):23-310.1080/07362999608809423·Zbl 0848.60035号 ·doi:10.1080/07362999608809423
[10] 10.伯内塔A。N.和KatehakisM。N.(1996)。序列分配问题的最优自适应策略。应用数学进展17(2):122-142.10.1006/aama.1996.007·兹比尔0854.60032 ·doi:10.1006/aama.1996.007
[11] 11.伯内塔A。N.和KatehakisM。N.(1997)。马尔可夫决策过程的最优自适应策略。运筹学数学22(1):222-255.10.1287/moor.22.1.222·Zbl 0871.90103号 ·doi:10.1287/门22.1.222
[12] 12.伯内塔A。N.和KatehakisM。N.(1998)。带有边约束的顺序分配问题。INFORMS 1998年西雅图年会,华盛顿州西雅图·Zbl 0980.62060号
[13] 13.伯内塔A。N.和KatehakisM。N.(2003)。有限时域单臂带束问题的渐近Bayes分析。工程和信息科学中的概率17(01):53-82·Zbl 1013.62081号
[14] 14.布滕科群岛。,墨菲·R·帕尔达洛斯。M.(编辑)。(2013). 合作控制:模型、应用和算法(第1卷)。Springer Science&Business Media,纽约·Zbl 1013.93002号
[15] 15.CappéO。,加里维尔公司。,MaillardO公司-A.、MunosR.和斯托尔茨G。(2013). 最优顺序分配的Kullback-Leibler置信上限。《统计年鉴》41(3):1516-1541.10.1214/13-AOS1119·Zbl 1293.62161号 ·doi:10.1214/13-AOS1119
[16] 16.考恩W。,本田汽车公司KatehakisM。N.(2015)。渐近最优性,有限时域后悔界,以及一个开放问题的解。arXiv:1504.05823。《机器学习研究杂志》即将出版。
[17] 17.CowanW.和KatehakisM。N.(2015)。最低勘探分配政策的渐进行为:几乎可以肯定,任意减缓后悔的增长。arXiv:1505.02865。
[18] 18.CowanW.和KatehakisM。N.(2015)。支持未知的统一盗贼的渐近最优UCB策略。arXiv:1505.01918。
[19] 19.CowanW.和KatehakisM。N.(2015年c)。通用贬值和承诺下的多武器匪徒。工程与信息科学中的概率29(01):51-76.10.1017/S0269964814000217S02699964814000217·Zbl 1414.91104号 ·doi:10.1017/S0269964814000217
[20] 20.达亚尼克。,鲍威尔W。B.和YamazakiK。(2013). 渐近最优贝叶斯序列变化检测和识别规则。运营研究年鉴208(1):337-370.10.1007/s10479-012-1121-6·Zbl 1365.62322号 ·doi:10.1007/s10479-012-1121-6
[21] 21.丁伟。,秦皇岛。,张X-D.和LiuT-Y.(2013)。预算有限、成本可变的多武器强盗。AAAI-13会议,第232-238页。
[22] 22.范伯格E.A.,KasyanovP。O.和Zgurovsky M。Z.(2014)。具有一般状态集和操作集的总成本MDP和POMDP的值迭代收敛。自适应动态规划和强化学习(ADPRL)。2014年IEEE IEEE研讨会,第1-8页。
[23] 23.费勒W。(1967). 概率论及其应用导论,第1卷;第三版,纽约威利·Zbl 0158.34902号
[24] 24.文件。,CappéO.和加里维尔A。(2010). 基于Kullback-Leibler发散的强化学习中的乐观主义。第48届Allerton通信、控制和计算年会,第115-122页。
[25] 25.基廷斯J。C.、GlazebrookK.和韦伯R.(2011)。英国西苏塞克斯郡的多武器班迪特分配指数:John Wiley&Sons·Zbl 1401.90257号
[26] 26.古哈斯和穆纳格拉克。(2007). 预算学习问题的近似算法。《第三十九届ACM计算机理论研讨会论文集》,ACM,第104-113页·Zbl 1232.68180号
[27] 27.本田和竹村A。(2011). 多武装匪徒问题中有限支持模型的渐近最优策略。机器学习85(3):361-3910.1007/s10994-011-5257-4·Zbl 1237.91037号 ·doi:10.1007/s10994-011-5257-4
[28] 28.约翰逊。,Simchi-Levi.和王赫。(2015). 使用汤普森抽样进行在线网络收入管理。SSRN提供。
[29] 29.朱尼。,ErnstD公司。,MoyC.和PalicotJ。(2009). 针对认知无线电决策问题的基于多武器强盗的政策。第三届信号、电路和系统国际会议(SCS),第1-6页。
[30] 30.KatehakisM公司。N.和DermanC。(1986). 计算最佳顺序分配规则。临床试验。第8卷;课堂讲稿系列:采用的统计程序和相关主题,数理统计研究所,第29-39页·Zbl 0691.62075号
[31] 31.KatehakisM。N.和RobbinsH。(1995). 从几个群体中进行顺序选择。美国国家科学院院刊92(19):8584.10.1073/pnas.92.19.8584·doi:10.1073/pnas.92.19.8584
[32] 32.KatehakisM。N.和VeinottA。F.Jr.(1987)。多武器强盗问题:分解和计算。运筹学数学12:262-268.10.1287/moor.12.2.262·Zbl 0618.90097号 ·doi:10.1287/门12.2.262
[33] 33.考夫曼。(2015). Bayésiennes战略分析和资源分配。巴黎科技博士。
[34] 34.Kleinberg R.D.(2004)。连环武装匪徒问题几乎没有突破。神经信息处理系统进展会议。第697-704页。
[35] 35.拉古达基斯。G.&Parr.(2003)。最小二乘策略迭代。机器学习研究杂志4:1107-1149·Zbl 1094.68080号
[36] 36.莱特。L.&RobbinsH。(1985年)渐进有效的自适应分配规则。应用数学进展6(1):4-2.10.1016/0196-8858(85)90002-8·Zbl 0568.62074号
[37] 37.拉蒂莫雷。,CrammerK和SzepesváriC。(2014). 具有半Bandit反馈的最优资源分配。arXiv:1406.3840。
[38] 38.许可。,MunosR.和塞佩斯瓦里奇。(2014). 关于最小极大最优离线策略评估。arXiv:1409.3653。
[39] 39.公升。L.(2012)。诱导部分可观察的马尔可夫决策过程。ICGI会议,第145-148页。
[40] 40.马哈雅那特内克奇斯D。(2008). 多武器匪徒问题。A.O.Hero、D.Castanon、D.Cocharn和K.Kastella(编辑),传感器管理的基础和应用,Springer,第121-151.10.1007/978-0-387-49819-5页
[41] 41.OsbandI.和范罗伊布。(2014). 因子化MDP中的近最优强化学习。神经信息处理系统进展会议。第604-612页。
[42] 42.SenS.、RidgwayA和里普利。(2015). 供应链中用于信任开发的自适应预算盗贼算法。《2015年自治代理和多代理系统国际会议论文集》,国际自治代理和多重代理系统基金会。第137-144页。
[43] 43.新加坡克劳萨。(2013). 使用后悔最小化机制的众包任务中的真实激励。第22届万维网国际会议论文集。国际万维网会议指导委员会,第1167-1178页。
[44] 44.TekinC.和刘明。(2012年)。机会频谱接入中的近似最优自适应学习。INFOCOM,2012年IEEE会议记录。IEEE,第1548-1556页。
[45] 45.交易和易货。L.(2008)。乐观线性规划对不可约MDP给出了对数遗憾。神经信息处理系统进展会议。第1505-1512页。
[46] 46.托马杜斯。,VazirgianisM.和LiakopoulosK。(2012年)。实现在线广告活动自动化开发和优化的综合框架。arXiv:1208.1187。
[47] 47.交易。,查普曼群岛。,卢纳。D.C.F.、Enrique J.、。,罗杰斯公司詹宁斯北部。R.(2010)。Epsilon——第一个预算政策——限制多武器匪徒。AAAI-2010会议,第1211-1216页。
[48] 48.交易。,查普曼群岛。,卢纳。D.C.F.、Enrique J.、。,罗杰斯公司詹宁斯北部。R.(2012)。基于背包的预算受限多武装匪徒优化策略。AAAI-2012年会议,第1134-1140页。
[49] 49.交易。,斯塔夫罗甘尼斯。C.、NaroditskiyV.、。,罗布夫。,詹宁斯北部。R.和KeyP。(2014). 预算有限的赞助商搜索拍卖中在线竞标优化的有效遗憾界限”。英国南安普顿大学,技术报告。
[50] 50.旺兹。,登山,&是的。(2014). 缩小差距:针对单一产品收入管理问题的学习-实践算法。运筹学62(2):318-3310.1287/opre.2013.1245·兹比尔1302.91100 ·doi:10.1287/opre.2013.1245
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。