文件Zbl 1373.62040-zbMATH打开

成本约束下的渐近最优多武装盗贼策略。（英语） Zbl 1373.62040号

普罗巴伯。工程信息科学。 31，第3期，284-310（2017）.

摘要：我们考虑了成本约束下的多武器盗贼问题。每个群体的连续样本都具有未知分布的身份验证，每个样本都会产生已知的依赖于群体的成本。目标是设计一种自适应抽样策略，以最大化期望的样本总数，从而使平均成本不超过给定的约束样本路径。我们为可行一致快速收敛策略的遗憾建立了一个渐近下界，并构造了一类达到该下界的策略。我们还提供了它们在均值和方差未知的正态分布下的显式形式。

引用于1文件

MSC公司：

62C25型	统计决策理论中的复合决策问题
91B06型	决策理论
90立方厘米	随机规划

关键词：

应用概率;随机建模

PDF格式 BibTeX公司 XML格式引用

全文：内政部 arXiv公司

参考文献：

[1]	1.受众J-Y.、MunosR.和塞佩斯瓦里奇。(2009). 在多武装土匪中使用方差估计进行勘探-勘探权衡。理论计算机科学410（19）：1876-1902.10.1016/j.tcs.2009.01.16·Zbl 1167.68059号 ·doi:10.1016/j.tcs.2009.01.016
[2]	2.澳大利亚。，塞萨·比安奇恩菲舍尔。(2002). 多武器土匪问题的有限时间分析。机器学习47（2-3）：235-256.10.1023/A:1013689704352·Zbl 1012.68093号 ·doi:10.1023/A:1013689704352
[3]	3.澳大利亚。和OrtnerR.（2010）。Ucb重新审视：随机多武装土匪问题的改进遗憾界。匈牙利数学周期61（1-2）：55-65.10.1007/s10998-010-3055-6·兹比尔1240.68164
[4]	4.巴达尼迪尤鲁。，Kleinberg R.和SlivkinsA。(2013). 背着背包的土匪。计算机科学基础（FOCS）。2013年IEEE第54届IEEE年会，第207-216页·Zbl 1425.68340号
[5]	5.巴特莱特。L.&TewariA.（2009年）。Regal：一种基于正则化的算法，用于弱通信MDP中的强化学习。第二十五届人工智能不确定性会议论文集。AUAI出版社，第35-42页。
[6]	6.BubeckS.和斯利夫金森。（2012年）。两个世界中最好的：随机和敌对的强盗。arXiv:1202.4473。
[7]	7.伯内塔A。N.和KanavetasO。A.（2012年）。不完全信息和成本约束下序贯抽样的自适应策略。N.J.Daras（编辑），《数学和信息学在军事科学中的应用》，Springer，第97-112.10.1007/978-1-4614-4109-0页·Zbl 1247.00058号
[8]	8.伯内塔A。N.和KatehakisM。N.（1993）。在不完全信息下，在单个处理器上对两类任务进行排序。工程与信息科学中的概率7（1）：85-119.10.1017/S0269964800002801S0269974800002801·doi:10.1017/S0269964800002801
[9]	9.伯内塔A。N.和KatehakisM。N.（1996）。序列分配问题的大偏差性质。随机分析与应用14（1）：23-310.1080/07362999608809423·Zbl 0848.60035号 ·doi:10.1080/07362999608809423
[10]	10.伯内塔A。N.和KatehakisM。N.（1996）。序列分配问题的最优自适应策略。应用数学进展17（2）：122-142.10.1006/aama.1996.007·兹比尔0854.60032 ·doi:10.1006/aama.1996.007
[11]	11.伯内塔A。N.和KatehakisM。N.（1997）。马尔可夫决策过程的最优自适应策略。运筹学数学22（1）：222-255.10.1287/moor.22.1.222·Zbl 0871.90103号 ·doi:10.1287/门22.1.222
[12]	12.伯内塔A。N.和KatehakisM。N.（1998）。带有边约束的顺序分配问题。INFORMS 1998年西雅图年会，华盛顿州西雅图·Zbl 0980.62060号
[13]	13.伯内塔A。N.和KatehakisM。N.（2003）。有限时域单臂带束问题的渐近Bayes分析。工程和信息科学中的概率17（01）：53-82·Zbl 1013.62081号
[14]	14.布滕科群岛。，墨菲·R·帕尔达洛斯。M.（编辑）。(2013). 合作控制：模型、应用和算法（第1卷）。Springer Science&Business Media，纽约·Zbl 1013.93002号
[15]	15.CappéO。，加里维尔公司。，MaillardO公司-A.、MunosR.和斯托尔茨G。(2013). 最优顺序分配的Kullback-Leibler置信上限。《统计年鉴》41（3）：1516-1541.10.1214/13-AOS1119·Zbl 1293.62161号 ·doi:10.1214/13-AOS1119
[16]	16.考恩W。，本田汽车公司KatehakisM。N.（2015）。渐近最优性，有限时域后悔界，以及一个开放问题的解。arXiv:1504.05823。《机器学习研究杂志》即将出版。
[17]	17.CowanW.和KatehakisM。N.（2015）。最低勘探分配政策的渐进行为：几乎可以肯定，任意减缓后悔的增长。arXiv:1505.02865。
[18]	18.CowanW.和KatehakisM。N.（2015）。支持未知的统一盗贼的渐近最优UCB策略。arXiv:1505.01918。
[19]	19.CowanW.和KatehakisM。N.（2015年c）。通用贬值和承诺下的多武器匪徒。工程与信息科学中的概率29（01）：51-76.10.1017/S0269964814000217S02699964814000217·Zbl 1414.91104号 ·doi:10.1017/S0269964814000217
[20]	20.达亚尼克。，鲍威尔W。B.和YamazakiK。(2013). 渐近最优贝叶斯序列变化检测和识别规则。运营研究年鉴208（1）：337-370.10.1007/s10479-012-1121-6·Zbl 1365.62322号 ·doi:10.1007/s10479-012-1121-6
[21]	21.丁伟。，秦皇岛。，张X-D.和LiuT-Y.（2013）。预算有限、成本可变的多武器强盗。AAAI-13会议，第232-238页。
[22]	22.范伯格E.A.，KasyanovP。O.和Zgurovsky M。Z.（2014）。具有一般状态集和操作集的总成本MDP和POMDP的值迭代收敛。自适应动态规划和强化学习（ADPRL）。2014年IEEE IEEE研讨会，第1-8页。
[23]	23.费勒W。(1967). 概率论及其应用导论，第1卷；第三版，纽约威利·Zbl 0158.34902号
[24]	24.文件。，CappéO.和加里维尔A。(2010). 基于Kullback-Leibler发散的强化学习中的乐观主义。第48届Allerton通信、控制和计算年会，第115-122页。
[25]	25.基廷斯J。C.、GlazebrookK.和韦伯R.（2011）。英国西苏塞克斯郡的多武器班迪特分配指数：John Wiley&Sons·Zbl 1401.90257号
[26]	26.古哈斯和穆纳格拉克。(2007). 预算学习问题的近似算法。《第三十九届ACM计算机理论研讨会论文集》，ACM，第104-113页·Zbl 1232.68180号
[27]	27.本田和竹村A。(2011). 多武装匪徒问题中有限支持模型的渐近最优策略。机器学习85（3）：361-3910.1007/s10994-011-5257-4·Zbl 1237.91037号 ·doi:10.1007/s10994-011-5257-4
[28]	28.约翰逊。，Simchi-Levi.和王赫。(2015). 使用汤普森抽样进行在线网络收入管理。SSRN提供。
[29]	29.朱尼。，ErnstD公司。，MoyC.和PalicotJ。(2009). 针对认知无线电决策问题的基于多武器强盗的政策。第三届信号、电路和系统国际会议（SCS），第1-6页。
[30]	30.KatehakisM公司。N.和DermanC。(1986). 计算最佳顺序分配规则。临床试验。第8卷；课堂讲稿系列：采用的统计程序和相关主题，数理统计研究所，第29-39页·Zbl 0691.62075号
[31]	31.KatehakisM。N.和RobbinsH。(1995). 从几个群体中进行顺序选择。美国国家科学院院刊92（19）：8584.10.1073/pnas.92.19.8584·doi:10.1073/pnas.92.19.8584
[32]	32.KatehakisM。N.和VeinottA。F.Jr.（1987）。多武器强盗问题：分解和计算。运筹学数学12:262-268.10.1287/moor.12.2.262·Zbl 0618.90097号 ·doi:10.1287/门12.2.262
[33]	33.考夫曼。(2015). Bayésiennes战略分析和资源分配。巴黎科技博士。
[34]	34.Kleinberg R.D.（2004）。连环武装匪徒问题几乎没有突破。神经信息处理系统进展会议。第697-704页。
[35]	35.拉古达基斯。G.&Parr.（2003）。最小二乘策略迭代。机器学习研究杂志4:1107-1149·Zbl 1094.68080号
[36]	36.莱特。L.&RobbinsH。（1985年）渐进有效的自适应分配规则。应用数学进展6（1）：4-2.10.1016/0196-8858（85）90002-8·Zbl 0568.62074号
[37]	37.拉蒂莫雷。，CrammerK和SzepesváriC。(2014). 具有半Bandit反馈的最优资源分配。arXiv:1406.3840。
[38]	38.许可。，MunosR.和塞佩斯瓦里奇。(2014). 关于最小极大最优离线策略评估。arXiv:1409.3653。
[39]	39.公升。L.（2012）。诱导部分可观察的马尔可夫决策过程。ICGI会议，第145-148页。
[40]	40.马哈雅那特内克奇斯D。(2008). 多武器匪徒问题。A.O.Hero、D.Castanon、D.Cocharn和K.Kastella（编辑），传感器管理的基础和应用，Springer，第121-151.10.1007/978-0-387-49819-5页
[41]	41.OsbandI.和范罗伊布。(2014). 因子化MDP中的近最优强化学习。神经信息处理系统进展会议。第604-612页。
[42]	42.SenS.、RidgwayA和里普利。(2015). 供应链中用于信任开发的自适应预算盗贼算法。《2015年自治代理和多代理系统国际会议论文集》，国际自治代理和多重代理系统基金会。第137-144页。
[43]	43.新加坡克劳萨。(2013). 使用后悔最小化机制的众包任务中的真实激励。第22届万维网国际会议论文集。国际万维网会议指导委员会，第1167-1178页。
[44]	44.TekinC.和刘明。（2012年）。机会频谱接入中的近似最优自适应学习。INFOCOM，2012年IEEE会议记录。IEEE，第1548-1556页。
[45]	45.交易和易货。L.（2008）。乐观线性规划对不可约MDP给出了对数遗憾。神经信息处理系统进展会议。第1505-1512页。
[46]	46.托马杜斯。，VazirgianisM.和LiakopoulosK。（2012年）。实现在线广告活动自动化开发和优化的综合框架。arXiv:1208.1187。
[47]	47.交易。，查普曼群岛。，卢纳。D.C.F.、Enrique J.、。，罗杰斯公司詹宁斯北部。R.（2010）。Epsilon——第一个预算政策——限制多武器匪徒。AAAI-2010会议，第1211-1216页。
[48]	48.交易。，查普曼群岛。，卢纳。D.C.F.、Enrique J.、。，罗杰斯公司詹宁斯北部。R.（2012）。基于背包的预算受限多武装匪徒优化策略。AAAI-2012年会议，第1134-1140页。
[49]	49.交易。，斯塔夫罗甘尼斯。C.、NaroditskiyV.、。，罗布夫。，詹宁斯北部。R.和KeyP。(2014). 预算有限的赞助商搜索拍卖中在线竞标优化的有效遗憾界限”。英国南安普顿大学，技术报告。
[50]	50.旺兹。，登山，&是的。(2014). 缩小差距：针对单一产品收入管理问题的学习-实践算法。运筹学62（2）：318-3310.1287/opre.2013.1245·兹比尔1302.91100 ·doi:10.1287/opre.2013.1245

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
ab公司	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文档类型(j个：期刊文章；b条：书本；一：图书文章）

一&b条	逻辑和
一\|b条	逻辑或
!ab公司	逻辑不
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

领域

操作员

成本约束下的渐近最优多武装盗贼策略。（英语） Zbl 1373.62040号

MSC公司：

关键词：

参考文献：

示例

领域

操作员

成本约束下的渐近最优多武装盗贼策略。 （英语） Zbl 1373.62040号

MSC公司：

关键词：

参考文献：

成本约束下的渐近最优多武装盗贼策略。（英语） Zbl 1373.62040号