×

具有非平稳回报的多武装土匪问题中的最优勘探开发。 (英语) Zbl 1447.93371号

摘要:在多武器盗贼问题中,赌徒需要在每一轮中选择一种武器,每种武器的特点是奖励分配未知。目标是在长度为(T)的规划期内最大化累积预期收益,绩效的衡量依据是后悔相对于(静态)oracle知道最佳手臂的先验恒等式。当奖励分布不随时间变化,且不确定性本质上等于确定最佳手臂时,此问题已被广泛研究。我们通过为奖励中的时间不确定性开发一个灵活的非参数模型来补充这一文献。时间不确定性的程度是通过长期回报的累积平均变化来衡量的,我们称之为时间变化,遗憾是相对于扮演指向(point-wise)每个时期的最佳行动。假设自然界可以选择任何平均回报序列,使其时间变化不超过(V)(时间不确定性预算),我们通过极小极大后悔法,这取决于(V)(问题的硬度)、水平长度(T)和臂数(K)。

MSC公司:

93E20型 最优随机控制
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Audibert J,Bubeck S(2009),针对敌对和随机盗贼的Minimax政策。程序。第22届年度大会学习。理论(COLT),蒙特利尔。谷歌学者
[2] Auer P、Cesa Bianchi N、Fischer P(2002a)《多武装匪徒问题的有限时间分析》。机器学习.47(2-3):235-246.谷歌学者·Zbl 1012.68093号
[3] Auer P、Cesa Bianchi N、Freund Y、Schapire RE(2002b)《非草率的多武器匪徒问题》。SIAM J.计算。32(1):48-77.谷歌学者·Zbl 1029.68087号
[4] Azar MG、Lazaric A、Brunskill E(2014)。相关强盗反馈下的在线随机优化。程序。第31届国际。Conf.机器学习。,北京。谷歌学者
[5] Bergemann D、Valimaki J(1996)《学习与战略定价》。计量经济学:J.Econometric Soc.64(5):1125-1149.谷歌学者·Zbl 0856.90037号
[6] Bergemann D,Hege U(2005)《创新融资:学习与停止》。兰德·J·经济学。36(4):719-752.谷歌学者
[7] Berry DA,Fristedt B(1985)Bandit问题:实验的顺序分配(查普曼和霍尔,伦敦)。谷歌学者·Zbl 0659.62086号
[8] Bertsimas D、Nino-Mora J(2000)《不安分的强盗》、《线性规划松弛》和《原始-对偶指数启发式》。操作。物件。48(1):80-90.Link,谷歌学者·Zbl 1106.90383号
[9] Besbes O,Gur Y,Zeevi A(2014),具有非平稳报酬的随机多兵种土匪问题。Ghahramani Z、Welling M、Cortes C、Lawrence ND、Weinberger KQ编辑。程序。第27届国际。Conf.神经信息。处理系统,第1卷(麻省理工学院出版社,马萨诸塞州剑桥),199-207年。谷歌学者
[10] Besbes O,Gur Y,Zeevi A(2015)非静态随机优化。操作。物件。63(5):1227-1244.Link,谷歌学者·Zbl 1338.90280号
[11] Blackwell D(1956)向量支付的极大极小定理的模拟。太平洋数学杂志。6(1):1-8.谷歌学者·Zbl 0074.34403号
[12] Bubeck S,Cesa-Bianchi N(2012)随机和非随机多武器强盗问题的后悔分析。基础趋势机器学习。5(1):1-122.谷歌学者·Zbl 1281.91051号
[13] Cao Y,Zheng W,Kveton B,Xie Y(2019)分段静态盗贼的近似最优自适应过程:一种变点检测方法。第22届国际。Conf.人工智能统计师。,日本冲绳.谷歌学者
[14] Caro F,Gallien J(2007),季节性消费品需求学习动态分类。管理科学。53(2):276-292谷歌学者·Zbl 1232.91420号
[15] 塞萨·比安奇N,卢戈西G(2006)预测、学习和游戏(英国剑桥大学出版社)。谷歌学者·Zbl 1114.91001号
[16] Cheung WC,Simchi Levi D,Zhu R(2019)。学会在非国家状态下进行优化。第22届国际。Conf.人工智能统计师。,日本冲绳.谷歌学者
[17] Foster DP,Vohra RV(1999)在线决策问题中的遗憾。游戏经济。行为。29(1-2):7-35.谷歌学者·Zbl 0984.91025号
[18] Freund Y,Schapire RE(1997)在线学习的决策理论推广及其在助推中的应用。J.计算。系统科学。55(1):119-139谷歌学者·Zbl 0880.68103号
[19] Garivier A,Moulines E(2011)关于转换盗贼问题的高自信约束政策。Kivinen J、Szepesvari C、Ukkonen E、Zeugmann T编辑。算法学习理论,《计算机科学讲稿》,第6925卷(施普林格,柏林,海德堡),174-188。谷歌学者·Zbl 1349.60070号
[20] Gittins JC(1979)班迪特过程和动态分配指数(含讨论)。J.罗伊。统计师。Soc.B公司.41(2):148-177谷歌学者·Zbl 0411.62055号
[21] Gittins JC(1989)《多武器匪徒配置指数》(John Wiley&Sons,纽约)。谷歌学者·Zbl 0699.90068号
[22] Gittins JC,Jones DM(1974)实验顺序设计的动态分配指数。Gani J、Sarkadi K、Vincze I编辑。统计进展(荷兰北部,阿姆斯特丹),241-266。谷歌学者·Zbl 0303.62064号
[23] Guha S,Munagala K(2007)基于部分信息的马尔可夫报酬随机控制的近似算法。第48届IEEE年度交响曲。基础计算。科学。(IEEE,新泽西州皮斯卡塔韦),483-493谷歌学者
[24] 汉南J(1957)重复博弈中贝叶斯风险的近似,对博弈论的贡献,第3卷。(普林斯顿大学出版社,新泽西州普林斯顿)。谷歌学者·Zbl 0078.32804号
[25] Hazan E,Kale S(2011)《良性土匪的更好算法》。J.机器学习。物件。12:1287-1311.谷歌学者·Zbl 1280.91039号
[26] Jadbabaie A、Rakhlin A、Shahrampour S、Sridharan K(2015)《在线优化:与动态比较器竞争》。黎巴嫩G,Vishwanathan SVN,第18版,国际出版社。Conf.人工智能统计。,圣地亚哥。谷歌学者
[27] Karnin Z,Anava O(2016)《多武器匪徒:与最佳序列竞争》。程序。高级神经信息。处理系统,199-207.谷歌学者
[28] Kleinberg R,Leighton T(2003)《了解需求曲线的价值:网上标价拍卖的遗憾界限》。程序。第44届IEEE年度交响曲。基础计算。科学(IEEE,新泽西州皮斯卡塔韦),594-605.谷歌学者
[29] Lai TL,Robbins H(1985)渐近有效自适应分配规则。高级应用程序。数学.6(1):4-22.谷歌学者·Zbl 0568.62074号
[30] Levine N、Crammer K、Mannor S(2017)《腐烂的强盗》。程序。高级神经信息。处理系统,3074-3083.谷歌学者
[31] Luo H,Wei C,Agarwal A,Langford J(2018)。非平稳世界中的高效上下文强盗。第31届Conf学习理论。谷歌学者
[32] Ortner R、Ryabko D、Auer P、Munos R(2014)《为不安分的马尔可夫强盗感到后悔》。理论比较。科学。558(11月):62-76.谷歌学者·Zbl 1360.60090号
[33] Pandey S、Agarwal D、Chakrabarti D、Josifovski V(2007)《分类法的强盗:基于模型的方法》。程序。2007年SIAM国际。Conf.数据挖掘,明尼阿波利斯。谷歌学者
[34] Papadimitriou CH,Tsitsiklis JN(1994年)。最优排队网络控制的复杂性。结构复杂性理论会议,318-322.谷歌学者
[35] Robbins H(1952)实验顺序设计的一些方面。牛市。阿默尔。数学。社会(N.S.).58(5):527-535.谷歌学者·兹比尔0049.37009
[36] Slivkins A(2014)具有相似信息的背景盗贼。J.机器学习。物件。15(1):2533-2568谷歌学者·Zbl 1319.62013号
[37] Slivkins A,Upfal E(2008)。适应不断变化的环境:布朗式不安的强盗。程序。第21届年度Conf.Learn。理论,343-354.谷歌学者
[38] Thompson WR(1933)考虑到两个样本的证据,一种未知概率超过另一种概率的可能性。生物特征.25(3):285-294谷歌学者
[39] Wei C,Hong Y,Lu C(2016)跟踪非平稳随机环境中的最佳专家。程序。高级神经信息。处理系统,3972-3980.谷歌学者
[40] Whittle P(1981)《武装强盗》。安·普罗巴伯。9(2):284-292.谷歌学者·Zbl 0464.90081号
[41] Whittle P(1988)《不安分的强盗:变化世界中的活动分配》。J.应用。普罗巴伯。25A:287-298谷歌学者·Zbl 0664.90043号
[42] Zelen M(1969年)玩赢家规则和对照临床试验。J.Amer。统计师。协会。64(325):131-146.谷歌学者
[43] 张磊,杨涛,周Z(2018)。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。