×

未知手段和差异的普通强盗。 (英语) Zbl 1471.62441号

小结:考虑从由随机变量(X^i_k\)、(i=1,\dots,N,\)和(k=1,2,\dots\)指定的有限个(N\geqsleat 2)总体中连续采样的问题;其中,\(X^i_k\)表示对总体\(i)进行采样的\(k^{th}\)时间的结果。假设对于每个固定的(i),(X^i_k{k\geqsleat1})是一个i.i.d.正态随机变量序列,平均值未知(mu_i),方差未知(sigma_i^2)。目标是制定一项政策(pi),以决定在任何时候从哪一个(N)群体中进行采样(t=1,2,dots\),从而最大化(N)总样本或等效样本的预期结果总和,以最小化因缺乏参数(mu_i)和(sigma_i^2)信息而产生的遗憾。在本文中,我们提出了一种简单的膨胀样本均值(ISM)指数策略,该策略在以下定理4的意义下是渐近最优的。这解决了来自[A.N.伯内塔斯最后一位作者,Adv.Appl。数学。17,第2期,第122–142页(1996年;兹比尔0854.60032)]. 此外,还给出了有限时域遗憾界。

MSC公司:

62升12 序贯估计
60F05型 中心极限和其他弱定理
PDF格式BibTeX公司 XML格式引用
全文: 链接

参考文献:

[1] Yasin Abbasi、Peter L.Bartlett、Varun Kanade、Yevgeny Seldin和Csaba Szepesv´ari。具有对抗性选择转移概率分布的Markov决策过程中的在线学习。《神经信息处理系统进展》,第2508-2516页,2013年。
[2] Jean-Yves Audibert、R´emi Munos和Csaba Szepesv´ari。在多武装匪徒中使用方差估计进行勘探-开发权衡。理论计算机科学,410(19):1876–19022009·Zbl 1167.68059号
[3] 彼得·奥尔和罗纳德·奥尔特纳。Ucb重访:改进了随机多武器盗贼问题的后悔界限。Periodica Mathematica Hungarica,61(1-2):55-652010年·Zbl 1240.68164号
[4] 彼得·奥尔、尼科洛·塞萨·比安奇和保罗·菲舍尔。多武器土匪问题的有限时间分析。机器学习,47(2-3):235–2562002·Zbl 1012.68093号
[5] Peter L Bartlett和Ambuj Tewari。Regal:一种基于正则化的算法,用于弱通信mdp中的强化学习。《第二十五届人工智能不确定性会议论文集》,第35-42页。AUAI出版社,2009年。
[6] S´ebastien Bubeck和Aleksandrs Slivkins。两全其美:随机和敌对的强盗。arXiv预打印arXiv:1202.44732012。17
[7] Apostolos N.Burnetas和Michael N.Katehakis。在不完全信息下,在单个处理器上对两类任务进行排序。《工程与信息科学中的概率》,7(1):85-1191993。
[8] Apostolos N.Burnetas和Michael N.Katehakis。序列分配问题的大偏差性质。随机分析与应用,14(1):23-311996年a·Zbl 0848.60035号
[9] Apostolos N.Burnetas和Michael N.Katehakis。序列分配问题的最优自适应策略。应用数学进展,17(2):122-1421996b·Zbl 0854.60032号
[10] Apostolos N.Burnetas和Michael N.Katehakis。马尔可夫决策过程的最优自适应策略。运筹学数学,22(1):222-2551997a·Zbl 0871.90103号
[11] Apostolos N.Burnetas和Michael N.Katehakis。有限视界下的独臂强盗问题。随机分析与应用,16(1):845–8591997b。
[12] Apostolos N.Burnetas和Michael N.Katehakis。有限元单臂带束问题的渐近Bayes分析。《工程和信息科学中的概率》,17(01):53-822003·Zbl 1013.62081号
[13] Sergiy Butenko、Panos M Pardalos和Robert Murphey。合作控制:模型、应用和算法。Kluwer学术出版社,2003年·Zbl 1013.93002号
[14] 奥利维尔·卡普埃(Olivier Capp´e)、奥列琳·加里维尔(Aur´elien Garivier)、奥达里克·安布罗姆·梅拉德(Odarlic-Ambrym Maillard)、雷米·穆诺斯(R´emi Munos)和吉勒斯·斯托尔茨。最优顺序分配的Kullback-Leibler置信上限。《统计年鉴》,41(3):1516–15412013·Zbl 1293.62161号
[15] 韦斯利·考恩(Wesley Cowan)和迈克尔·卡塔哈基斯(Michael N.Katehakis)。支持未知的统一盗贼的渐近最优UCB策略。arXiv预印arXiv:1505.019182015a·Zbl 1414.91104号
[16] 韦斯利·考恩(Wesley Cowan)和迈克尔·卡塔哈基斯(Michael N.Katehakis)。最小勘探分配政策的渐近行为:几乎可以肯定,任意缓慢增长的回归。arXiv预印本arXiv:1505.028652015b。
[17] 韦斯利·考恩(Wesley Cowan)和迈克尔·卡塔哈基斯(Michael N.Katehakis)。通用贬值和承诺下的多武器匪徒。《工程和信息科学中的概率》,29(01):51-762015c·Zbl 1414.91104号
[18] Savas Dayanik、Warren B Powell和山崎和之。渐近最优贝叶斯序列变化检测和识别规则。《运筹学年鉴》,208(1):337–3702013·兹比尔1365.62322
[19] Eric V Denardo、Eugene A Feinberg和Uriel G Rothblum。多武器强盗,有约束。在M.N.Katehakis、S.M.Ross和J.Yang主编的《Cyrus Derman Memorial Volume I:不确定性下的优化:成本、风险和收入》中。《运筹学年鉴》,施普林格,纽约,2013年。18
[20] 尤金·范伯格(Eugene A Feinberg)、帕夫洛·卡西亚诺夫(Pavlo O Kasyanov)和迈克尔·兹古洛夫斯基(Michael Z Zgurovsky)。total-cost mdp和pomdps与一般状态集和操作集的值迭代的收敛性。《自适应动态规划和强化学习》(ADPRL),2014年IEEE研讨会,第1-8页。IEEE,2014年。
[21] Sarah Filippi、Olivier Capp´e和Aur´elien Garivier。基于Kullback-Leibler发散的强化学习中的乐观主义。2010年第48届Allerton通信、控制和计算年会。
[22] 约翰·基廷斯(John C.Gittins)。Bandit进程和动态分配指数(讨论)。J.罗伊。统计社会服务。B、 1979年第41:335–340页。
[23] John C.Gittins、Kevin Glazebrook和Richard R.Weber。多武器匪徒分配指数。John Wiley&Sons,英国西苏塞克斯郡,2011年·Zbl 1401.90257号
[24] 本田俊雅(Junya Honda)和竹村秋美(Akimichi Takemura)。有界支持模型的渐近最优土匪算法。在COLT中,第67-79页。Citeser,2010年·Zbl 1237.91037号
[25] 本田俊雅(Junya Honda)和竹村秋美(Akimichi Takemura)。多武装匪徒问题中有限支持模型的渐近最优策略。机器学习,85(3):361–3912011·Zbl 1237.91037号
[26] 本田俊雅(Junya Honda)和竹村秋美(Akimichi Takemura)。汤普森抽样对高斯强盗的最佳性取决于先验。arXiv预印arXiv:1311.18942013·Zbl 1351.60050号
[27] Wassim Jouini、Damien Ernst、Christophe Moy和Jacques Palicot。针对认知无线电决策问题的基于多武器强盗的政策。2009年第三届信号、电路和系统国际会议。
[28] Michael N.Katehakis和Herbert Robbins。从几个群体中依次选择。《美利坚合众国国家科学院院刊》,92(19):85841995年。
[29] 艾米莉·考夫曼(Emilie Kaufmann)。分析海湾地区的战略和资源分配顺序。巴黎科技博士。,2015年7月31日。
[30] Michail G Lagoudakis和Ronald Parr。最小二乘策略迭代。机器学习研究杂志,4:1107–11492003·Zbl 1094.68080号
[31] 李泽良和罗宾斯。渐进有效的自适应分配规则。应用数学进展,6(1):4-1985·Zbl 0568.62074号
[32] Lihong Li,Remi Munos,Csaba Szepesv´ari.关于最小极大最优离线政策评估。arXiv预印arXiv:1409.36532014。
[33] 迈克尔·L·利特曼。诱导部分可观察的马尔可夫决策过程。2012年,ICGI第145-148页。19
[34] 伊恩·奥斯班德和本杰明·范罗伊。因子化mdp中的近最优强化学习。《神经信息处理系统进展》,第604-612页,2014年。
[35] 赫伯特·罗宾斯。序贯设计实验的一些方面。牛市。阿米尔。数学。每月58:527–5361952·Zbl 0049.37009号
[36] 杰姆·泰金(Cem Tekin)和刘明艳(Mingyan Liu)。机会频谱接入中的近似最优自适应学习。在INFOCOM,2012年IEEE会议记录,第1548–1556页。IEEE,2012年·Zbl 1366.91041号
[37] Ambuj Tewari和Peter L Bartlett。乐观线性规划对不可约mdp给出了对数遗憾。《神经信息处理系统进展》,第1505–1512页,2008年。
[38] 理查德·韦伯(Richard R Weber)。关于多武装匪徒的Gittins指数。应用概率年鉴,2(4):1024–10331992·Zbl 0763.60021号
[39] 鸣谢:我们感谢三位评审员,尤其是一位评审员的评论
[40] David Pal的评论允许我们在
[41] 等式(27)。
[42] 我们感谢美国国家科学基金会(NSF)对这项工作的支持
[43] CMMI-14-50743)和日本科学促进会(JSPS资助
[44] 科学研究编号26106506)·Zbl 0949.83502号
[45] 附录A附加证明√p
[46] 命题3的证明:设P=Pδ+Uk2/P−1<Z。立即注意,P>√
[47] Pδ+U k1/P<Z。进一步地,√√P>Pδ+U k1/P<Z和U k1/P>δ。δ22uk1/p2πk2/p 20
[48] 其中fd(u)是χd2-随机变量的密度。设ξu=k2/pu,1Z∞Z∞e−z2/2 uбk2/pδ22√uб√2πfdk2/pdzduб1Z∞)Z∞e−z2/21 uмd/2−1 uбk 2/pδ22√uм√2π2d/2Γ(d/2)k2/pe2k2/pdzк/2)1u⁄d/2−1e−2k2/pu⁄dzdu⁄。
[49] 观察到k2/p>1,1 d/2Z∞Z∞e−z2/21 k2/pδ22√uá√2π2d/2Γ。224
[50] 从积分到概率的交换只是将被积函数解释为
[51] U和Z的联合pdf√
[52] 对于上界,我们使用经典的正态尾界,P(x<Z)6e−x2/2/(x2π)。√√2ee-δ2/2。(42)μp(δ+Uk2/p−1)2π6δ2π
[53] 观察正数x,e−x6 1/x的界,并回忆起d>2,e-δ2/2“e−12U(k2/p−1)#P6√e√δ2πδUpk2/p‐1 e−δ2/2hδ22πpk2/p−1EU−12e−12 U(k2/p‐1)i(43)e-δ2/2k(1−d)/pΓd−1!=√p√22.δ22πk2/p−12Γd2
[54] 这里我们使用了以下边界:ex-1>(e/2)x2,这很容易证明,以及
[55] Γ(d/2−1/2)/Γ(d/2)6p2π/d,这可以通过归纳法在整数d>2上得到证明。
[56] 这得出:e−(1+δ2)/2pk(1−d)/p P6√。(44)2δ2ln kd 21
[57] 这就完成了证明。
[58] 备注5。改进空间:上述ex-1>(e/2)x2bound的选择是
[59] 事实上,可以使用任意的其他边界,例如涉及x的可选幂。
[60] 这将影响如何使用P上的结果界,例如在证明
[61] 定理4。等式(43)中e−x6 1/x的使用也应同样考虑。
[62] 命题7在均值和方差未知的正态分布的情况下,MBK(µ,σ2)=∑2∆i2(45)i:µi6=µ*ln1+∆i2。σi
[63] 从等式(9)和等式(10)中可以证明,在正态分布的情况下
[64] 在未知平均值和方差的情况下,对于任何次优土匪i,(µ,σ2)i,σi2);f(?µ,?σ2):?µ>µ*
[65] 其中I(f;g)是密度f和g之间的Kullback-Leibler散度。取
[66] 这里的密度是正常的,我们有I(f(µI,σ2);f(2))=lni,σi2)(x)!f(бµ,бσ2)(x)(µi,σi2)。2σ2σi
[67] 限制为?µ>µ*和?σ2>0,取?µ=µ*,即为下确界(因为?µ*>µi)
[68] 和∑σ2=(µ*−µi)2+σi2,得出K((µi,σi1),µ*)=1ln 1+(µ*−¦i)2=1ln 1+∆2i。(48)2σ222 iσi
[69] 命题8对于χk2随机变量Uk和ε>0,P(Uk>k(1+ε))6(e-ε(1+λ))k/2。(49)22
[70] 证明r>0,Z是标准正态随机变量。我们得到了P(Uk>k(1+ε))=P(erUk>erk(1+ε)
[71] 从Ukas来看,最后一步是k个独立平方标准的和
[72] 法线。因此,EerZ2ik 1 k er(1+ε)=er(1+ε)√1−2r,(51)
[73] 如果0<r<1/2。取r=(1/2)(ε/(1+ε))即为结果。
[74] 命题9猜想1是错误的,对于每个i,对于ε>0,PX³ij+Si(j)pk2/j−1<µi−ε对于一些2 6j 6k→∞为k→∞.(52)1/k
[75] .
[76] 证明定义事件Aij,k,ε={Xij+Si(j)pk2/j−1<µi−ε}。取样时
[77] 为了用平均µ和方差σi2进行正态分布,我们得到了?Xij−µi~Zσi/√j
[78] 和Si2(j)~σi2U/j,其中Z是标准正态,U~χ2j−1,Z,U独立。因此,sP(Aj,k,ε)=PZ√+Uk2/j−1<-ε=Pεpj+√Upk2/j-1<Z。jjσi(53)
[79] 最后一步是简单地重新安排,并观察数据的对称性
[80] Z的分布。对于j>3,我们可以将命题3应用于d=j−1,p=j,以得到1k1/j 12 p(Aj,k,ε)>PZ2>U>εj。(54)2k4σi2
[81] 对于固定的j0>3,对于k>j0,我们有一些26 j 6 k>P(Aij0,k,ε)>O(1/k)k1/j0的PAij,k
[82] 这一主张立即应运而生。23
[83] 命题10对于G>0,06ε<1/2,如下成立:1110G ln1+G(1-ε)1+ε2 6ln(1+G)+(1+G)(ln(1+G))2ε。(56)
[84] 证明对于任何G>0,函数1/ln1+G(1-ε)1+ε2是正的、递增的和凸的
[85] ε∈[0,1)(命题11)。对于给定的G>0,注意上述不等式成立(as
[86] 等式),由于凸性,它足以表明不等式满足
[87] ε=1/2或15G1+。(57)ln 1+G6(1+G)(ln(1+G))2ln(1+G)
[88] 等价地,我们考虑不等式5G(ln(1+G))2 06+ln(1+G)−。(58)(1+G)ln 1+G 6
[89] 将函数F(G)定义为Ineq的RHS。(58). 注意,作为G→0,F(G)→0,以及
[90] 在简化形式中,我们有(对于G>0,极限为G→0),(1+G)ln(1+G)−(6+G)ln 1+G6 2(1+G)2(6+G)ln 1+G6 2>0。(59)
[91] 因此,F(G)>0,因此所需不等式在ε=1/2时成立。这就完成了
[92] 证据。
[93] 命题11函数HG(ε)=1/ln1+G(1-ε)1+ε2是正的、递增的和con
[94] 对于任意常数G>0,ε∈[0,1)中的凸。
[95] HG(ε)为正值且ε增加的证明
[96] HG和H0,给出关于G和ε的假设。G公司
[97] 为了证明凸性,通过检查HG00(ε)的项,就足以表明
[98] 所有相关的G和ε,以下不等式成立。2G(1-ε)2(3+ε)2+-8(1+ε。1 + ε (60)
[99] 定义C=G(1−ε)2/(1+ε),就足以证明对于所有C>0和ε∈[0,1)
[100] (从上面去掉一个系数(1+ε)),2C(3+ε)2+(−8+C(1+σ(6+ε)))ln(1+C)>0.(61)24
[101] 将JC(ε)定义为上述LHS,注意JC0(ε)=2C(3+ε)(2+ln(1+C))>0。
[102] 则足以显示JC(0)>0或18C+(C−8)ln(1+C)>0。注意,这在C=0时成立,
[103] 对于C>0,d/dC[JC(0)]=(10+19C)/(1+C)+ln(1+C)>0。因此,JC(ε)>0,以及
[104] H00 G(ε)>0。
[105] 定理2的证明为了比较πBK和πCHK,考虑一个一般策略
[106] π取决于a>b,最初对每个强盗进行了一次采样,然后大于
[107] aN,根据最大指数qui(n,k)=?Xki+Si(k)nk−b2−1的样品。
[108] 注意,πBK对应于选项a=2,b=0,πCHK对应于这些选项
[109] a=3,b=2。
[110] 设i*为最优强盗,设j为:µ*=µi*>µj=maxk:µk6=µ*。设?ε=2σj。
[111] 首先,对于n>aN,我们有以下界:n(∞)n−aN+1(aN+m−1)∑1{π(t+1)6=i*}>1{¨Xkj>µj−ε
[112] t=aNk=1m=1t=aN(62)
[113] 上述不等式可以从以下方面看出来:在试图约束子
[114] 时间t=aN之后π的最佳激活,我们可以将自己限制在
[115] 如果j 6=i*的样本平均值从未低于µj−мε(因此,j的指数
[116] 从不低于µj−мε),并且仅计算i∗超过的初始连续非激活
[117] 时间t=aN。这些初始连续非激活的数量,以这种方式限制,
[118] 由i*的指数连续低于µj−ε的次数从下开始约束,
[119] 按右手总和计算。25
[120] 注意到ui*(t,a)是t的递增函数,我们得到n−an+1(an+m−1)∑1\ui*1nX⁄ai∗<µj−бεo∑1m<!2+12+1−aNSi*(a)m=1a−b〃>1Xai*<µj−εominn−aN+1,(µj‐ε)−SXai*!2+12−aNi*(a)a−b“>1X”ai*<µj−~εominn,(µj−~ε)−SXai*!2+1(a)(63)
[121] 由上可知,n∑1{π(t+1)6=i*}t=aNa−b〃>1{¨Xkj>µj−ε}1nXai*<µj‐εominn,\63725;(µj‑ε)−SXai*!2+12−aN.k=1−i*(a)(64)
[122] 要计算相关期望值,请注意(循环使用公式(31)中的界),∞!∞P{?Xkj>µj−?ε}=1−P[{?Xkj<µj‐ε}>1∑P X?kj<?j−ε>12。k=1k=1k=1(65)26
[123] 因此,n#E∑1{π(t+1)6=i*}+aN t=aNa−b〃>E1Xai*<µj−εominᣥn,(µj‐ε)−Xai*!2+1硅*(a)  √a−b’=E↓1∆j+●ε+σi∗Z/√a<0分钟n,∆j+●ε+σ√i∗)√Z/a 2+1!2σi∗U/aΔa−b〃=E√1∆∆+Z<0 minΔn,∆+Z∆√2+1!(66)
[124] 忆及?Xai*~µ*+σi*Z/√a和Si*(a)~σi2*U/a,其中Z、U是独立的,Z√
[125] 标准正态分布和U aχa2−1随机变量,取∆∆=a(∆j+∆ε)/σi∗>0。
[126] 取d=a−1,n#E∑1{π(t+1)6=i∗}+aN t=aNa−b’(67)Z∞Z−∆∆+Zá2!2>O(1)minn,√+1e−z2/2ud2−1e−u/2dzdu。0-限制u√
[127] 取变换(z,u)=(−м√∆−cos(θ)r,rsin(θ)2),对于r∈[0,∞),θ∈[0,π/2],
[128] 我们有dzdu=2 sin(θ)rdrdθ和a−b〃Z∞Z−∆∆+Z⁄2!2最小值,√+1e−z2/2−u/2ud2−1dzdu 0–不稳定u=2min,csc(θ)a−boe−2r−∆∆cos(θ−12(∆∆+r)2rd−12drminnn,csc(θ)a−玻色子(θZ∞√>2e−12(∆∆+r)2rd−12drZπ/2−1sin(θ)b−2dθ.0arcsina−b 27
[129] 由上可知,对于b>2,上述积分收敛到常数n→∞,并且在
[130] 从这个意义上说,这个界限是没有信息的,给出了O(1)的下限。对于b<2,取
[131] θ>sin(θ)在指定范围内的界,以及x∈[0,1]的arcsin(x)6π/2x,我们得到了n#Zπ/2Z1E∑1{π(t+1)6=i*}+aN>O(1)θb−2dθ=O(1。(69)t=aNπ2n−1a−bn−1 a−b
[132] 注意到Rπ(n)>∆jE[∑nt=aN1{π(t+1)6=i*}],因此,如果b>1,我们可以总结为O(1),如果b=1,O Rπ。1−b
[133] 虽然在π=πCHK√(a=3,b=2)的情况下,上述界限是无信息的
[134] 得出π=πBK(a=2,b=0)在
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。