×

自信地选择最好的手臂。 (英语) Zbl 07618100号

小结:我们考虑的问题是,通过自适应抽样,找出(n)个种群(手臂)中哪一个的平均值最大。我们的目标是确定一条规则,该规则使用尽可能少的观察值确定具有固定最小置信度的最佳手臂。当种群分布为伯努利分布或正态分布时,我们研究此类问题。我们采用贝叶斯方法,假设未知平均值是具有共同指定分布的独立随机变量的值。我们建议在时间规则中使用经典向量,每轮对剩余的每只手臂采样一次,消除累积和低于另一只手臂的手臂。我们展示了如何在贝叶斯环境中实现和分析这一规则,以及如何通过早期消除来改进它。我们还提出并分析了经典的play-the-winner算法的一种变体。数值结果表明,即使考虑到一组平均值看起来不像来自指定的先验值的情况,这些规则也表现得很好。

MSC公司:

62-XX年 统计
62磅 顺序统计方法
68泰克 人工智能
PDF格式BibTeX公司 XML格式引用
全文: DOI程序

参考文献:

[1] Audibert JY、Bubeck S、Munos R(2010)《多武装匪徒最佳手臂识别》,COLT 2010。参加:第23届学习理论会议,以色列海法
[2] 巴洛·R。;Proschan,F.,《概率和寿命测试的统计理论:概率模型》(1975),霍尔特·莱因哈特·温斯顿·Zbl 0379.62080号
[3] Bechhofer,RE;基弗,J。;Sobel,M.,《顺序识别和排序程序》(1968年),芝加哥:芝加哥大学出版社,芝加哥·Zbl 0208.44601号
[4] Bechhofer,RE;Kulkarni,房车;古普塔,不锈钢;JO Berger,《选择最佳(k>2)Bernoulli种群的封闭自适应序贯程序,统计决策理论及相关主题III》,61-108(1982),纽约:学术出版社,纽约·Zbl 0585.62136号
[5] Even-Dar,E。;曼诺,S。;Mansour,Y.,《多武器强盗和强化学习问题的行动消除和停止条件》,J Mach Learn Res,7,1079-1105(2006)·Zbl 1222.68195号
[6] Gabillon V,Ghavamzadeh M,Lazaric A(2012)最佳手臂识别:固定预算和固定信心的统一方法。摘自:Pereira F、Burges CJC、Bottou L、Weinberger KQ(eds)《神经信息处理系统进展》,第25卷,第3212-3220页
[7] 加里维尔,A。;Kaufmann,E.,固定置信度下的最佳手臂识别,JMLR研讨会Conf Proc,49,1-30(2016)·Zbl 1360.62433号
[8] Hartman,M.,《对保尔森顺序排名程序的改进》,《Seq Anal》,第10期,第363-372页(1991年)·Zbl 0681.62063号
[9] Hoel,总干事;Mazumdar,M.,《鲍尔森选择程序的扩展》,《数学统计年鉴》,第39期,2067-2074页,1968年(1968年)·Zbl 0187.15903号
[10] Jamieson K、Malloy M、Nowak R、Bubeck S(2014)《LiL UCB:多武装匪徒的最优搜索算法》。阿西夫
[11] Paulson,E.,从k个正态总体中选择平均值最大的总体的序贯程序,《数学统计年鉴》,35,174-180(1964)·Zbl 0136.39404号 ·doi:10.1214/aoms/1177703739
[12] Ross,SM,随机过程(1996),Wiley·Zbl 0888.60002号
[13] Russo D(2016)最佳手臂识别的简单贝叶斯算法。CoRR arXiv公司:1602.08448
[14] Russo,D。;Van Roy,B。;Kazerouni,A。;奥斯本·I。;Wen,Z.,《汤普森采样教程(2020)》,斯坦福大学出版社·Zbl 1409.62024号
[15] 索贝尔,M。;Weiss,G.,《在两个二项式总体中选择更好的一个时的游戏规则和逆抽样》,美国统计协会杂志,66,335,545-551(1971)·网址:10.1080/01621459.1971.10482298
[16] Sobel M,Weiss G(1972)关于在二项式选择问题中使用获胜抽样规则的最新结果。摘自:第六届伯克利数理统计与概率研讨会论文集,第1卷。加州大学出版社,第717-736页·兹比尔0271.62032
[17] 汤普森,W.,《鉴于两个样本的证据,一种未知概率超过另一种概率的可能性》,《生物统计学》,25,3-4,285-294(1933)·doi:10.2307/2332286
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。