文件Zbl 07618100-zbMATH打开

穆罕默德·贾瓦德·阿齐兹;谢尔登·罗斯（Sheldon M.Ross）。;张振谷

自信地选择最好的手臂。（英语） Zbl 07618100号

J.统计理论实践。 16，第4号，第71号论文，24页（2022年）。

小结：我们考虑的问题是，通过自适应抽样，找出（n）个种群（手臂）中哪一个的平均值最大。我们的目标是确定一条规则，该规则使用尽可能少的观察值确定具有固定最小置信度的最佳手臂。当种群分布为伯努利分布或正态分布时，我们研究此类问题。我们采用贝叶斯方法，假设未知平均值是具有共同指定分布的独立随机变量的值。我们建议在时间规则中使用经典向量，每轮对剩余的每只手臂采样一次，消除累积和低于另一只手臂的手臂。我们展示了如何在贝叶斯环境中实现和分析这一规则，以及如何通过早期消除来改进它。我们还提出并分析了经典的play-the-winner算法的一种变体。数值结果表明，即使考虑到一组平均值看起来不像来自指定的先验值的情况，这些规则也表现得很好。

MSC公司：

62-XX年	统计
62磅	顺序统计方法
68泰克	人工智能

关键词：

最佳手臂识别;一次矢量;贝叶斯格式

PDF格式 BibTeX公司 XML格式引用

全文： DOI程序

参考文献：

[1]	Audibert JY、Bubeck S、Munos R（2010）《多武装匪徒最佳手臂识别》，COLT 2010。参加：第23届学习理论会议，以色列海法
[2]	巴洛·R。；Proschan，F.，《概率和寿命测试的统计理论：概率模型》（1975），霍尔特·莱因哈特·温斯顿·Zbl 0379.62080号
[3]	Bechhofer，RE；基弗，J。；Sobel，M.，《顺序识别和排序程序》（1968年），芝加哥：芝加哥大学出版社，芝加哥·Zbl 0208.44601号
[4]	Bechhofer，RE；Kulkarni，房车；古普塔，不锈钢；JO Berger，《选择最佳（k>2）Bernoulli种群的封闭自适应序贯程序，统计决策理论及相关主题III》，61-108（1982），纽约：学术出版社，纽约·Zbl 0585.62136号
[5]	Even-Dar，E。；曼诺，S。；Mansour，Y.，《多武器强盗和强化学习问题的行动消除和停止条件》，J Mach Learn Res，7，1079-1105（2006）·Zbl 1222.68195号
[6]	Gabillon V，Ghavamzadeh M，Lazaric A（2012）最佳手臂识别：固定预算和固定信心的统一方法。摘自：Pereira F、Burges CJC、Bottou L、Weinberger KQ（eds）《神经信息处理系统进展》，第25卷，第3212-3220页
[7]	加里维尔，A。；Kaufmann，E.，固定置信度下的最佳手臂识别，JMLR研讨会Conf Proc，49，1-30（2016）·Zbl 1360.62433号
[8]	Hartman，M.，《对保尔森顺序排名程序的改进》，《Seq Anal》，第10期，第363-372页（1991年）·Zbl 0681.62063号
[9]	Hoel，总干事；Mazumdar，M.，《鲍尔森选择程序的扩展》，《数学统计年鉴》，第39期，2067-2074页，1968年（1968年）·Zbl 0187.15903号
[10]	Jamieson K、Malloy M、Nowak R、Bubeck S（2014）《LiL UCB：多武装匪徒的最优搜索算法》。阿西夫
[11]	Paulson，E.，从k个正态总体中选择平均值最大的总体的序贯程序，《数学统计年鉴》，35，174-180（1964）·Zbl 0136.39404号 ·doi:10.1214/aoms/1177703739
[12]	Ross，SM，随机过程（1996），Wiley·Zbl 0888.60002号
[13]	Russo D（2016）最佳手臂识别的简单贝叶斯算法。CoRR arXiv公司：1602.08448
[14]	Russo，D。；Van Roy，B。；Kazerouni，A。；奥斯本·I。；Wen，Z.，《汤普森采样教程（2020）》，斯坦福大学出版社·Zbl 1409.62024号
[15]	索贝尔，M。；Weiss，G.，《在两个二项式总体中选择更好的一个时的游戏规则和逆抽样》，美国统计协会杂志，66，335，545-551（1971）·网址：10.1080/01621459.1971.10482298
[16]	Sobel M，Weiss G（1972）关于在二项式选择问题中使用获胜抽样规则的最新结果。摘自：第六届伯克利数理统计与概率研讨会论文集，第1卷。加州大学出版社，第717-736页·兹比尔0271.62032
[17]	汤普森，W.，《鉴于两个样本的证据，一种未知概率超过另一种概率的可能性》，《生物统计学》，25，3-4，285-294（1933）·doi:10.2307/2332286

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
拉	语言
所以	来源
ab公司	回顾，摘要
第页	出版年份
右心室	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文档类型(j个：期刊文章；b：book；一：图书文章）

一&b	逻辑和
一\|b	逻辑或
!ab公司	逻辑不
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

字段

操作员

自信地选择最好的手臂。（英语） Zbl 07618100号

MSC公司：

关键词：

参考文献：

示例

字段

操作员

自信地选择最好的手臂。 （英语） Zbl 07618100号

MSC公司：

关键词：

参考文献：

自信地选择最好的手臂。（英语） Zbl 07618100号