文件Zbl 1029.68087-zbMATH Open

彼得·奥尔;尼科尔·塞萨·比安奇;尤夫·弗伦德;罗伯特·夏皮雷（Robert E.Schapire）。

非自愿的多武器强盗问题。（英文） Zbl 1029.68087号

SIAM J.计算。 32，第1期，48-77（2002）.

摘要：在多武器盗贼问题中，赌徒必须决定在一系列试玩中使用不相同的老虎机的哪一支，以获得最大的回报。这一经典问题受到了广泛关注，因为它提供了一个简单的模型，在探索（尝试每只手臂以找到最佳的）和开发（玩被认为能带来最佳回报的手臂）之间进行权衡。过去解决强盗问题的方法几乎总是依赖于对老虎机统计数据的假设。
我们对老虎机产生收益的过程的性质没有任何统计假设。我们给出了一个土匪问题的解决方案，在这个问题中，对手（而不是表现良好的随机过程）可以完全控制收益。在（T）plays序列中，我们证明了我们的算法在速率为（O（T^{-1/2}）时的全收益接近最佳arm的全收益。我们通过一个匹配的下限表明这是最好的可能。
我们还证明了我们的算法以相似的速率逼近任何一组策略的全收益：如果从（N）策略池中选择了最佳策略，那么我们的算法将以（O（（log N^{1/2}T^{-1/2}））的速率逼近该策略的全回报。最后，我们将我们的结果应用于未知重复矩阵对策的博弈问题。我们证明了我们的算法在速率\（O（T^{-1/2}）\下逼近未知博弈的最小最大回报。

引用于1审查

引用于133文件

MSC公司：

68问题32	计算学习理论
68T05型	人工智能中的学习和自适应系统
91A20型	多阶段重复游戏

关键词：

对抗性强盗问题;未知矩阵对策

PDF格式 BibTeX公司 XML格式引用

全文：内政部

参考文献：

[1]	Howe J.众包的兴起。连线，2006，14.06
[2]	豪·J·众包：为什么众包的力量推动着商业的未来。纽约：Crown Publishing Group，2008
[3]	Sheng V S、Provost F J、Ipeirotis P G。还有标签吗？使用多个噪声标签提高数据质量和数据挖掘。摘自：2008年拉斯维加斯第14届ACM SIGKDD知识发现和数据挖掘国际会议论文集。614-622
[4]	Snow R、O’Connor B、Jurafsky D等。便宜又快，但它好吗？评估自然语言任务的非专业注释。摘自：《自然语言处理实证方法会议记录》，火奴鲁鲁，2008年。254-263
[5]	Sorokin A，Forsyth D.与Amazon Mechanical Turk合著的公用事业数据注释。摘自：2008年IEEE计算机学会计算机视觉会议记录和互联网视觉模式识别研讨会，安克雷奇，2008年。1-8
[6]	Dempster A，Laird N，Rubin D.通过em算法从不完整数据中获得最大似然。J Roy Stat Soc Ser B，1977年，39:1-38·Zbl 0364.62022号
[7]	Raykar V C，Yu S，Zhao L H，et al.监督从多个专家那里学习：当每个人都有点撒谎时要信任谁。收录于：第26届国际机器学习会议论文集，魁北克，2009
[8]	Raykar V C，Yu S，Zhao L H，等。向人群学习。J Mach Learn Res，2010，11:1297-1322
[9]	Whitehill J、Ruvolo P、Wu T等。谁的选票更重要：来自未知专业标签制造商的标签的最佳整合。收录：Bengio Y、Schuurmans D、Lafferty J D等，《神经信息处理系统进展》22。剑桥：麻省理工学院出版社，2009年。2035-2043
[10]	Welinder P、Branson S、Belongie S等。人群的多维智慧。收录：Lafferty J D、Williams C K I、Shawe-Taylor J等，《神经信息处理系统进展》第23期。剑桥：麻省理工学院出版社，2010年。2424-2432
[11]	Raykar V C，Yu S.为众包标记任务消除垃圾邮件发送者和排名注释者。J Mach Learn Res，2012年，13:491-518·Zbl 1283.68300号
[12]	刘强，彭杰，伊勒A T。众包的变分推理。收录：Bartlett P L、Pereira F C N、Burges C J C等，《神经信息处理系统进展》25。剑桥：麻省理工学院出版社，2012年。701-709
[13]	Zhou D，Platt J C，Basu S，et al.通过极小极大熵从人群的智慧中学习。收录：Bartlett P L、Pereira F C N、Burges C J C等，《神经信息处理系统进展》25。剑桥：麻省理工学院出版社，2012年。2204-2212
[14]	严毅、罗莎莱斯·R、冯·G等。积极向人群学习。摘自：《第28届国际机器学习大会论文集》，贝尔维尤，2011年。1161-1168
[15]	Wauthier F L，Jordan M I.众包的贝叶斯偏差缓解。摘自：Shawe-Taylor J、Zemel R S、Bartlett P L等编辑的《神经信息处理系统进展》24。剑桥：麻省理工学院出版社，2011年。1800-1808
[16]	Karger D R、Oh S、Shah D。可靠众包系统的迭代学习。摘自：Shawe-Taylor J、Zemel R S、Bartlett P L等编辑的《神经信息处理系统进展》24。剑桥：麻省理工学院出版社，2011年。1953-1961
[17]	Auer P、Cesa Bianchi N、Freund Y等，《非随机多武器匪徒问题》。SIAM计算机杂志，2003，32:48-77·Zbl 1029.68087号
[18]	Ho C-J、Vaughan JW。众包市场中的在线任务分配。附：2012年多伦多第26届AAAI人工智能会议记录
[19]	Buchbinder N，Naor J.覆盖和包装问题的在线原对偶算法。摘自：《第十三届欧洲年会会议记录》，帕尔玛·德·马洛卡，2005年。689-701 ·Zbl 1151.68748号
[20]	Ho C-J，Jabbari S，Vaughan J W。众包分类的自适应任务分配。摘自：2013年亚特兰大第30届机器学习国际会议论文集。534-542
[21]	Chen X，Lin Q，Zhou D。众包中最优预算分配的乐观知识梯度政策。摘自：2013年亚特兰大第30届机器学习国际会议论文集。64-72
[22]	Dekel O，Shamir O.Vox populi：从人群中收集高质量标签。摘自：2009年魁北克第22届学习理论会议记录
[23]	Tran-Thanh L、Stein S、Rogers A等。使用多武器强盗高效众包未知专家。摘自：《第20届欧洲人工智能会议论文集》，蒙彼利埃，2012年。768-773 ·Zbl 1327.90096号
[24]	Abraham I、Alonso O、Kandylas V等，土匪调查问题的自适应众包算法。摘自：《第26届学习理论年会论文集》，普林斯顿，2013年。882-910
[25]	Tsybakov A.统计学习中分类器的最佳聚合。Ann统计·Zbl 1105.62353号

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
ab公司	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文档类型(j个：期刊文章；b条：书本；一：书籍文章）

一&b条	逻辑和
一\|b条	逻辑或
!ab公司	逻辑不
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

领域

操作员

非自愿的多武器强盗问题。（英文） Zbl 1029.68087号

MSC公司：

关键词：

参考文献：

示例

领域

操作员

非自愿的多武器强盗问题。 （英文） Zbl 1029.68087号

MSC公司：

关键词：

参考文献：

非自愿的多武器强盗问题。（英文） Zbl 1029.68087号