×

非自愿的多武器强盗问题。 (英文) Zbl 1029.68087号

摘要:在多武器盗贼问题中,赌徒必须决定在一系列试玩中使用不相同的老虎机的哪一支,以获得最大的回报。这一经典问题受到了广泛关注,因为它提供了一个简单的模型,在探索(尝试每只手臂以找到最佳的)和开发(玩被认为能带来最佳回报的手臂)之间进行权衡。过去解决强盗问题的方法几乎总是依赖于对老虎机统计数据的假设。
我们对老虎机产生收益的过程的性质没有任何统计假设。我们给出了一个土匪问题的解决方案,在这个问题中,对手(而不是表现良好的随机过程)可以完全控制收益。在(T)plays序列中,我们证明了我们的算法在速率为(O(T^{-1/2})时的全收益接近最佳arm的全收益。我们通过一个匹配的下限表明这是最好的可能。
我们还证明了我们的算法以相似的速率逼近任何一组策略的全收益:如果从(N)策略池中选择了最佳策略,那么我们的算法将以(O((log N^{1/2}T^{-1/2}))的速率逼近该策略的全回报。最后,我们将我们的结果应用于未知重复矩阵对策的博弈问题。我们证明了我们的算法在速率\(O(T^{-1/2})\下逼近未知博弈的最小最大回报。

MSC公司:

68问题32 计算学习理论
68T05型 人工智能中的学习和自适应系统
91A20型 多阶段重复游戏
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Howe J.众包的兴起。连线,2006,14.06
[2] 豪·J·众包:为什么众包的力量推动着商业的未来。纽约:Crown Publishing Group,2008
[3] Sheng V S、Provost F J、Ipeirotis P G。还有标签吗?使用多个噪声标签提高数据质量和数据挖掘。摘自:2008年拉斯维加斯第14届ACM SIGKDD知识发现和数据挖掘国际会议论文集。614-622
[4] Snow R、O’Connor B、Jurafsky D等。便宜又快,但它好吗?评估自然语言任务的非专业注释。摘自:《自然语言处理实证方法会议记录》,火奴鲁鲁,2008年。254-263
[5] Sorokin A,Forsyth D.与Amazon Mechanical Turk合著的公用事业数据注释。摘自:2008年IEEE计算机学会计算机视觉会议记录和互联网视觉模式识别研讨会,安克雷奇,2008年。1-8
[6] Dempster A,Laird N,Rubin D.通过em算法从不完整数据中获得最大似然。J Roy Stat Soc Ser B,1977年,39:1-38·Zbl 0364.62022号
[7] Raykar V C,Yu S,Zhao L H,et al.监督从多个专家那里学习:当每个人都有点撒谎时要信任谁。收录于:第26届国际机器学习会议论文集,魁北克,2009
[8] Raykar V C,Yu S,Zhao L H,等。向人群学习。J Mach Learn Res,2010,11:1297-1322
[9] Whitehill J、Ruvolo P、Wu T等。谁的选票更重要:来自未知专业标签制造商的标签的最佳整合。收录:Bengio Y、Schuurmans D、Lafferty J D等,《神经信息处理系统进展》22。剑桥:麻省理工学院出版社,2009年。2035-2043
[10] Welinder P、Branson S、Belongie S等。人群的多维智慧。收录:Lafferty J D、Williams C K I、Shawe-Taylor J等,《神经信息处理系统进展》第23期。剑桥:麻省理工学院出版社,2010年。2424-2432
[11] Raykar V C,Yu S.为众包标记任务消除垃圾邮件发送者和排名注释者。J Mach Learn Res,2012年,13:491-518·Zbl 1283.68300号
[12] 刘强,彭杰,伊勒A T。众包的变分推理。收录:Bartlett P L、Pereira F C N、Burges C J C等,《神经信息处理系统进展》25。剑桥:麻省理工学院出版社,2012年。701-709
[13] Zhou D,Platt J C,Basu S,et al.通过极小极大熵从人群的智慧中学习。收录:Bartlett P L、Pereira F C N、Burges C J C等,《神经信息处理系统进展》25。剑桥:麻省理工学院出版社,2012年。2204-2212
[14] 严毅、罗莎莱斯·R、冯·G等。积极向人群学习。摘自:《第28届国际机器学习大会论文集》,贝尔维尤,2011年。1161-1168
[15] Wauthier F L,Jordan M I.众包的贝叶斯偏差缓解。摘自:Shawe-Taylor J、Zemel R S、Bartlett P L等编辑的《神经信息处理系统进展》24。剑桥:麻省理工学院出版社,2011年。1800-1808
[16] Karger D R、Oh S、Shah D。可靠众包系统的迭代学习。摘自:Shawe-Taylor J、Zemel R S、Bartlett P L等编辑的《神经信息处理系统进展》24。剑桥:麻省理工学院出版社,2011年。1953-1961
[17] Auer P、Cesa Bianchi N、Freund Y等,《非随机多武器匪徒问题》。SIAM计算机杂志,2003,32:48-77·Zbl 1029.68087号
[18] Ho C-J、Vaughan JW。众包市场中的在线任务分配。附:2012年多伦多第26届AAAI人工智能会议记录
[19] Buchbinder N,Naor J.覆盖和包装问题的在线原对偶算法。摘自:《第十三届欧洲年会会议记录》,帕尔玛·德·马洛卡,2005年。689-701 ·Zbl 1151.68748号
[20] Ho C-J,Jabbari S,Vaughan J W。众包分类的自适应任务分配。摘自:2013年亚特兰大第30届机器学习国际会议论文集。534-542
[21] Chen X,Lin Q,Zhou D。众包中最优预算分配的乐观知识梯度政策。摘自:2013年亚特兰大第30届机器学习国际会议论文集。64-72
[22] Dekel O,Shamir O.Vox populi:从人群中收集高质量标签。摘自:2009年魁北克第22届学习理论会议记录
[23] Tran-Thanh L、Stein S、Rogers A等。使用多武器强盗高效众包未知专家。摘自:《第20届欧洲人工智能会议论文集》,蒙彼利埃,2012年。768-773 ·Zbl 1327.90096号
[24] Abraham I、Alonso O、Kandylas V等,土匪调查问题的自适应众包算法。摘自:《第26届学习理论年会论文集》,普林斯顿,2013年。882-910
[25] Tsybakov A.统计学习中分类器的最佳聚合。Ann统计·Zbl 1105.62353号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。