×

跟随这位心烦意乱的领导人向多武器匪徒赌博。 (英语) Zbl 1142.68398号

Hutter,Marcus(编辑)等人,《算法学习理论》。第18届国际会议,ALT 2007,日本仙台,2007年10月1日至4日。诉讼程序。柏林:施普林格出版社(ISBN 978-3-540-75224-0/pbk)。计算机科学课堂讲稿4754。人工智能课堂讲稿,166-180(2007)。
总结:跟随扰动领导者(fpl)是解决在线决策问题的一种强大技术。A.T.卡莱圣万帕拉[《在线决策问题的高效算法》,J.Compute.Syst.Sci.71,No.3,291–307(2005;Zbl 1094.68112号)]最近重新发现了该算法。在线决策问题的传统模型是多武器盗贼。在这种情况下,赌徒必须在每一轮中选择一个杠杆来拉动,以尽量减少累积成本。非随机优化设置有四种版本,其中要求最高的是在强盗设置中与自适应对手进行游戏。自适应对手可能会根据赌徒过去选择的决策改变其将成本分配给决策的游戏策略。在土匪场景中,赌徒只知道自己所做选择的成本,而不知道所有可用替代品的成本。在这项工作中,我们证明了非常简单且易于实现的算法Adaptive Bandit fpl可以在对抗自适应对手时获得(O(sqrt{T\ln T}))的遗憾。事后来看,这种遗憾与最佳杠杆有关,并与之前的最佳遗憾边界\(O(\sqrt{T\ln T})\相匹配。
关于整个系列,请参见[Zbl 1141.68005号].

MSC公司:

68问题32 计算学习理论
60克40 停车时间;最优停车问题;赌博理论
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Kalai,A.T.,Vempala,S.:在线决策问题的有效算法。《计算机与系统科学杂志》71(3),26–40(2005)·Zbl 1274.91143号
[2] Hannan,J.:重复游戏中贝叶斯风险的近似值。摘自:Dresher,M.,Tucker,A.,Wolfe,P.(编辑)《游戏理论的贡献》,第3卷,第97-139页。普林斯顿大学出版社,普林斯顿(1957)·Zbl 0078.32804号
[3] Kujala,J.,Elomaa,T.:关于在强盗背景下追随心烦意乱的领导人。收录:Jain,S.、Simon,H.U.、Tomita,E.(编辑)ALT 2005。LNCS(LNAI),第3734卷,第371-385页。斯普林格,海德堡(2005)·Zbl 1168.68472号
[4] Dani,V.,Hayes,T.P.:如何击败适应性多武器强盗。技术报告,康奈尔大学(2006),网址:http://arxiv.org/cs.DS/620053
[5] Auer,P.,Cesa-Bianchi,N.,Freund,Y.,Schapire,R.E.:非草率的多武器强盗问题。SIAM计算机杂志32(1),48–77(2002)·Zbl 1029.68087号 ·网址:10.1137/S0097539701398375
[6] Auer,P.:使用在线学习的置信上限。摘自:第41届计算机科学基础年度研讨会论文集,第270-279页。IEEE计算机学会出版社,洛斯阿拉米托斯(2000)·doi:10.1109/SFCS.2000.892116
[7] 罗宾斯:实验顺序设计的一些方面。美国数学学会公报58,527–535(1952)·Zbl 0049.37009号 ·doi:10.1090/S0002-9904-1952-09620-8
[8] Freund,Y.,Schapire,R.E.:在线学习的决策理论概括及其在助推中的应用。《计算机与系统科学杂志》55(1),119–139(1997)·Zbl 0880.68103号 ·doi:10.1006/jcss.1997.1504
[9] 塞萨·比安奇,N.,卢戈西,G.:预测、学习和游戏。剑桥大学出版社,剑桥(2006)·兹比尔1114.91001 ·doi:10.1017/CBO9780511546921
[10] Littestone,N.,Warmuth,M.K.:加权多数算法。信息与计算108(2),212-261(1994)·Zbl 0804.68121号 ·doi:10.1006/inco.1994.1009
[11] Dani,V.,Hayes,T.P.:抢劫强盗:对自适应对手进行在线几何优化,减少遗憾。摘自:第17届ACM-SIAM离散算法年会论文集,第937-943页。ACM出版社,纽约(2006)·Zbl 1192.90164号
[12] Hutter,M.,Poland,J.:跟随不安的领导者进行自适应在线预测。《机器学习研究杂志》6,639–660(2005)·Zbl 1222.68223号
[13] Kakade,S.、Kalai,A.T.、Ligett,K.:近似算法上线。技术报告CMU-CS-07-102,卡内基梅隆大学,reports-archive.adm.CS.CMU.edu/anon/2007/CMU-CS-07-102.pdf(2007)·兹比尔1232.68186
[14] Zinkevich,M.:在线凸规划和广义无穷小梯度上升。摘自:Fawcett,T.,Mishra,N.(编辑)《第20届机器学习国际会议论文集》,Menlo Park,第928-936页。AAAI出版社(2003)
[15] Awerbuch,B.,Kleinberg,R.:近最优自适应路由:最短路径和几何推广。摘自:第36届ACM计算机理论年会论文集,第45-53页。ACM出版社,纽约(2004)·Zbl 1192.68020号
[16] McMahan,H.B.,Blum,A.:强盗背景下对抗适应性对手的几何优化。作者:Shawe-Taylor,J.,Singer,Y.(编辑)COLT 2004。LNCS(LNAI),第3120卷,第109-123页。斯普林格,海德堡(2004)·Zbl 1078.68128号
[17] György,A.,Linder,T.,Lugosi,G.:追踪众多专家中的佼佼者。收录:Auer,P.,Meir,R.(编辑)COLT 2005。LNCS(LNAI),第3559卷,第204-216页。施普林格,海德堡(2005)·Zbl 1137.68540号
[18] McDiarmid,C.:浓度。摘自:Habib,M.、McDiarmid,C.、Ramirez-Alfonsin,J.、Reed,B.(编辑)《算法离散数学的概率方法》,第195-248页。斯普林格,海德堡(1998)·Zbl 0927.60027号 ·doi:10.1007/978-3-662-12788-96
[19] Vermorel,J.,Mohri,M.:多武器强盗算法和经验评估。收录人:Gama,J.、Camacho,R.、Braddil,P.B.、Jorge,A.M.、Torgo,L.(编辑)ECML 2005。LNCS(LNAI),第3720卷,第437-448页。斯普林格,海德堡(2005)·doi:10.1007/11564096_42
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。