×

在有限动作集上通过有限切换进行在线学习。 (英语) Zbl 1511.68218号

摘要:本文研究了切换动作在专家预测问题(PFE)和对抗性多武装匪徒问题(MAB)中的价值。首先,我们回顾了经过充分研究且具有实际动机的PFE设置和转换成本。许多算法在期望; 然而,高概率担保是一个公开的问题。我们提出了第一批算法,这些算法以高概率实现了这两个量的最优阶数。这也意味着其他几个问题的第一个高概率保证,特别是,它可以有效地适应有限切换的在线组合优化。接下来,为了更细致地研究切换动作的价值,我们引入了转换预算设置,将算法限制为固定数量(无成本)的交换机。利用这个结果和几个简化,我们统一了以前的工作,并完全描述了这种切换预算设置为小对数因子的复杂性:对于PFE和MAB,对于所有切换预算,以及对于期望和高概率保证。有趣的是,随着切换预算的减少,最小最大后悔率允许PFE发生相变,但MAB没有。这些结果恢复并推广了(任意)切换成本设置的已知最小最大速率。

MSC公司:

68T05型 人工智能中的学习和自适应系统
68层37 人工智能背景下的不确定性推理
68周27 在线算法;流式算法
90C27型 组合优化
91A26型 博弈论中的理性与学习
91B06型 决策理论
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] [1] Abernethy JD,Hazan E,Rakhlin A(2009)《黑暗中的竞争:强盗线性优化的有效算法》。程序。第21届年度Conf.Learn。理论(COLT),芬兰赫尔辛基,263-273,谷歌学者
[2] [2] Adler RJ、Taylor JE(2009)随机域和几何体(Springer Science&Business Media,纽约)。谷歌学者
[3] [3] Arora R,Dekel O,Tewari A(2012)在线土匪学习对抗适应性对手:从后悔到政策后悔。程序。第29届国际。Conf.机器学习。(威斯康星州麦迪逊市Omnipress),1747-1754.谷歌学者
[4] [4] Audibert JY,Bubeck S(2010)部分监控下的后悔界限和极小极大政策。J.机器学习。物件。11(10月):2785-2836.谷歌学者·Zbl 1242.91034号
[5] [5] Audibert JY、Bubeck S、Lugosi G(2013)《在线组合优化的遗憾》。数学。操作。物件。39(1):31-45.链接,谷歌学者·Zbl 1341.68309号
[6] [6] Auer P、Cesa Bianchi N、Freund Y、Schapire RE(2002)《非草率的多武器匪徒问题》。SIAM J.计算。32(1):48-77.Crossref,谷歌学者·兹比尔1029.68087 ·网址:10.1137/S0097539701398375
[7] [7] Awerbuch B,Kleinberg R(2008)在线线性优化和自适应路由。J.计算。系统科学。74(1):97-114.交叉引用,谷歌学者·Zbl 1152.90544号 ·doi:10.1016/j.jcss.2007.04.016
[8] [8] Boucheron S、Lugosi G、Massart P(2013)集中不等式:一个非渐近独立理论(英国牛津大学出版社)。Crossref,谷歌学者·Zbl 1337.60003号 ·doi:10.1093/acprof:oso/9780199535255.001.0001
[9] [9] Bubeck S,Cesa-Bianchi N(2012)随机和非随机多武器强盗问题的后悔分析。基础趋势机器学习。5(1):1-122.Crossref,谷歌学者·Zbl 1281.91051号 ·doi:10.1561/220000024
[10] [10] 塞萨·比安奇N,卢戈西G(2006)预测、学习和游戏(英国剑桥大学出版社)。Crossref,谷歌学者·Zbl 1114.91001号 ·doi:10.1017/CBO9780511546921
[11] [11] Cesa Bianchi N,Lugosi G(2012)《组合匪徒》。J.计算。系统科学。78(5):1404-1422.Crossref,谷歌学者·Zbl 1262.91052号 ·doi:10.1016/j.jcss.2012.01.001
[12] [12] Cesa-Bianchi N,Lugosi G,Stoltz G(2005),通过标签有效预测最小化遗憾。IEEE传输。通知。理论51(6):2152-2162.Crossref,谷歌学者·兹比尔1295.68183 ·doi:10.1109/TIT.2005.847729
[13] [13] Cesa-Bianchi N、Freund Y、Haussler D、Helmbold DP、Schapire RE、Warmuth MK(1997)《如何使用专家建议》。美国临床医学杂志44(3):427-485.Crossref,谷歌学者·Zbl 0890.68066号 ·doi:10.1145/258128.258179
[14] [14] Dekel O,Ding J,Koren T,Peres Y(2014)《切换成本的强盗:T2/3遗憾》。程序。第46届ACM年度交响曲。理论计算。,459-467.谷歌学者·Zbl 1315.68207号
[15] [15] Devroye L,Lugosi G,Neu G(2013)《随机游程扰动预测》。Conf.学习。理论,460-473。谷歌学者
[16] [16] Devroye L,Lugosi G,Neu G(2015)在线组合优化的随机游动扰动。IEEE传输。通知。理论61(7):4099-4106.Crossref,谷歌学者·Zbl 1359.68324号 ·doi:10.1109/TIT.2015.2428253
[17] [17] 甚至Dar E,Kakade SM,Mansour Y(2009)在线马尔可夫决策过程。数学。操作。物件。34(3):726-736.链接,谷歌学者·Zbl 1218.90207号
[18] [18] Feamster N、Rexford J、Zegura E(2013)《SDN之路:可编程网络的思想史》。ACM队列11(12):1-21.Crossref,谷歌学者·doi:10.1145/2559899.2560327
[19] [19] Freund Y,Schapire RE(1997)在线学习的决策理论推广及其在助推中的应用。J.计算。系统科学。55(1):119-139。Crossref,谷歌学者·兹伯利0880.68103 ·doi:10.1006/jcss.1997.1504
[20] [20] Geulen S,Vöcking B,Winkler M(2010)使用加权多数算法实现在线缓冲问题的后悔最小化。第23届Conf.学习。理论(Omnipress,威斯康星州麦迪逊),132-143.谷歌学者
[21] [21]Gyorgy A,Neu G(2014)有限延迟通用有损信源编码的近最优速率。IEEE传输。通知。理论60(5):2823-2334.Crossref,谷歌学者·Zbl 1360.94199号 ·doi:10.1109/TIT.2014.2307062
[22] [22]Helmbold DP,Schapire RE(1997)预测决策树的几乎和最佳修剪。机器学习。27(1):51-68.Crossref,谷歌学者·doi:10.1023/A:1007396710653
[23] [23]Helmbold DP,Warmuth MK(2009),学习指数权重排列。J.机器学习。物件。7月10日:1705-1736。谷歌学者·Zbl 1235.68092号
[24] [24]Kalai A,Vempala S(2005)在线决策问题的高效算法。J.计算。系统科学。71(3):291-307.谷歌学者Crossref·Zbl 1094.68112号 ·doi:10.1016/j.jcss.2004.10.016
[25] [25]Knuth DE(1985)动态哈夫曼编码。J.算法6(2):163-180.谷歌学者Crossref·Zbl 0606.94007号 ·doi:10.1016/0196-6774(85)90036-7
[26] [26]Kocák T,Neu G,Valko M,Munos R(2014)通过侧边观察对强盗问题的内隐探索实现高效学习。Ghahramani Z,Welling M,Cortes C,Lawrence ND,Weinberger KQ,eds.《神经信息处理系统进展》,第27卷(Curran Associates,Red Hook,NY)613-621.谷歌学者
[27] [27]Koolen WM,Warmuth MK,Kivinen J(2010)《对冲结构性概念》。第23届会议学习。理论(Omnipress,麦迪逊,威斯康星州),93-105.谷歌学者
[28] [28]Littlestone N,Warmuth MK(1994)加权多数算法。通知。计算。108(2):212-261.Crossref,谷歌学者·Zbl 0804.68121号 ·doi:10.1006/inco.1994.1009
[29] [29]Neu G,Antos A,György A,Szepesvári C(2010)强盗反馈下的在线马尔可夫决策过程。Lafferty JD,Williams CKI,Shawe-Taylor J,Zemel RS,Culotta A,eds.《神经信息处理系统进展》,第27卷(Curran Associates,Red Hook,NY),1804-1812。谷歌学者
[30] [30]Neu G,Bartók G(2013)半强盗反馈学习的有效算法。内部。Conf.算法学习。理论(Springer,纽约),234-248.谷歌学者·Zbl 1406.68099号
[31] [31]Shalev-Shwartz S等人(2012)在线学习和在线凸优化。基础趋势机器学习。4(2):107-194.Crossref,谷歌学者·Zbl 1253.68190号 ·数字对象标识代码:10.1561/220000018
[32] [32]Sleator DD,Tarjan RE(1985)列表更新和分页规则的摊销效率。通信ACM28(2):202-208.Crossref,谷歌学者·数字对象标识代码:10.1145/2786.2793
[33] [33]Sleator DD,Tarjan RE(1985)自调整二进制搜索树。美国临床医学杂志32(3):652-686.Crossref,谷歌学者·Zbl 0631.68060号 ·数字对象标识代码:10.1145/3828.3835
[34] [34]Takimoto E,Warmuth MK(2002)平面决策图的预测和最佳剪枝。理论。计算。科学。288(2):217-235.Crossref,谷歌学者·Zbl 1061.68131号 ·doi:10.1016/S0304-3975(01)00401-7
[35] [35]Takimoto E,Warmuth MK(2003)路径内核和乘法更新。J.机器学习。物件。4(10月):773-818谷歌学者·Zbl 1083.68592号
[36] [36]Yu JY,Mannor S,Shimkin N(2009)具有任意报酬过程的马尔可夫决策过程。数学。操作。物件。34(3):737-757.链接,谷歌学者·Zbl 1218.90206号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。