×

兹马思-数学第一资源

具有有限切换的有限动作集上的在线学习。(英语) Zbl 07354637
摘要:本文从专家问题(PFE)和对抗性多武装匪徒问题(MAB)两个方面研究了切换动作在预测中的价值。首先,我们回顾了研究得很好且有实际动机的PFE设置,并考虑了转换成本。许多算法都在后悔和切换中都达到了极小极大最优次序期望; 然而,高概率担保是一个开放的问题。我们提出了第一个算法,以高概率实现这两个量的最佳次序。这也意味着其他几个问题的第一个高概率保证,特别是,它能有效地适应有限切换的在线组合优化。接下来,为了更细致地研究开关动作的价值,我们引入转换预算设置,将算法限制为固定数量(无成本)的交换机。利用这一结果和几个简化,我们统一了以前的工作,并完全描述了这个转换预算的复杂性,这些因素包括:对于PFE和MAB,对于所有的交换预算,对于期望和高概率保证。有趣的是,随着切换预算的减少,最小最大后悔率允许PFE发生相变,而MAB则不允许。这些结果恢复并推广了已知的(任意)交换成本设置的极大极小速率。
理学硕士:
68T05型 人工智能中的学习与自适应系统
68T37型 人工智能背景下的不确定性推理
软件:
AdaBoost.MH版
PDF格式 BibTeX公司 XML 引用
全文: 内政部
参考文献:
[1] [1] Abernethy JD,Hazan E,Rakhlin A(2009)《黑暗中的竞争:bandit线性优化的有效算法》。程序。第21届年度会议学习。理论(COLT),赫尔辛基,芬兰,263-273。谷歌学者
[2] [2] Adler RJ,Taylor JE(2009年)随机场与几何(斯普林格科学与商业媒体,纽约),谷歌学者
[3] [3] Arora R,Dekel O,Tewari A(2012)在线强盗学习对抗适应性对手:从后悔到政策后悔。程序。29号实习医生。形态机器学习。(Omnipress,麦迪逊,威斯康辛州),1747-1754.谷歌学者
[4] [4] Audibert JY,Bubeck S(2010)在部分监控下后悔边界和极小极大政策。J、 机器学习。物件。10月11日:2785-2836.Google Scholar·Zbl 1242.91034号
[5] [5] Audibert JY,Bubeck S,Lugosi G(2013)《在线组合优化中的遗憾》。数学。操作。物件。39(1):31-45.Link,谷歌学者·6830ZB1349
[6] [6] Auer P,Cesa Bianchi N,Freund Y,Schapire RE(2002)非随机多武装匪徒问题。暹罗J.计算机。32(1):48-77.Crossref,谷歌学者·Zbl 1029.68087
[7] [7] Awerbuch B,Kleinberg R(2008)在线线性优化和自适应路由。J、 计算机。系统科学。74(1):97-114.Crossref,谷歌学者·Zbl 1152.90544号
[8] [8] Boucheron S、Lugosi G、Massart P(2013年)集中不等式:一种非交感独立理论(英国牛津大学出版社),谷歌学者Crossref·Zbl 1337.60003
[9] [9] Bubeck S,Cesa Bianchi N(2012)随机和非随机多武装匪徒问题的遗憾分析。基础趋势机器学习。5(1):1-122.Crossref,谷歌学者·Zbl 1281.91051号
[10] [10] Cesa Bianchi N,Lugosi G(2006年)预测、学习和游戏(剑桥大学出版社,剑桥,英国),Crossref,谷歌学者·Zbl 1114.91001号
[11] [11] Cesa Bianchi N,Lugosi G(2012)《组合强盗》。J、 计算机。系统科学。78(5):1404-1422.Crossref,谷歌学者·Zbl 1262.91052
[12] [12] Cesa Bianchi N,Lugosi G,Stoltz G(2005)《利用标签有效预测最小化遗憾》。IEEE传输。通知。理论51(6):2152-2162.Crossref,谷歌学者·Zbl 1295.68183
[13] [13] Cesa Bianchi N,Freund Y,Hausler D,Helmbold DP,Schapire RE,Warmuth MK(1997)如何使用专家建议。J、 ACM公司44(3):427-485.Crossref,谷歌学者·Zbl 0890.68066
[14] [14] Dekel O,Ding J,Koren T,Peres Y(2014)《切换成本的强盗:T2/3遗憾》。程序。第46届ACM年会。理论计算,459-467。谷歌学者·Zbl 1315.68207
[15] [15] Devroye L,Lugosi G,Neu G(2013)随机行走扰动预测。形态。学习。理论,460-473。谷歌学者
[16] [16] Devroye L,Lugosi G,Neu G(2015)在线组合优化的随机游走扰动。IEEE传输。通知。理论61(7):4099-4106.Crossref,谷歌学者·Zbl 1359.68324
[17] [17] Even Dar E,Kakade SM,Mansour Y(2009)在线马尔可夫决策过程。数学。操作。物件。34(3):726-736.Link,谷歌学者·Zbl 1218.90207
[18] [18] Feamster N,Rexford J,Zegura E(2013)《SDN之路:可编程网络的知识史》。ACM队列11(12):1-21.Crossref,谷歌学者
[19] [19] Freund Y,Schapire RE(1997)在线学习的决策理论推广及其在boosting中的应用。J、 计算机。系统科学。55(1):119-139.Crossref,谷歌学者·Zbl 0880.68103
[20] [20] Geulen S,Vöcking B,Winkler M(2010)使用加权多数算法在线缓冲问题的遗憾最小化。第23形态。学习。理论(Omnipress,麦迪逊,WI),132-143。谷歌学者
[21] [21]Gyorgy A,Neu G(2014)有限延迟通用有损信源编码的近似最优速率。IEEE传输。通知。理论60(5):2823-2834.Crossref,谷歌学者·Zbl 1360.94199
[22] [22]Helmbold DP,Schapire RE(1997)预测决策树的最佳修剪。机器学习。27(1):51-68.Crossref,谷歌学者
[23] [23]Helmbold DP,Warmuth MK(2009)具有指数权重的学习置换。J、 机器学习。物件。10(7月):1705-1736。谷歌学者·Zbl 1235.68092
[24] [24]Kalai A,Vempala S(2005)在线决策问题的有效算法。J、 计算机。系统科学。71(3):291-307.Crossref,谷歌学者·Zbl 1094.68112
[25] [25]Knuth DE(1985)动态哈夫曼编码。J、 算法谷歌参考文献180-163:·中银0606.94007
[26] [26]Kocák T,Neu G,Valko M,Munos R(2014)利用侧边观察在bandit问题中通过内隐探索进行有效学习。Ghahramani Z,Welling M,Cortes C,Lawrence ND,Weinberger KQ,eds.神经信息处理系统进展,第27卷(Curran Associates,Red Hook,NY)613-621.谷歌学者
[27] [27]Koolen WM,Warmuth MK,Kivinen J(2010)对冲结构化概念。第23形态。学习。理论(Omnipress,麦迪逊,WI),93-105。谷歌学者
[28] [28]Littlestone N,Warmuth MK(1994)加权多数算法。通知。计算机。108(2):212-261.Crossref,谷歌学者·Zbl 0804.68121号
[29] [29]Neu G,Antos A,György A,Szepesvári C(2010)bandit反馈下的在线马尔可夫决策过程。Lafferty JD,Williams CKI,Shawe Taylor J,Zemel RS,Culotta A编辑,《神经信息处理系统进展》,第27卷(Curran Associates,Red Hook,NY),1804-1812。谷歌学者
[30] [30]Neu G,Bartók G(2013)半bandit反馈学习的有效算法。实习医生。形态算法学习。理论(斯普林格,纽约),234-248。谷歌学者·Zbl 1406.68099
[31] [31]Shalev Shwartz S,et al.(2012)在线学习和在线凸优化。基础趋势机器学习。4(2):107-194.Crossref,谷歌学者·Zbl 1253.68190号
[32] [32]Sleator DD,Tarjan RE(1985)列表更新和分页规则的摊余效率。通信ACM28(2):202-208.Crossref,谷歌学者
[33] [33]Sleator DD,Tarjan RE(1985)自调整二叉搜索树。J、 ACM公司32(3):652-686.Crossref,谷歌学者·Zbl 0631.68060
[34] [34]Takimoto E,Warmuth MK(2002)预测平面决策图的几乎和最佳修剪。理论。计算机。科学。288(2):217-235.Crossref,谷歌学者·Zbl 1061.68131号
[35] [35]Takimoto E,Warmuth MK(2003)路径核与乘法更新。J、 机器学习。物件。4(十月):773-818。谷歌学者·Zbl 1083.68592
[36] [36]于JY,Mannor S,Shimkin N(2009).具有任意报酬过程的马尔可夫决策过程。数学。操作。物件。34(3):737-757.Link,谷歌学者·Zbl 1218.90206
此参考列表基于出版商或数字数学图书馆提供的信息。它的项被试探性地匹配到zbMATH标识符,并且可能包含数据转换错误。它试图尽可能准确地反映原始论文中列出的参考文献,而不要求匹配的完整性或精确性。