×

具有部分信息的在线学习的下限较小。 (英语) Zbl 07592374号

摘要:我们考虑带有部分信息反馈的对抗性(非随机)在线学习问题,在每一轮中,决策者从有限的备选方案中选择一个行动。我们为此类问题开发了一种黑盒方法,在这种方法中,学习者只观察到包括所选动作的动作子集的损失,作为反馈。当动作损失为非负时,在Mannor和Shamir提出的基于图形的反馈模型下,我们提供了以高概率获得所谓“小损失”(o(alpha L^{star})遗憾界的算法,其中,(alpha\)是图的独立数,(L^{star})是最佳动作的损失。在我们的工作之前,即使是伪重报,一般反馈图也没有数据依赖性保证(不依赖于动作数量,即利用增加的信息反馈)。利用我们技术的黑盒特性,我们将结果扩展到许多其他应用程序,例如组合半强盗(包括网络中的路由)、上下文强盗(即使是无限比较器类),以及使用缓慢变化(移动)的比较器进行学习。在多臂盗贼和组合半盗贼问题的特殊情况下,我们提供了(widetilde{mathcal{O}}(\sqrt{dL^{star}}))的最优小损失、高概率后悔保证,其中\(d\)是动作数,回答了Neu的开放问题。此前,多武器土匪和半土匪的界限仅为伪盗贼所知,且仅为预期。我们还提供了一个最优的(widetilde{mathcal{O}}(\sqrt{kappaL^{star}})后悔保证,它适用于最大截尾数为\(\kappa\)的固定反馈图。

MSC公司:

第68季度32 计算学习理论
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] [1] Agarwal A、Krishnamurthy A、Langford J、Luo H、Schapire RE(2017)《公开问题:背景盗贼的一阶后悔界限》。程序。2017年Conf.Learn。理论,第65卷,4-7。谷歌学者
[2] [2] Allenberg C,Auer P,Györfi L,Ottucsák G(2006),部分监测下无限损失情况下在线学习的Hannan一致性。Proc。第17届国际。Conf.算法学习。理论,229-243.谷歌学者·Zbl 1168.68449号
[3] [3] Allen-Zhu Z、Bubeck S、Li Y(2018)《让少数民族再次伟大:一级后悔注定会成为周边强盗》。程序。第35届国际米兰。Conf.机器学习。,186-194.谷歌学者
[4] [4] Alon N、Cesa Bianchi N、Dekel O、Koren T(2015)《在线学习与反馈图:超越强盗》。程序。第28届Conf.学习。理论,23-35谷歌学者
[5] [5] Alon N、Cesa Bianchi N、Gentile C、Mansour Y(2013)《从强盗到专家:统治与独立的故事》。程序。第26届国际。Conf.神经信息。处理系统,1610-1618.谷歌学者
[6] [6] Alon N、Cesa Bianchi N、Gentile C、Mannor S、Mansour Y、Shamir O(2017)《具有图形结构反馈的非随机多武器强盗》。SIAM J.计算。46(6):1785-1826.Crossref,谷歌学者·Zbl 1375.68097号 ·数字对象标识代码:10.1137/140989455
[7] [7] Audibert J,Bubeck S(2010)部分监控下的后悔界限和极小极大政策。J.机器学习。物件。11(94):2785-2836.谷歌学者·Zbl 1242.91034号
[8] [8] Audibert JY、Bubeck S、Lugosi G(2014)《在线组合优化的遗憾》。数学。操作。物件。39(1):31-45.Link,谷歌学者·Zbl 1341.68309号
[9] [9] Auer P,Cesa Bianchi N,Gentile C(2002)自适应和自信在线学习算法。J.计算。系统科学。64(1):48-75.Crossref,谷歌学者·Zbl 1006.68162号 ·doi:10.1006/jcss.2001.1795文件
[10] [10] Auer P、Cesa Bianchi N、Freund Y、Schapire RE(2003)《非随机多武器强盗问题》。SIAM J.计算。32(1):48-77.Crossref,谷歌学者·Zbl 1029.68087号 ·网址:10.1137/S0097539701398375
[11] [11] Awerbuch B,Kleinberg RD(2004)《带端到端反馈的自适应路由:分布式学习和几何方法》。程序。第36届ACM年度交响曲。理论计算。,45-53.谷歌学者·Zbl 1192.68020号
[12] [12] Beygelzimer A、Langford J、Li L、Reyzin L、Schapire R(2011)有监督学习保证的上下文盗贼算法。程序。第14届国际米兰。Conf.人工智能统计师。(PMLR),19-26.谷歌学者
[13] [13] Blum A,Hartline JD(2005)《近最优在线拍卖》。程序。第16届ACM-SIAM年度交响乐团。离散算法,1156-1163.谷歌学者·Zbl 1297.91075号
[14] [14] Blum A,Even-Dar E,Ligett K(2010)《无悔路由:路由博弈中回归最小化算法的纳什均衡收敛性》。理论计算。6(1):179-199.谷歌学者Crossref·Zbl 1213.91041号 ·doi:10.4086/toc.2010.v006a008
[15] [15] Blum A、Hajiaghayi M、Ligett K、Roth A(2008)《后悔最小化与完全无政府状态的代价》。程序。第40届ACM年度交响曲。理论计算。,373-382.谷歌学者·Zbl 1231.91062号
[16] [16] Bubeck S,Cesa-Bianchi N(2012)随机和非随机多武器强盗问题的后悔分析。基础趋势机器学习5(1):1-122。https://www.nowpublishers.com/article/Details/MAL-024.谷歌学者·Zbl 1281.91051号
[17] [17] 塞萨·比安奇N,卢戈西G(2006)预测、学习和游戏(剑桥大学出版社)。Crossref,谷歌学者·Zbl 1114.91001号 ·doi:10.1017/CBO9780511546921
[18] [18] Cesa Bianchi N,Gentile C,Mansour Y(2013)第二价格拍卖中保留价格的回归最小化。程序。第24届ACM-SIAM年度交响曲。离散算法,1190-1204.谷歌学者·Zbl 1425.91182号
[19] [19] Cesa-Bianchi N,Lugosi G,Stoltz G(2005),通过标签有效预测最小化遗憾。IEEE传输。通知。理论51(6):2152-2162.Crossref,谷歌学者·Zbl 1295.68183号 ·doi:10.1109/TIT.2005.847729
[20] [20] Cohen A、Hazan T、Koren T(2016)《在线学习,带反馈图,不带反馈图》。程序。第33届国际。Conf.机器学习。,811-819.谷歌学者
[21] [21]Cover TM(1991)《环球投资组合》。数学。财务1(1):1-29.Crossref,谷歌学者·Zbl 0900.90052号 ·doi:10.1111/j.1467-9965.1991.tb00002.x
[22] [22]Daniely A、Gonen A、Shalev-Shwartz S(2015)《强适应性在线学习》。程序。第32届国际。Conf.机器学习。,1405-1411.谷歌学者
[23] [23]Foster DJ,Li Z,Lykouris T,Sridharan K,Tardos Es(2016)游戏中的学习:快速收敛的稳健性。年度确认神经信息。处理系统2016,4727-4735.谷歌学者
[24] [24]Freund Y,Schapire RE(1997)在线学习的决策理论推广及其在助推中的应用。J.计算。系统科学。55(1):119-139。Crossref,谷歌学者·Zbl 0880.68103号 ·doi:10.1006/jcss.1997.1504
[25] [25]Hannan J(1957)重复博弈中贝叶斯风险的近似。对博弈论的贡献第3卷(普林斯顿大学出版社),97-139。谷歌学者·Zbl 0078.32804号
[26] [26]Hazan E,Agarwal A,Kale S(2007)在线凸优化的对数遗憾算法。机器学习。69(2-3):169-192.Crossref,谷歌学者·Zbl 1471.68327号 ·doi:10.1007/s10994-007-5016-8
[27] [27]Herbster M,Warmuth MK(1998)追踪最佳专家。机器学习。32(2):151-178.Crossref,谷歌学者·Zbl 0912.68165号 ·doi:10.1023/A:1007424614876
[28] [28]Kalai A,Vempala S(2005)在线决策问题的有效算法。J.计算。系统科学。71(3):291-307.谷歌学者Crossref·Zbl 1094.68112号 ·doi:10.1016/j.jcss.2004.10.016
[29] [29]Kocák T,Neu G,Valko M(2016)在线学习与噪音侧观察。程序。第19国际。Conf.人工智能统计师。,1186-1194.谷歌学者
[30] [30]Kocák T,Neu G,Valko M,Munos R(2014)通过侧边观察对强盗问题的内隐探索实现高效学习。高级神经信息。处理系统,613-621.谷歌学者
[31] [31]Lai T,Robbins H(1985)渐近有效自适应分配规则。高级申请。数学。6(1):4-22.Crossref,谷歌学者·Zbl 0568.62074号 ·doi:10.1016/0196-8858(85)90002-8
[32] [32]Langford J,Zhang T(2007)上下文多武装匪徒的时代自由算法。程序。第20届国际。Conf.神经信息。处理系统,817-824.谷歌学者
[33] [33]Littlestone N,Warmuth MK(1994)加权多数算法。通知。计算。108(2):212-261.Crossref,谷歌学者·兹伯利0804.68121 ·doi:10.1006/inco.1994.1009
[34] [34]Liu YP,Sellke M(2018)通过电子邮件进行个人通信。谷歌学者
[35] [35]罗H,夏皮雷(Schapire RE)(2015)无参数实现所有目标:Adanormalhedge。程序。第28届Conf.学习。理论,1286-1304.谷歌学者
[36] [36]Lykouris T,Syrgkanis V,Tardos E(2016)动态人口游戏中的学习和效率。程序。第27届ACM-SIAM年度交响乐团。离散算法,120-129。谷歌学者·Zbl 1417.91124号
[37] [37]Mannor S,Shamir O(2011)《从强盗到专家:关于旁观的价值》。程序。第24届国际。Conf.神经信息。处理系统,684-692.谷歌学者
[38] [38]Neu G(2015)《不再探索:提高非草率强盗的高概率后悔界限》。年度确认神经信息。处理系统,3168-3176。谷歌学者
[39] [39]Neu G(2015)组合半强盗的一阶后悔界限。程序。第28届会议学习。理论,1360-1375.谷歌学者
[40] [40]Neu G,Bartók G(2016)无重要性权重的重要性加权:组合半强盗的有效算法。J.机器学习。物件。17(1):5355-5375.谷歌学者·兹比尔1392.68359
[41] [41]Rakhlin A,Sridharan K(2013)《可预测序列的在线学习》。程序。第26届年度Conf.Learn。理论,993-1019。谷歌学者
[42] [42]Rakhlin A,Sridharan K(2014)在线非参数回归。程序。第27届Conf.学习。理论,1232-1264.谷歌学者
[43] [43]Rakhlin A,Sridharan K(2016)Bistro:一种有效的基于放松的方法,用于背景盗贼。程序。第33届国际。Conf.机器学习。,第48卷,1977-1985。谷歌学者
[44] [44]Rakhlin A,Sridharan K(2017)关于鞅尾界和确定性后悔不等式的等价性。程序。第30届Conf.学习。理论,1704-1722.谷歌学者
[45] [45]Rakhlin A、Sridharan K、Tewari A(2010)在线学习:随机平均值、组合参数和可学习性。预印本,于年月日提交,https://arxiv.org/abs/1006.1138.谷歌学者
[46] [46]Roughgarden T(2015)无政府状态价格的内在稳健性。美国临床医学杂志62(5)1-42.Crossref,谷歌学者·Zbl 1427.91015号 ·doi:10.1145/2806883
[47] [47]Roughgarden T,Wang JR(2016)用多重储备最小化遗憾。程序。2016年ACM经济大会。计算。,601-616.谷歌学者
[48] [48]Syrgkanis V,Krishnamurthy A,Schapire RE(2016a)对抗性上下文学习的高效算法。程序。第33届国际。Conf.机器学习。,2159-2168.谷歌学者
[49] [49]Syrgkanis V,Luo H,Krishnamurthy A,Schapire RE(2016b)提高了基于口述的敌对背景盗贼的后悔界限。程序。第30届国际。Conf.神经信息。处理系统,3143-3151.谷歌学者
[50] [50]Tossou A,Dimitrakakis C,Dubhashi D(2017)《随机土匪的图反馈汤普森抽样》。程序。美国人工智能学会会议,31(1)。谷歌学者
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。