文件Zbl 07592374-zbMATH打开

具有部分信息的在线学习的下限较小。（英语） Zbl 07592374号

数学。操作。物件。 47，第3期，2186-2218（2022）.

摘要：我们考虑带有部分信息反馈的对抗性（非随机）在线学习问题，在每一轮中，决策者从有限的备选方案中选择一个行动。我们为此类问题开发了一种黑盒方法，在这种方法中，学习者只观察到包括所选动作的动作子集的损失，作为反馈。当动作损失为非负时，在Mannor和Shamir提出的基于图形的反馈模型下，我们提供了以高概率获得所谓“小损失”（o（alpha L^{star}）遗憾界的算法，其中，（alpha\）是图的独立数，（L^{star}）是最佳动作的损失。在我们的工作之前，即使是伪重报，一般反馈图也没有数据依赖性保证（不依赖于动作数量，即利用增加的信息反馈）。利用我们技术的黑盒特性，我们将结果扩展到许多其他应用程序，例如组合半强盗（包括网络中的路由）、上下文强盗（即使是无限比较器类），以及使用缓慢变化（移动）的比较器进行学习。在多臂盗贼和组合半盗贼问题的特殊情况下，我们提供了（widetilde{mathcal{O}}（\sqrt{dL^{star}}））的最优小损失、高概率后悔保证，其中\（d\）是动作数，回答了Neu的开放问题。此前，多武器土匪和半土匪的界限仅为伪盗贼所知，且仅为预期。我们还提供了一个最优的（widetilde{mathcal{O}}（\sqrt{kappaL^{star}}）后悔保证，它适用于最大截尾数为\（\kappa\）的固定反馈图。

MSC公司：

第68季度32

计算学习理论

关键词：

在线学习;反馈图;强盗算法;半强盗;背景盗贼;部分信息;后悔界限;小损失界限;一阶界限;高概率

软件：

阿达·布斯特。MH公司

PDF格式 BibTeX公司 XML格式引用

全文：内政部 arXiv公司

参考文献：

[1]	[1] Agarwal A、Krishnamurthy A、Langford J、Luo H、Schapire RE（2017）《公开问题：背景盗贼的一阶后悔界限》。程序。2017年Conf.Learn。理论，第65卷，4-7。谷歌学者
[2]	[2] Allenberg C，Auer P，Györfi L，Ottucsák G（2006），部分监测下无限损失情况下在线学习的Hannan一致性。Proc。第17届国际。Conf.算法学习。理论，229-243.谷歌学者·Zbl 1168.68449号
[3]	[3] Allen-Zhu Z、Bubeck S、Li Y（2018）《让少数民族再次伟大：一级后悔注定会成为周边强盗》。程序。第35届国际米兰。Conf.机器学习。，186-194.谷歌学者
[4]	[4] Alon N、Cesa Bianchi N、Dekel O、Koren T（2015）《在线学习与反馈图：超越强盗》。程序。第28届Conf.学习。理论，23-35谷歌学者
[5]	[5] Alon N、Cesa Bianchi N、Gentile C、Mansour Y（2013）《从强盗到专家：统治与独立的故事》。程序。第26届国际。Conf.神经信息。处理系统，1610-1618.谷歌学者
[6]	[6] Alon N、Cesa Bianchi N、Gentile C、Mannor S、Mansour Y、Shamir O（2017）《具有图形结构反馈的非随机多武器强盗》。SIAM J.计算。46（6）：1785-1826.Crossref，谷歌学者·Zbl 1375.68097号 ·数字对象标识代码：10.1137/140989455
[7]	[7] Audibert J，Bubeck S（2010）部分监控下的后悔界限和极小极大政策。J.机器学习。物件。11（94）：2785-2836.谷歌学者·Zbl 1242.91034号
[8]	[8] Audibert JY、Bubeck S、Lugosi G（2014）《在线组合优化的遗憾》。数学。操作。物件。39（1）：31-45.Link，谷歌学者·Zbl 1341.68309号
[9]	[9] Auer P，Cesa Bianchi N，Gentile C（2002）自适应和自信在线学习算法。J.计算。系统科学。64（1）：48-75.Crossref，谷歌学者·Zbl 1006.68162号 ·doi:10.1006/jcss.2001.1795文件
[10]	[10] Auer P、Cesa Bianchi N、Freund Y、Schapire RE（2003）《非随机多武器强盗问题》。SIAM J.计算。32（1）：48-77.Crossref，谷歌学者·Zbl 1029.68087号 ·网址：10.1137/S0097539701398375
[11]	[11] Awerbuch B，Kleinberg RD（2004）《带端到端反馈的自适应路由：分布式学习和几何方法》。程序。第36届ACM年度交响曲。理论计算。，45-53.谷歌学者·Zbl 1192.68020号
[12]	[12] Beygelzimer A、Langford J、Li L、Reyzin L、Schapire R（2011）有监督学习保证的上下文盗贼算法。程序。第14届国际米兰。Conf.人工智能统计师。（PMLR），19-26.谷歌学者
[13]	[13] Blum A，Hartline JD（2005）《近最优在线拍卖》。程序。第16届ACM-SIAM年度交响乐团。离散算法，1156-1163.谷歌学者·Zbl 1297.91075号
[14]	[14] Blum A，Even-Dar E，Ligett K（2010）《无悔路由：路由博弈中回归最小化算法的纳什均衡收敛性》。理论计算。6（1）：179-199.谷歌学者Crossref·Zbl 1213.91041号 ·doi:10.4086/toc.2010.v006a008
[15]	[15] Blum A、Hajiaghayi M、Ligett K、Roth A（2008）《后悔最小化与完全无政府状态的代价》。程序。第40届ACM年度交响曲。理论计算。，373-382.谷歌学者·Zbl 1231.91062号
[16]	[16] Bubeck S，Cesa-Bianchi N（2012）随机和非随机多武器强盗问题的后悔分析。基础趋势机器学习5（1）：1-122。https://www.nowpublishers.com/article/Details/MAL-024.谷歌学者·Zbl 1281.91051号
[17]	[17] 塞萨·比安奇N，卢戈西G（2006）预测、学习和游戏（剑桥大学出版社）。Crossref，谷歌学者·Zbl 1114.91001号 ·doi:10.1017/CBO9780511546921
[18]	[18] Cesa Bianchi N，Gentile C，Mansour Y（2013）第二价格拍卖中保留价格的回归最小化。程序。第24届ACM-SIAM年度交响曲。离散算法，1190-1204.谷歌学者·Zbl 1425.91182号
[19]	[19] Cesa-Bianchi N，Lugosi G，Stoltz G（2005），通过标签有效预测最小化遗憾。IEEE传输。通知。理论51（6）：2152-2162.Crossref，谷歌学者·Zbl 1295.68183号 ·doi:10.1109/TIT.2005.847729
[20]	[20] Cohen A、Hazan T、Koren T（2016）《在线学习，带反馈图，不带反馈图》。程序。第33届国际。Conf.机器学习。，811-819.谷歌学者
[21]	[21]Cover TM（1991）《环球投资组合》。数学。财务1（1）：1-29.Crossref，谷歌学者·Zbl 0900.90052号 ·doi:10.1111/j.1467-9965.1991.tb00002.x
[22]	[22]Daniely A、Gonen A、Shalev-Shwartz S（2015）《强适应性在线学习》。程序。第32届国际。Conf.机器学习。，1405-1411.谷歌学者
[23]	[23]Foster DJ，Li Z，Lykouris T，Sridharan K，Tardos Es（2016）游戏中的学习：快速收敛的稳健性。年度确认神经信息。处理系统2016，4727-4735.谷歌学者
[24]	[24]Freund Y，Schapire RE（1997）在线学习的决策理论推广及其在助推中的应用。J.计算。系统科学。55（1）：119-139。Crossref，谷歌学者·Zbl 0880.68103号 ·doi:10.1006/jcss.1997.1504
[25]	[25]Hannan J（1957）重复博弈中贝叶斯风险的近似。对博弈论的贡献第3卷（普林斯顿大学出版社），97-139。谷歌学者·Zbl 0078.32804号
[26]	[26]Hazan E，Agarwal A，Kale S（2007）在线凸优化的对数遗憾算法。机器学习。69（2-3）：169-192.Crossref，谷歌学者·Zbl 1471.68327号 ·doi:10.1007/s10994-007-5016-8
[27]	[27]Herbster M，Warmuth MK（1998）追踪最佳专家。机器学习。32（2）：151-178.Crossref，谷歌学者·Zbl 0912.68165号 ·doi:10.1023/A:1007424614876
[28]	[28]Kalai A，Vempala S（2005）在线决策问题的有效算法。J.计算。系统科学。71（3）：291-307.谷歌学者Crossref·Zbl 1094.68112号 ·doi:10.1016/j.jcss.2004.10.016
[29]	[29]Kocák T，Neu G，Valko M（2016）在线学习与噪音侧观察。程序。第19国际。Conf.人工智能统计师。，1186-1194.谷歌学者
[30]	[30]Kocák T，Neu G，Valko M，Munos R（2014）通过侧边观察对强盗问题的内隐探索实现高效学习。高级神经信息。处理系统，613-621.谷歌学者
[31]	[31]Lai T，Robbins H（1985）渐近有效自适应分配规则。高级申请。数学。6（1）：4-22.Crossref，谷歌学者·Zbl 0568.62074号 ·doi:10.1016/0196-8858（85）90002-8
[32]	[32]Langford J，Zhang T（2007）上下文多武装匪徒的时代自由算法。程序。第20届国际。Conf.神经信息。处理系统，817-824.谷歌学者
[33]	[33]Littlestone N，Warmuth MK（1994）加权多数算法。通知。计算。108（2）：212-261.Crossref，谷歌学者·兹伯利0804.68121 ·doi:10.1006/inco.1994.1009
[34]	[34]Liu YP，Sellke M（2018）通过电子邮件进行个人通信。谷歌学者
[35]	[35]罗H，夏皮雷（Schapire RE）（2015）无参数实现所有目标：Adanormalhedge。程序。第28届Conf.学习。理论，1286-1304.谷歌学者
[36]	[36]Lykouris T，Syrgkanis V，Tardos E（2016）动态人口游戏中的学习和效率。程序。第27届ACM-SIAM年度交响乐团。离散算法，120-129。谷歌学者·Zbl 1417.91124号
[37]	[37]Mannor S，Shamir O（2011）《从强盗到专家：关于旁观的价值》。程序。第24届国际。Conf.神经信息。处理系统，684-692.谷歌学者
[38]	[38]Neu G（2015）《不再探索：提高非草率强盗的高概率后悔界限》。年度确认神经信息。处理系统，3168-3176。谷歌学者
[39]	[39]Neu G（2015）组合半强盗的一阶后悔界限。程序。第28届会议学习。理论，1360-1375.谷歌学者
[40]	[40]Neu G，Bartók G（2016）无重要性权重的重要性加权：组合半强盗的有效算法。J.机器学习。物件。17（1）：5355-5375.谷歌学者·兹比尔1392.68359
[41]	[41]Rakhlin A，Sridharan K（2013）《可预测序列的在线学习》。程序。第26届年度Conf.Learn。理论，993-1019。谷歌学者
[42]	[42]Rakhlin A，Sridharan K（2014）在线非参数回归。程序。第27届Conf.学习。理论，1232-1264.谷歌学者
[43]	[43]Rakhlin A，Sridharan K（2016）Bistro:一种有效的基于放松的方法，用于背景盗贼。程序。第33届国际。Conf.机器学习。，第48卷，1977-1985。谷歌学者
[44]	[44]Rakhlin A，Sridharan K（2017）关于鞅尾界和确定性后悔不等式的等价性。程序。第30届Conf.学习。理论，1704-1722.谷歌学者
[45]	[45]Rakhlin A、Sridharan K、Tewari A（2010）在线学习：随机平均值、组合参数和可学习性。预印本，于年月日提交，https://arxiv.org/abs/1006.1138.谷歌学者
[46]	[46]Roughgarden T（2015）无政府状态价格的内在稳健性。美国临床医学杂志62（5）1-42.Crossref，谷歌学者·Zbl 1427.91015号 ·doi:10.1145/2806883
[47]	[47]Roughgarden T，Wang JR（2016）用多重储备最小化遗憾。程序。2016年ACM经济大会。计算。，601-616.谷歌学者
[48]	[48]Syrgkanis V，Krishnamurthy A，Schapire RE（2016a）对抗性上下文学习的高效算法。程序。第33届国际。Conf.机器学习。，2159-2168.谷歌学者
[49]	[49]Syrgkanis V，Luo H，Krishnamurthy A，Schapire RE（2016b）提高了基于口述的敌对背景盗贼的后悔界限。程序。第30届国际。Conf.神经信息。处理系统，3143-3151.谷歌学者
[50]	[50]Tossou A，Dimitrakakis C，Dubhashi D（2017）《随机土匪的图反馈汤普森抽样》。程序。美国人工智能学会会议，31（1）。谷歌学者

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
拉	语言
所以	来源
实验室	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文档类型(j个：期刊文章；b条：book；一：图书文章）

一&b条	逻辑和
一\|b条	逻辑或
!实验室	逻辑不
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

领域

操作员

具有部分信息的在线学习的下限较小。（英语） Zbl 07592374号

MSC公司：

关键词：

软件：

参考文献：

示例

领域

操作员

具有部分信息的在线学习的下限较小。 （英语） Zbl 07592374号

MSC公司：

关键词：

软件：

参考文献：

具有部分信息的在线学习的下限较小。（英语） Zbl 07592374号