×

非平稳环境中的Bandit凸优化。 (英语) Zbl 07370642号

摘要:Bandit凸优化(BCO)是用部分信息建模顺序决策的基本框架,其中玩家唯一可用的反馈是一点或两点函数值。本文研究了非平稳环境中的BCO,并选择动态后悔作为性能度量,它定义为算法所产生的累积损失与任何可行比较序列的累积损失之间的差异。设(T)为时间范围,(P_T)为反映环境非平稳性的比较器序列的路径长度。我们提出了一种新的算法,分别实现了单点和两点反馈模型的(O(T^{3/4}(1+P_T)^{1/2})和(O(T ^{1/2](1+P_T,^{1/2})动态后悔。后一个结果是最优的,与本文建立的(Omega(T^{1/2}(1+P_T)^{1/2])下界相匹配。值得注意的是,我们的算法对非平稳环境是自适应的,因为它不需要预先知道路径长度(P_T\),而路径长度通常是未知的。我们进一步将算法扩展到不需要提前知道时间范围\(T\)的任何时间版本。此外,我们研究了另一种广泛用于非平稳环境下在线学习的性能度量——自适应后悔,并设计了一种算法,该算法可证明对BCO问题具有自适应后悔保证。最后,我们进行了实证研究,以验证该方法的有效性。

MSC公司:

68T05型 人工智能中的学习和自适应系统
PDF格式BibTeX公司 XML格式引用
全文: arXiv公司 链接

参考文献:

[1] 雅各布·阿伯内西(Jacob Abernethy)、伊拉德·哈赞(Elad Hazan)和亚历山大·拉赫林(Alexander Rakhlin)。在黑暗中竞争:一种高效的强盗线性优化算法。第21届年会记录
[2] 阿列克·阿加瓦尔(Alekh Agarwal)、奥弗·德克尔(Ofer Dekel)和林晓(Lin Xiao)。多点土匪反馈在线凸优化的优化算法。第23届学习会议记录
[3] 彼得·奥尔(Peter Auer)、陈一芳(Yifang Chen)、普拉蒂克·加贾尼(Pratik Gajane)、李钟伟(Chung-Wei Lee)、罗海鹏(Haipeng Luo)、罗纳德·奥尔特纳(Ronald Ortner)和陈玉伟。在无需事先信息的情况下,为非静态盗贼实现最佳动态遗憾。《第32届学习理论会议论文集》,第159-163页,2019年。
[4] Baruch Awerbuch和Robert D.Kleinberg。具有端到端反馈的自适应路由:分布式学习和几何方法。2004年第36届ACM计算机理论研讨会(STOC)论文集,第45-53页·Zbl 1192.68020号
[5] Dheeraj Baby和Yu-Xiang Wang。全变量有界序列的在线预测。神经信息处理系统进展32(NeurIPS),第11071-110812019页。
[6] Omar Besbes、Yonatan Gur和Assaf J.Zeevi。非静态随机优化。运筹学,63(5):1227-12442015·Zbl 1338.90280号
[7] S´ebastien Bubeck、Nicol'o Cesa Bianchi和Sham M.Kakade。具有强盗反馈的在线线性优化的最小极大策略。第25届年度会议记录
[8] S´ebastien Bubeck、Yin Tat Lee和Ronen Eldan。基于核的土匪凸优化方法。第49届ACM SIGACT年度理论研讨会论文集
[9] S´ebastien Bubeck、Yuanzhi Li、Haipeng Luo和Chen-Yu Wei。改进了土匪的路径长度后悔界限。第32届学习理论会议论文集,第508-528页,2019。
[10] S´ebastien Bubeck、Ofer Dekel、Tomer Koren和Yuval Peres。Bandit凸优化:√Tregret一维优化。第28届学习理论会议记录
[11] 尼科尔·塞萨·比安奇(Nicol’o Cesa Bianchi)和卢戈西(G’abor Lugosi)。预测、学习和游戏。剑桥大学出版社,2006年·Zbl 1114.91001号
[12] 尼科尔·塞萨·比安奇(Nicol’o Cesa Bianchi)、尤夫·弗伦德(Yoav Freund)、大卫·豪斯勒(David Haussler)、大卫·P·赫尔姆博尔德(David P.Helmbold)、罗伯特·E·夏皮雷(Robert E.Schapire)和曼弗雷德·。如何使用专家建议。美国医学会杂志,44(3):427-4851997·Zbl 0890.68066号
[13] 陈天一(Tianyi Chen)和乔治·吉安娜基斯(Georgios B.Giannakis)。Bandit凸优化用于可扩展和动态物联网管理。IEEE物联网杂志,6(1):1276-12862019年。
[14] 阿肖克·库考斯基(Ashok Cutkosky)。无参数、动态且适应性强的在线学习。第37届国际机器学习会议(ICML)论文集,第页
[15] 瓦沙·达尼(Varsha Dani)、托马斯·海耶斯(Thomas P.Hayes)和沙姆·卡卡德(Sham M.Kakade)。盗贼信息价格在线优化。神经信息处理系统进展20(NIPS),第345-3522007页。
[16] 阿米特·丹尼尔、阿隆·戈南和谢·沙列夫·施瓦茨。适应性强的在线学习。第32届国际机器学习会议(ICML)论文集,第页
[17] Ofer Dekel、Ronen Eldan和Tomer Koren。Bandit平滑凸优化:改进偏差-方差权衡。神经信息处理系统的进展28
[18] 约翰·杜奇(John C.Duchi)、迈克尔·乔丹(Michael I.Jordan)、马丁·温赖特(Martin J.Wainwright)和安德烈·维比索诺(Andre Wibisono)。零阶凸优化的最优速率:两个函数求值的幂。电气与电子工程师协会·Zbl 1359.90155号
[19] 亚伯拉罕·弗拉克斯曼(Abraham Flaxman)、亚当·托曼·卡莱(Adam Tauman Kalai)和H.布伦丹·麦克马汉(H.Brendan McMahan)。土匪设置中的在线凸优化:无梯度的梯度下降。在的诉讼中·Zbl 1297.90117号
[20] Luigi Fortuna、Salvatore Graziani、Alessandro Rizzo和Maria Gabriella Xibilia。用于监测和控制工业过程的软传感器。施普林格科技与商业·Zbl 1136.93001号
[21] Jo~ao Gama、Indre Zliobaite、Albert Bifet、Mykola Pechenizkiy和Abdelhamid Bouchachia。关于概念漂移适应的调查。ACM计算调查,46(4):44:1-44:372014·Zbl 1305.68141号
[22] 约纳坦·古尔(Yonatan Gur)、阿萨夫·泽埃维(Assaf J.Zeevi)和奥马尔·贝贝斯(Omar Besbes)。具有非平稳报酬的随机多目标土匪问题。神经信息处理系统的进展27
[23] 埃拉·哈赞。在线凸优化简介。优化基础与趋势,2(3-4):157-3252016。
[24] Elad Hazan和Kfir Y.Levy。Bandit凸优化:接近紧边界。《神经信息处理系统进展》27(NIPS),第784-792页,2014年。
[25] Elad Hazan和C.Seshadhri。变化环境下的高效学习算法。第26届国际机器学习会议(ICML)论文集,第页
[26] Elad Hazan、Amit Agarwal和Satyen Kale。在线凸优化的对数后悔算法。机器学习,69(2-3):169-1922007·Zbl 1471.68327号
[27] Mark Herbster和Manfred K.Warmuth。追踪最佳专家。机器学习,32(2):151-1781998·Zbl 0912.68165号
[28] Mark Herbster和Manfred K.Warmuth。跟踪最佳线性预测器。机器学习研究杂志,1:281-3092001·Zbl 1008.68105号
[29] Ali Jadbabaie、Alexander Rakhlin、Shahin Shahrampour和Karthik Sridharan。在线优化:与动态比较器竞争。第18届国际米兰的会议记录
[30] Kwang-Sung Jun、Francesco Orabona、Stephen Wright和Rebecca Willett。使用投币改进了自适应性强的在线学习。第20届国际会议记录
[31] 罗伯特·D·克莱恩伯格(Robert D.Kleinberg)。连环武装匪徒问题的边界几乎很紧。神经信息处理系统进展17(NIPS),第697-7042004页。
[32] Jeremy Z.Kolter和Marcus A.Maloof。使用加性专家集成来应对概念漂移。第22届机器学习国际会议论文集
[33] 托尔·拉铁摩尔。改进了零阶对抗性强盗凸优化的遗憾。ArXiv预印本,ArXiv:2006.004752020。
[34] 李忠伟、罗海鹏、魏晨瑜和张梦晓。不再有偏见:敌方强盗和MDP的高概率数据依赖后悔界限。预付款
[35] 罗海鹏(Haipeng Luo)、魏晨宇(Chen-Yu Wei)、阿加瓦尔(Alekh Agarwal)和约翰·朗福德(John Langford)。非平稳世界中的高效关联强盗。第31届学习理论大会论文集
[36] H.Brendan McMahan和Avrim Blum。针对自适应对手的强盗设置中的在线几何优化。第17届学习年会论文集
[37] 雅利安·莫赫塔里(Aryan Mokhtari)、沙欣·沙赫拉普尔(Shahin Shahrampour)、阿里·贾巴比(Ali Jadbabaie)和亚历杭德罗·里贝罗(Alejandro Ribeiro)。动态环境中的在线优化:提高强凸问题的后悔率。第55届IEEE决策与控制会议(CDC)会议记录,第7195-7201页,2016年。
[38] 尤里·内斯特罗夫。凸函数的随机无梯度最小化。卢万天主教大学运营研究和计量经济中心技术报告·Zbl 1380.90220号
[39] Ankan Saha和Ambuj Tewari。改进了带有强盗反馈的在线平滑凸优化的遗憾保证。第十四届国际会议记录
[40] 谢·沙列夫·施瓦茨。在线学习和在线凸优化。机器学习的基础和趋势,4(2):107-1942012·Zbl 1253.68190号
[41] 奥哈德·沙米尔。关于土匪和无导数随机凸优化的复杂性。2013年第26届学习理论年会(COLT)论文集,第3-24页。
[42] 奥哈德·沙米尔。一种具有两点反馈的土匪和零阶凸优化的优化算法。《机器学习研究杂志》,18:52:1-52:11,2017年·Zbl 1440.90049号
[43] 杉山正树和川本茂。非静态环境中的机器学习:协变变换适应简介。麻省理工学院出版社,2012年。
[44] Tim van Erven和Wouter M.Koolen。Metagrad:在线学习中的多重学习率。神经信息处理系统研究进展29(NIPS),第3666-3674页,2016年。
[45] 王广辉、赵大宽和张丽君。通过每次迭代一个梯度来最小化自适应遗憾。关于
[46] 陈玉伟,洪一德,卢奇仁。非平稳随机环境中的最佳专家跟踪。神经信息处理系统的进展29
[47] Scott Yang和Mehryar Mohri。乐观土匪凸优化。神经信息处理系统研究进展29(NIPS),第2289-2297页,2016年。
[48] 杨天宝、张丽君、金荣和易金凤。跟踪缓慢移动的洞察力:在线学习的最佳动态遗憾,梯度真实且嘈杂。在的诉讼中
[49] 张丽君、杨天宝、易金凤、金蓉和周志华。改进了非简并函数的动态遗憾。神经信息处理系统研究进展
[50] 张丽君、陆世音和周志华。动态环境中的自适应在线学习。神经信息处理系统进展31(NeurIPS),第1330-1340页,2018a。
[51] 张丽君、杨天宝、金荣和周志华。强自适应方法的动态遗憾。第35届国际机器会议论文集
[52] 张丽君、刘铁燕和周志华。凸函数和光滑函数的自适应遗憾。第36届机器学习国际会议论文集
[53] 张丽君、陆世音和杨天宝。同时最小化动态后悔和自适应后悔。第23届人工智能国际会议记录
[54] 张玉杰、赵鹏和周志华。与动态比较器竞争的简单在线算法。第36届人工不确定性会议论文集
[55] 赵鹏和张丽君。强凸光滑函数动态遗憾的改进分析。第三届动力学学习会议记录
[56] 赵鹏、王广辉、张丽君和周志华。非平稳环境中的Bandit凸优化。第23届国际会议记录
[57] 赵鹏、张玉杰、张丽君和周志华。凸函数和光滑函数的动态遗憾。神经信息处理系统研究进展33(NeurIPS),第12510-12520页,2020b页。
[58] 赵鹏、王新强、谢思玉、郭雷和周志华。无分发的单程学习。IEEE知识与数据工程学报,33:951-9632021年。
[59] 周志华。集合方法:基础和算法。查普曼和霍尔/CRC出版社,2012年。
[60] 马丁·津科维奇(Martin Zinkevich)。在线凸规划与广义无穷小梯度提升。《第20届国际机器学习会议(ICML)论文集》,第928-936页,2003年。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。