通过暗示与在线学习中的适应性策略竞争
阿迪蒂亚·巴斯卡拉(Aditya Bhaskara),卡梅什·穆纳加拉(Kamesh Munagala)
第26届国际人工智能与统计会议论文集,PMLR 206:10409-104242023年。
摘要
对于许多经典的在线学习设置,众所周知,在进行预测之前,对损失函数进行“提示”会产生更好的后悔保证。在这项工作中,我们研究了这个问题,提示是否允许我们超越后悔的标准概念(它与最佳固定策略竞争),与适应性或动态策略竞争?毕竟,如果暗示是完美的,我们显然可以与完全动态的战略竞争。对于一些常见的在线学习设置,我们提供了切换遗憾的上下界,即算法产生的损失与事后最优策略之间的差异,后者最多切换$L$次状态,其中$L$是一些参数。我们对在线线性优化和经典专家问题给出了积极的结果。有趣的是,对于经典的强盗场景来说,这样的结果是不可能的。
引用本文
相关材料