Competing against Adaptive Strategies in Online Learning via Hints

Aditya Bhaskara; Kamesh Munagala

通过暗示与在线学习中的适应性策略竞争

阿迪蒂亚·巴斯卡拉（Aditya Bhaskara），卡梅什·穆纳加拉（Kamesh Munagala）

第26届国际人工智能与统计会议论文集，PMLR 206:10409-104242023年。

摘要

对于许多经典的在线学习设置，众所周知，在进行预测之前，对损失函数进行“提示”会产生更好的后悔保证。在这项工作中，我们研究了这个问题，提示是否允许我们超越后悔的标准概念（它与最佳固定策略竞争），与适应性或动态策略竞争？毕竟，如果暗示是完美的，我们显然可以与完全动态的战略竞争。对于一些常见的在线学习设置，我们提供了切换遗憾的上下界，即算法产生的损失与事后最优策略之间的差异，后者最多切换$L$次状态，其中$L$是一些参数。我们对在线线性优化和经典专家问题给出了积极的结果。有趣的是，对于经典的强盗场景来说，这样的结果是不可能的。

引用本文

BibTeX公司

@会议记录{pmlr-v206-bhaskara23a，title={通过提示与在线学习中的适应性策略竞争}，作者={巴斯卡拉、阿迪蒂亚和穆纳加拉、卡梅什}，booktitle＝{第26届国际人工智能与统计会议论文集}，页码={10409--10424}，年份={2023}，编辑＝{Ruiz，Francisco和Dy，Jennifer和van de Meent，Jan Willem}，体积={206}，series={机器学习研究论文集}，月={4月25日--27日}，publisher={PMLR}，pdf={https://procedures.mlr.press/v206/bhaskara23a/bhaskara 23a.pdf}，url={https://processes.mlr.press/v206/bhaskara23a.html}，abstract={对于许多经典的在线学习环境，众所周知，在做出预测之前对损失函数进行“提示”会产生更好的后悔保证。在这项工作中，我们研究了这个问题，提示是否允许我们超越后悔的标准概念（它与最佳固定策略相竞争）与适应性或动态战略竞争？毕竟，如果暗示是完美的，我们显然可以与完全动态的战略竞争。对于一些常见的在线学习设置，我们提供了切换遗憾的上下界，即算法产生的损失与事后最优策略之间的差异，后者最多切换$L$次状态，其中$L$是一些参数。我们对在线线性优化和经典专家问题给出了积极的结果。有趣的是，对于经典的强盗场景来说，这样的结果是不可能的。}}

尾注

%0会议论文%通过暗示与在线学习中的适应性策略竞争%阿迪蒂亚·巴斯卡拉%卡梅什·穆纳加拉%第26届国际人工智能与统计会议论文集%C机器学习研究进展%D 2023年%E弗朗西斯科·鲁伊斯%E詹妮弗·戴伊%E Jan-Willem van de Meent公司%F pmlr-v206-bhaskara23a型%我PMLR%电话：10409-10424%U型https://proceedings.mlr.press/v206/bhaskara23a.html%第206页%X对于许多经典的在线学习设置，众所周知，在做出预测之前对损失函数进行“提示”会产生更好的后悔保证。在这项工作中，我们研究了这个问题，提示是否允许我们超越后悔的标准概念（它与最佳固定策略竞争），与适应性或动态策略竞争？毕竟，如果暗示是完美的，我们显然可以与完全动态的战略竞争。对于一些常见的在线学习设置，我们提供了切换遗憾的上下界，即算法产生的损失与事后最优策略之间的差异，后者最多切换$L$次状态，其中$L$是一些参数。我们对在线线性优化和经典专家问题给出了积极的结果。有趣的是，对于经典的强盗场景来说，这样的结果是不可能的。

亚太地区

Bhaskara，A.和Munagala，K.（2023）。通过提示与在线学习中的适应性策略竞争。第26届国际人工智能与统计会议论文集，英寸机器学习研究进展206:10409-10424网址：https://proceedings.mlr.press/v206/bhaskara23a.html。

通过暗示与在线学习中的适应性策略竞争

摘要

引用本文

相关材料