通过暗示与在线学习中的适应性策略竞争

阿迪蒂亚·巴斯卡拉(Aditya Bhaskara),卡梅什·穆纳加拉(Kamesh Munagala)
第26届国际人工智能与统计会议论文集,PMLR 206:10409-104242023年。

摘要

对于许多经典的在线学习设置,众所周知,在进行预测之前,对损失函数进行“提示”会产生更好的后悔保证。在这项工作中,我们研究了这个问题,提示是否允许我们超越后悔的标准概念(它与最佳固定策略竞争),与适应性或动态策略竞争?毕竟,如果暗示是完美的,我们显然可以与完全动态的战略竞争。对于一些常见的在线学习设置,我们提供了切换遗憾的上下界,即算法产生的损失与事后最优策略之间的差异,后者最多切换$L$次状态,其中$L$是一些参数。我们对在线线性优化和经典专家问题给出了积极的结果。有趣的是,对于经典的强盗场景来说,这样的结果是不可能的。

引用本文


BibTeX公司
@会议记录{pmlr-v206-bhaskara23a,title={通过提示与在线学习中的适应性策略竞争},作者={巴斯卡拉、阿迪蒂亚和穆纳加拉、卡梅什},booktitle={第26届国际人工智能与统计会议论文集},页码={10409--10424},年份={2023},编辑={Ruiz,Francisco和Dy,Jennifer和van de Meent,Jan Willem},体积={206},series={机器学习研究论文集},月={4月25日--27日},publisher={PMLR},pdf={https://procedures.mlr.press/v206/bhaskara23a/bhaskara 23a.pdf},url={https://processes.mlr.press/v206/bhaskara23a.html},abstract={对于许多经典的在线学习环境,众所周知,在做出预测之前对损失函数进行“提示”会产生更好的后悔保证。在这项工作中,我们研究了这个问题,提示是否允许我们超越后悔的标准概念(它与最佳固定策略相竞争)与适应性或动态战略竞争?毕竟,如果暗示是完美的,我们显然可以与完全动态的战略竞争。对于一些常见的在线学习设置,我们提供了切换遗憾的上下界,即算法产生的损失与事后最优策略之间的差异,后者最多切换$L$次状态,其中$L$是一些参数。我们对在线线性优化和经典专家问题给出了积极的结果。有趣的是,对于经典的强盗场景来说,这样的结果是不可能的。}}
尾注
%0会议论文%通过暗示与在线学习中的适应性策略竞争%阿迪蒂亚·巴斯卡拉%卡梅什·穆纳加拉%第26届国际人工智能与统计会议论文集%C机器学习研究进展%D 2023年%E弗朗西斯科·鲁伊斯%E詹妮弗·戴伊%E Jan-Willem van de Meent公司%F pmlr-v206-bhaskara23a型%我PMLR%电话:10409-10424%U型https://proceedings.mlr.press/v206/bhaskara23a.html%第206页%X对于许多经典的在线学习设置,众所周知,在做出预测之前对损失函数进行“提示”会产生更好的后悔保证。在这项工作中,我们研究了这个问题,提示是否允许我们超越后悔的标准概念(它与最佳固定策略竞争),与适应性或动态策略竞争?毕竟,如果暗示是完美的,我们显然可以与完全动态的战略竞争。对于一些常见的在线学习设置,我们提供了切换遗憾的上下界,即算法产生的损失与事后最优策略之间的差异,后者最多切换$L$次状态,其中$L$是一些参数。我们对在线线性优化和经典专家问题给出了积极的结果。有趣的是,对于经典的强盗场景来说,这样的结果是不可能的。
亚太地区
Bhaskara,A.和Munagala,K.(2023)。通过提示与在线学习中的适应性策略竞争。第26届国际人工智能与统计会议论文集,英寸机器学习研究进展206:10409-10424网址:https://proceedings.mlr.press/v206/bhaskara23a.html。

相关材料