在随机线性带宽中利用免费的初始提示

Ashok Cutkosky、Chris Dann、Abhimanyu Das、Qiuyi Zhang
第33届算法学习理论国际会议论文集,PMLR 167:282-31822022年。

摘要

我们使用强盗反馈研究优化设置,并以最佳操作的初始提示的形式向学习者提供额外的先验知识。我们提出了一种新的随机线性盗贼算法,该算法使用该提示在提示准确时将其遗憾提高到$\tildeO(\sqrt{T})$,同时保持与提示质量无关的最小最优$\tilde O(d\sqrt{T})$recretry。此外,我们还提供了最佳情况和最坏情况遗憾之间的帕累托边界,以及匹配的下限。也许令人惊讶的是,我们的工作表明,利用提示可以在不牺牲最坏性能的情况下获得可证明的收益,这意味着我们的算法可以免费适应提示的质量。我们还将我们的算法扩展到$m$初始提示的情况,表明我们可以实现$\tildeO(m^{2/3}\sqrt{T})$recretry。

引用本文


BibTeX公司
@会议记录{pmlr-v167-cutkosky22a,title={在随机线性带宽中利用免费的初始提示},author={Cutkosky、Ashok和Dann、Chris和Das、Abhimanyu和Zhang、Qiuyi},booktitle={第33届算法学习理论国际会议论文集},页数={282--318},年份={2022},editor={达斯古普塔、桑乔伊和哈格塔拉布、尼卡},体积={167},series={机器学习研究论文集},月份={3月29日-4月1日},publisher={PMLR},pdf={https://procedures.mlr.press/v167/cutkosky22a/cutkosky 22a.pdf},url={https://procedures.mlr.press/v167/cutkosky22a.html},abstract={我们研究了利用强盗反馈进行优化的设置,并以最优行为的初始提示的形式向学习者提供了额外的先验知识。我们提出了一种新的随机线性强盗算法,该算法使用该提示,当提示准确时,将其遗憾提高到$\tildeO(\sqrt{T})$,同时保持与提示质量无关的最小最优$\tildeO(d\sqrt{T})$recretry。此外,我们还提供了最佳情况和最坏情况遗憾之间的帕累托边界,以及匹配的下限。也许令人惊讶的是,我们的工作表明,利用提示可以在不牺牲最坏性能的情况下获得可证明的收益,这意味着我们的算法可以免费适应提示的质量。我们还将我们的算法扩展到$m$初始提示的情况,表明我们可以实现$\tildeO(m^{2/3}\sqrt{T})$recretry。}}
尾注
%0会议论文%随机线性带中免费利用初始提示的T%阿肖克·卡特科斯基%克里斯·丹恩%一个Abhimanyu Das%张秋怡%第33届算法学习理论国际会议论文集%C机器学习研究进展%D 2022年%E桑乔伊·达斯古普塔%尼卡·哈塔拉布%传真:pmlr-v167-cutkosky22a%I项目经理%电话282--318%U型https://proceedings.mlr.press/v167/cutkosky22a.html%伏167%X我们通过强盗反馈来研究优化设置,并以最佳操作的初始提示的形式向学习者提供额外的先验知识。我们提出了一种新的随机线性盗贼算法,该算法使用该提示在提示准确时将其遗憾提高到$\tildeO(\sqrt{T})$,同时保持与提示质量无关的最小最优$\tilde O(d\sqrt{T})$recretry。此外,我们还提供了最佳情况和最坏情况遗憾之间的帕累托边界,以及匹配的下限。也许令人惊讶的是,我们的工作表明,利用提示可以在不牺牲最坏性能的情况下获得可证明的收益,这意味着我们的算法可以免费适应提示的质量。我们还将我们的算法扩展到$m$初始提示的情况,表明我们可以实现$\tildeO(m^{2/3}\sqrt{T})$recretry。
亚太地区
Cutkosky,A.、Dann,C.、Das,A.和Zhang,Q.(2022)。利用随机线性盗贼中的免费初始提示。第33届算法学习理论国际会议论文集,英寸机器学习研究进展167:282-318网址:https://proceedings.mlr.press/v167/cutkosky22a.html。

相关材料