Leveraging Initial Hints for Free in Stochastic Linear Bandits

Ashok Cutkosky; Chris Dann; Abhimanyu Das; Qiuyi Zhang

在随机线性带宽中利用免费的初始提示

Ashok Cutkosky、Chris Dann、Abhimanyu Das、Qiuyi Zhang

第33届算法学习理论国际会议论文集，PMLR 167:282-31822022年。

摘要

我们使用强盗反馈研究优化设置，并以最佳操作的初始提示的形式向学习者提供额外的先验知识。我们提出了一种新的随机线性盗贼算法，该算法使用该提示在提示准确时将其遗憾提高到$\tildeO（\sqrt{T}）$，同时保持与提示质量无关的最小最优$\tilde O（d\sqrt{T}）$recretry。此外，我们还提供了最佳情况和最坏情况遗憾之间的帕累托边界，以及匹配的下限。也许令人惊讶的是，我们的工作表明，利用提示可以在不牺牲最坏性能的情况下获得可证明的收益，这意味着我们的算法可以免费适应提示的质量。我们还将我们的算法扩展到$m$初始提示的情况，表明我们可以实现$\tildeO（m^{2/3}\sqrt{T}）$recretry。

引用本文

BibTeX公司

@会议记录{pmlr-v167-cutkosky22a，title={在随机线性带宽中利用免费的初始提示}，author={Cutkosky、Ashok和Dann、Chris和Das、Abhimanyu和Zhang、Qiuyi}，booktitle={第33届算法学习理论国际会议论文集}，页数={282--318}，年份={2022}，editor={达斯古普塔、桑乔伊和哈格塔拉布、尼卡}，体积={167}，series={机器学习研究论文集}，月份＝{3月29日-4月1日}，publisher={PMLR}，pdf={https://procedures.mlr.press/v167/cutkosky22a/cutkosky 22a.pdf}，url={https://procedures.mlr.press/v167/cutkosky22a.html}，abstract={我们研究了利用强盗反馈进行优化的设置，并以最优行为的初始提示的形式向学习者提供了额外的先验知识。我们提出了一种新的随机线性强盗算法，该算法使用该提示，当提示准确时，将其遗憾提高到$\tildeO（\sqrt{T}）$，同时保持与提示质量无关的最小最优$\tildeO（d\sqrt{T}）$recretry。此外，我们还提供了最佳情况和最坏情况遗憾之间的帕累托边界，以及匹配的下限。也许令人惊讶的是，我们的工作表明，利用提示可以在不牺牲最坏性能的情况下获得可证明的收益，这意味着我们的算法可以免费适应提示的质量。我们还将我们的算法扩展到$m$初始提示的情况，表明我们可以实现$\tildeO（m^{2/3}\sqrt{T}）$recretry。}}

尾注

%0会议论文%随机线性带中免费利用初始提示的T%阿肖克·卡特科斯基%克里斯·丹恩%一个Abhimanyu Das%张秋怡%第33届算法学习理论国际会议论文集%C机器学习研究进展%D 2022年%E桑乔伊·达斯古普塔%尼卡·哈塔拉布%传真：pmlr-v167-cutkosky22a%I项目经理%电话282--318%U型https://proceedings.mlr.press/v167/cutkosky22a.html%伏167%X我们通过强盗反馈来研究优化设置，并以最佳操作的初始提示的形式向学习者提供额外的先验知识。我们提出了一种新的随机线性盗贼算法，该算法使用该提示在提示准确时将其遗憾提高到$\tildeO（\sqrt{T}）$，同时保持与提示质量无关的最小最优$\tilde O（d\sqrt{T}）$recretry。此外，我们还提供了最佳情况和最坏情况遗憾之间的帕累托边界，以及匹配的下限。也许令人惊讶的是，我们的工作表明，利用提示可以在不牺牲最坏性能的情况下获得可证明的收益，这意味着我们的算法可以免费适应提示的质量。我们还将我们的算法扩展到$m$初始提示的情况，表明我们可以实现$\tildeO（m^{2/3}\sqrt{T}）$recretry。

亚太地区

Cutkosky，A.、Dann，C.、Das，A.和Zhang，Q.（2022）。利用随机线性盗贼中的免费初始提示。第33届算法学习理论国际会议论文集，英寸机器学习研究进展167:282-318网址：https://proceedings.mlr.press/v167/cutkosky22a.html。

在随机线性带宽中利用免费的初始提示

摘要

引用本文

相关材料