在随机线性带宽中利用免费的初始提示
Ashok Cutkosky、Chris Dann、Abhimanyu Das、Qiuyi Zhang
第33届算法学习理论国际会议论文集,PMLR 167:282-31822022年。
摘要
我们使用强盗反馈研究优化设置,并以最佳操作的初始提示的形式向学习者提供额外的先验知识。我们提出了一种新的随机线性盗贼算法,该算法使用该提示在提示准确时将其遗憾提高到$\tildeO(\sqrt{T})$,同时保持与提示质量无关的最小最优$\tilde O(d\sqrt{T})$recretry。此外,我们还提供了最佳情况和最坏情况遗憾之间的帕累托边界,以及匹配的下限。也许令人惊讶的是,我们的工作表明,利用提示可以在不牺牲最坏性能的情况下获得可证明的收益,这意味着我们的算法可以免费适应提示的质量。我们还将我们的算法扩展到$m$初始提示的情况,表明我们可以实现$\tildeO(m^{2/3}\sqrt{T})$recretry。
引用本文
相关材料