Delay and Cooperation in Nonstochastic Bandits

Nicolò Cesa-Bianchi; Claudio Gentile; Yishay Mansour

我们研究通信学习代理网络，这些代理协作解决一个常见的非随机盗贼问题。代理使用底层通信网络获取有关其他代理选择的操作的消息，并删除到达时间超过$d$个跃点的消息，其中$d$是延迟参数。我们引入Exp3-Coop，Exp3算法的一个合作版本，并证明了对于$K$动作和$N$代理，$T$轮后每个代理的平均后悔最多为$\sqrt{\bigl（d+1+\tfrac{K}{N}\alpha_{led}\bigr）（T\ln K）}$，其中$\alpha{\led}$是通信图$G$的$d$次幂的独立数。然后，我们证明了对于任何连通图，对于$d=\sqrt｛K｝$，后悔界是$K^｛1/4｝\sqrt｛T｝$，严格好于非合作代理的最小最大后悔$\sqrt｛KT｝$。更明智的$d$选择会导致任意接近完全信息minimax的界限，当$G$稠密时，$\sqrt{T\ln K}$会后悔。当$G$具有稀疏组件时，我们表明Exp3-Coop的变体允许代理根据其在$G$中的中心性选择其参数，从而严格改善了遗憾。最后，作为我们分析的副产品，我们提供了延迟强盗学习的极小极大遗憾的第一个特征。

非随机Bandits中的延迟与合作

摘要