非随机Bandits中的延迟与合作

尼科尔·塞萨·比安奇、克劳迪奥·金蒂莱、伊莎·曼苏尔。

年份:2019年,数量:20,版本:17,页码:1−38


摘要

我们研究通信学习代理网络,这些代理协作解决一个常见的非随机盗贼问题。代理使用底层通信网络获取有关其他代理选择的操作的消息,并删除到达时间超过$d$个跃点的消息,其中$d$是延迟参数。我们引入Exp3-Coop,Exp3算法的一个合作版本,并证明了对于$K$动作和$N$代理,$T$轮后每个代理的平均后悔最多为$\sqrt{\bigl(d+1+\tfrac{K}{N}\alpha_{led}\bigr)(T\ln K)}$,其中$\alpha{\led}$是通信图$G$的$d$次幂的独立数。然后,我们证明了对于任何连通图,对于$d=\sqrt{K}$,后悔界是$K^{1/4}\sqrt{T}$,严格好于非合作代理的最小最大后悔$\sqrt{KT}$。更明智的$d$选择会导致任意接近完全信息minimax的界限,当$G$稠密时,$\sqrt{T\ln K}$会后悔。当$G$具有稀疏组件时,我们表明Exp3-Coop的变体允许代理根据其在$G$中的中心性选择其参数,从而严格改善了遗憾。最后,作为我们分析的副产品,我们提供了延迟强盗学习的极小极大遗憾的第一个特征。

PDF格式 BibTeX公司