Combinatorial Multi-Armed Bandit and Its Extension to Probabilistically Triggered Arms

Wei Chen; Yajun Wang; Yang Yuan; Qinshi Wang

我们定义了一大类组合多臂盗贼（CMAB）问题的一般框架，其中具有未知分布的基本武器子集形成超级武器。在每一轮中，都会玩一个超级手臂，并且会玩超级手臂中包含的基本手臂，并观察其结果。我们进一步考虑根据已触发武器的结果，可能触发更多基础武器的扩展。超级手臂的奖励取决于所有玩过的手臂的结果，它只需要满足两个温和的假设，这允许一大类非线性奖励实例。我们假设有一个离线的$（\alpha，\beta）$-近似预言机可用，该预言机采用武器结果分布的平均值，并输出一个超级武器，该超级武器以$\beta$的概率生成最优预期报酬的$\alpha$部分。CMAB在线学习算法的目标是最小化$（\alpha，\beta）$-近似遗憾，这是始终玩最优超级武器时预期报酬的$\alpha\beta$部分与根据算法玩超级武器时的预期报酬之间的总预期报酬之差。我们提供了实现$O（\log n）$distribution-dependent遗憾的CUCB算法，其中$n$是播放的轮数，并且我们进一步为一大类奖励函数提供了与分配无关的边界。我们的遗憾分析是严密的，因为它与经典MAB问题的UCB1算法的界（直到一个常数因子）相匹配，并且它显著改进了早期关于线性奖励组合盗贼的论文中的遗憾界。我们将CMAB框架应用于两个新的应用程序，即在线广告的概率最大覆盖率（PMC）和病毒营销的社会影响最大化，这两个应用程序都具有非线性奖励结构。特别是，社会影响力最大化的应用需要我们对概率触发武器进行扩展。

组合多武器匪徒及其对概率触发武器的扩展

摘要