主页

论文

提交文件

新闻

编辑委员会

开源软件

程序(PMLR)

交易(TMLR)

搜索

统计

登录

常见问题

联系我们



RSS源

组合多武器匪徒及其对概率触发武器的扩展

魏晨、王亚军、杨元、王勤士; 17(50):1−33, 2016.

摘要

我们定义了一大类组合多臂盗贼(CMAB)问题的一般框架,其中具有未知分布的基本武器子集形成超级武器。在每一轮中,都会玩一个超级手臂,并且会玩超级手臂中包含的基本手臂,并观察其结果。我们进一步考虑根据已触发武器的结果,可能触发更多基础武器的扩展。超级手臂的奖励取决于所有玩过的手臂的结果,它只需要满足两个温和的假设,这允许一大类非线性奖励实例。我们假设有一个离线的$(\alpha,\beta)$-近似预言机可用,该预言机采用武器结果分布的平均值,并输出一个超级武器,该超级武器以$\beta$的概率生成最优预期报酬的$\alpha$部分。CMAB在线学习算法的目标是最小化$(\alpha,\beta)$-近似遗憾,这是始终玩最优超级武器时预期报酬的$\alpha\beta$部分与根据算法玩超级武器时的预期报酬之间的总预期报酬之差。我们提供了实现$O(\log n)$distribution-dependent遗憾的CUCB算法,其中$n$是播放的轮数,并且我们进一步为一大类奖励函数提供了与分配无关的边界。我们的遗憾分析是严密的,因为它与经典MAB问题的UCB1算法的界(直到一个常数因子)相匹配,并且它显著改进了早期关于线性奖励组合盗贼的论文中的遗憾界。我们将CMAB框架应用于两个新的应用程序,即在线广告的概率最大覆盖率(PMC)和病毒营销的社会影响最大化,这两个应用程序都具有非线性奖励结构。特别是,社会影响力最大化的应用需要我们对概率触发武器进行扩展。

[腹肌][pdf格式][围兜]      
©JMLR公司2016(编辑,贝塔)