塞巴斯蒂安·布贝克;尼科尔·塞萨·比安奇 随机和非随机多武器盗贼问题的遗憾分析。 (英语) Zbl 1281.91051号 已找到。趋势马赫数。学习。 5,第1期,1-122(2012). 摘要:多武器盗贼问题是具有勘探与开发权衡的序贯决策问题的最基本示例。这是在保留过去获得最高回报的选项和探索未来可能获得更高回报的新选项之间的平衡。虽然对盗贼问题的研究可以追溯到20世纪30年代,但在一些现代应用程序中,如广告放置、网站优化和数据包路由,都出现了探索-开发权衡。从数学上讲,多武器匪徒是由与每个选项相关的支付过程定义的。在这本专著中,我们关注两个极端的案例,在这两个案例中,对后悔的分析特别简单和优雅:身份证支付和对抗支付。除了有限多个动作的基本设置之外,我们还分析了一些最重要的变体和扩展,例如上下文强盗模型。 引用于171文件 MSC公司: 91A60型 概率博弈;赌博 91A26型 博弈论中的理性与学习 91A35型 博弈决策理论 91-02 与博弈论、经济学和金融相关的研究博览会(专著、调查文章) 62升05 顺序统计设计 62C20个 统计决策理论中的Minimax过程 90立方厘米 马尔可夫和半马尔可夫决策过程 68T05年 人工智能中的学习和自适应系统 关键词:学习和统计方法;游戏理论学习;在线学习;优化;强化学习 PDF格式BibTeX公司 XML格式引用 \textit{S.Bubeck}和\textit{N.Cesa-Bianchi},已找到。趋势马赫数。学习。5,第1号,1--122(2012;Zbl 1281.91051) 全文: DOI程序 arXiv公司