×

随机和非随机多武器盗贼问题的遗憾分析。 (英语) Zbl 1281.91051号

摘要:多武器盗贼问题是具有勘探与开发权衡的序贯决策问题的最基本示例。这是在保留过去获得最高回报的选项和探索未来可能获得更高回报的新选项之间的平衡。虽然对盗贼问题的研究可以追溯到20世纪30年代,但在一些现代应用程序中,如广告放置、网站优化和数据包路由,都出现了探索-开发权衡。从数学上讲,多武器匪徒是由与每个选项相关的支付过程定义的。在这本专著中,我们关注两个极端的案例,在这两个案例中,对后悔的分析特别简单和优雅:身份证支付和对抗支付。除了有限多个动作的基本设置之外,我们还分析了一些最重要的变体和扩展,例如上下文强盗模型。

MSC公司:

91A60型 概率博弈;赌博
91A26型 博弈论中的理性与学习
91A35型 博弈决策理论
91-02 与博弈论、经济学和金融相关的研究博览会(专著、调查文章)
62升05 顺序统计设计
62C20个 统计决策理论中的Minimax过程
90立方厘米 马尔可夫和半马尔可夫决策过程
68T05年 人工智能中的学习和自适应系统
PDF格式BibTeX公司 XML格式引用