文件Zbl 1281.91051-zbMATH Open

随机和非随机多武器盗贼问题的遗憾分析。（英语） Zbl 1281.91051号

已找到。趋势马赫数。学习。 5，第1期，1-122（2012）.

摘要：多武器盗贼问题是具有勘探与开发权衡的序贯决策问题的最基本示例。这是在保留过去获得最高回报的选项和探索未来可能获得更高回报的新选项之间的平衡。虽然对盗贼问题的研究可以追溯到20世纪30年代，但在一些现代应用程序中，如广告放置、网站优化和数据包路由，都出现了探索-开发权衡。从数学上讲，多武器匪徒是由与每个选项相关的支付过程定义的。在这本专著中，我们关注两个极端的案例，在这两个案例中，对后悔的分析特别简单和优雅：身份证支付和对抗支付。除了有限多个动作的基本设置之外，我们还分析了一些最重要的变体和扩展，例如上下文强盗模型。

引用于171文件

MSC公司：

91A60型	概率博弈；赌博
91A26型	博弈论中的理性与学习
91A35型	博弈决策理论
91-02	与博弈论、经济学和金融相关的研究博览会（专著、调查文章）
62升05	顺序统计设计
62C20个	统计决策理论中的Minimax过程
90立方厘米	马尔可夫和半马尔可夫决策过程
68T05年	人工智能中的学习和自适应系统

关键词：

学习和统计方法;游戏理论学习;在线学习;优化;强化学习

PDF格式 BibTeX公司 XML格式引用

全文： DOI程序 arXiv公司

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
ab公司	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文档类型(j个：期刊文章；b条：书本；一：图书文章）

一&b条	逻辑和
一\|b条	逻辑或
!ab公司	逻辑不
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	括号

示例

领域

操作员

随机和非随机多武器盗贼问题的遗憾分析。（英语） Zbl 1281.91051号

MSC公司：

关键词：

示例

领域

操作员

随机和非随机多武器盗贼问题的遗憾分析。 （英语） Zbl 1281.91051号

MSC公司：

关键词：

随机和非随机多武器盗贼问题的遗憾分析。（英语） Zbl 1281.91051号