MULTI-ARMED BANDITS UNDER GENERAL DEPRECIATION AND COMMITMENT

Wesley Cowan; Michael N. Katehakis

doi:10.1017/S0269964814000217

一般折旧和承诺下的多风险银行

剑桥大学出版社在线出版：2014年10月10日

韦斯利·考恩和

迈克尔·凯特哈基斯（Michael N.Katehakis）

显示作者详细信息

韦斯利·考恩: 附属：
罗格斯大学数学系，地址：110 Frelinghuysen Road，Piscataway，NJ 08854，USA E-mail:cwcowan@mah.rutgers.edu
迈克尔·凯特哈基斯（Michael N.Katehakis）: 附属：
美国新泽西州皮斯卡塔韦罗卡费勒路100号纽瓦克和新不伦瑞克罗格斯商学院管理科学和信息系统系08854电子邮箱：mnk@rutgers.edu

文章内容

权限和权限

摘要

核心共享和HTML视图不适用于此内容。但是，由于您有权访问此内容，可以通过“保存PDF”操作按钮获得完整的PDF。

一般来说，对多臂机器人的研究是在这样的背景下进行的，即在无限时间范围内的每一个时间步长，控制器选择在单个周期内激活一个独立过程的有限集合（统计实验、种群等）中的单个过程或强盗，获得奖励，这是激活过程的一个功能，并在这样做的过程中推进所选的过程。经典的做法是，每轮奖励以常数因子β∈（0，1）进行折扣。

在本文中，我们提出了一个问题的解决方案，该问题具有潜在的非马尔可夫、不可计数的状态空间奖励过程，在该框架下，首先，折扣因子可能是不均匀的并且随着时间的推移而变化，其次，每个强盗的激活周期可能不是固定的或均匀的，相反，在更改为另一个强盗之前，可能会有一个随机的激活持续时间。该解决方案基于广义状态重启指数，并将问题视为“基于状态空间的决策”，而是“基于时间的决策”。

类型: 研究文章
问询处: 工程和信息科学中的概率 ,第29卷 ,第1期 2015年1月日，第51-76页

内政部：https://doi.org/10.1017/S0269964814000217 [在新窗口中打开]
版权: 版权所有©剑桥大学出版社2014

工具书类

1阿尔托,美国。,阿耶斯塔,美国。&正义者,R。(2011).Gittins指数的性质及其在最优调度中的应用.工程和信息科学中的概率 25:269——288.谷歌学者

2阿格蒙,N。,克劳斯,美国。&卡明卡,通用电气公司。(2008). 在对抗环境中进行多机器人周边巡逻。在2008年IEEE机器人与自动化国际会议（ICRA 2008），第页。2339——2345加利福尼亚州帕萨迪纳：IEEE。谷歌学者

三。阿格拉瓦尔,R（右）,对冲,M。&特内克奇斯,D。(1990).具有多重播放和切换成本的多武器盗贼问题.随机与随机报告 29:437——459.谷歌学者

4贝塞卡斯,D.P.公司。(2011).动态规划和最优控制，卷。二,第3版。马萨诸塞州贝尔蒙特:雅典娜科技.谷歌学者

5布贝克,美国。&塞萨·比安奇,N。(2012). 随机和非随机多武器盗贼问题的遗憾分析。arXiv:1204.5721.交叉参考谷歌学者

6伯内塔斯,A.N.公司。&Katehakis公司,制造商编号。(1997).马尔可夫决策过程的最优自适应策略.运筹学数学 22:222——255.谷歌学者

7伯内塔斯,A.N.公司。&Katehakis公司,制造商编号。(2002).有限水平单臂盗贼问题的渐近Bayes分析.工程与信息科学中的概率 17:157——161.谷歌学者

8伯内塔斯,A.N.公司。&Katehakis公司,制造商编号。(1996).序列分配问题的最优自适应策略.应用数学进展 17:122——142.谷歌学者

9卡罗,F、。&哟,O.S.公司。(2010).具有响应延迟的土匪问题的可索引性.工程和信息科学中的概率 24:349——374.谷歌学者

10张,F、。&赖,T.L.公司。(1987).最优停车和动态分配.应用概率的进展 19:829–53.交叉参考谷歌学者

11钟,K.L.公司。(1982).从马尔可夫过程到布朗运动的讲座.柏林:Springer-Verlag公司.谷歌学者

12德纳多,电动汽车。,范伯格,E.A.公司。&罗斯布卢姆,U.G.公司。(2013).多武器强盗，有约束.英寸卡特哈基斯,制造商编号。,罗斯,S.M.公司。、和杨,J。，（编辑），赛勒斯·德曼纪念卷一：不确定性下的优化：成本、风险和收入《运筹学年鉴》，纽约州纽约市:施普林格.谷歌学者

13德曼,C、。&麻袋,J。(1960).更换定期检查的设备（最佳可选停止规则）.海军研究后勤季刊 7:597——607.谷歌学者

14埃尔卡鲁伊,N。&卡拉茨,一、。(1993).离散时间中的一般Gittins索引过程.美国国家科学院院刊 90:1232——1236.谷歌学者

15费尔南德斯·高查兰,E.公司。,阿拉珀塔提斯,答：。&马库斯,S.I.公司。(1993).部分可观测受控马尔可夫链的自适应控制方案分析.IEEE自动控制汇刊 38:987——993.谷歌学者

16菲律宾,美国。,卡佩,O。&加里维尔,答：。(2010). 强化学习中的乐观主义和Kullback–Leibler分歧。在2010年第48届Allerton通信、控制和计算年会，第页。115——122伊利诺伊州蒙蒂塞洛：IEEE。谷歌学者

17打火石,M。,费尔南德斯,E.公司。&凯尔顿,W.D.公司。(2009).基于近似动态规划的无人机搜索算法设计仿真分析.军事运筹学 14:41——50.谷歌学者

18傅若斯蒂,E.公司。&韦斯,G.公司。(2014).Gittins多臂盗贼定理的四种证明.英寸Katehakis公司,制造商编号。,罗斯,S.M.公司。、和杨,J。，（编辑），赛勒斯·德曼纪念卷II：不确定性下的优化：成本、风险和收入《运筹学年鉴》，纽约州纽约市:施普林格.谷歌学者

19吉廷斯,J.C.公司。,格拉泽布鲁克,K.D.公司。&韦伯,钢筋。(2011).多武器匪徒配置指数.英国西苏塞克斯:威利.谷歌学者

20吉廷斯,J.C.公司。&琼斯,D.M.公司。(1974).实验序列设计的动态分配指标.英寸加尼,J。，（编辑），统计方面的进展，第页。241–66,荷兰阿姆斯特丹:出版社1972年在布达佩斯举行的欧洲统计学家会议上宣读。谷歌学者

21吉廷斯,J.C.公司。(1979).Bandit进程和动态分配指数（含讨论）.英国皇家统计学会杂志B辑 41:335——340.谷歌学者

22吉廷斯,J.C.公司。(1989).多武器匪徒配置指数.奇切斯特:威利.谷歌学者

23格雷兹布鲁克,K.D.公司。,霍奇,D.J.公司。&柯克布里德,C、。(2011).排队控制和资产管理的可索引性的一般概念.应用概率年鉴 21:876——907.谷歌学者

24格拉泽布鲁克,K.D.公司。,柯克布里德,C、。,米切尔,H.M.公司。,盖弗,D.P.公司。&雅各布斯,每年。(2007).解决问题的索引策略.运筹学 55:769——781.谷歌学者

25戈文达拉朱鲁,Z.公司。&Katehakis公司,制造商编号。(1991).调查抽样中的动态分配.美国数学与管理科学杂志 11:199–199.谷歌学者

26本田,J。&武村,答：。(2010).有界支持模型的渐近最优土匪算法.英寸COLT公司，第页。67——79.谷歌学者

27石岛,T。&瓦莱亚,第页。(1994).重提多武器匪徒问题.最优化理论与应用杂志 83:113——154.谷歌学者

28卡斯皮,H。&曼德尔鲍姆,答：。(1998).离散和连续时间内的多武器匪徒.应用概率年鉴 8:1270——1290.交叉参考谷歌学者

29Katehakis公司,制造商编号。&德曼,C、。(1986).临床试验中最优序贯分配规则的计算.课堂讲稿-专题系列,8:29——39.交叉参考谷歌学者

30Katehakis公司,制造商编号。&罗斯布卢姆,U.G.公司。(1996).有限状态多臂盗贼问题：灵敏度折扣、平均报酬和平均超车最优.应用概率年鉴 6:1024——1034.谷歌学者

31Katehakis公司,制造商编号。,奥尔金,一、。,罗斯,S.M.公司。&杨,J。(2013).论赛勒斯·德曼的生活和工作.运筹学年鉴,208:1——22.谷歌学者

32Katehakis公司,制造商编号。&罗宾斯,H。(1995).从几个群体中进行顺序选择.美国国家科学院院刊 92:8584——8585.谷歌学者

33Katehakis公司,制造商编号。&维诺特,空军。(1987).多武器盗贼问题：分解与计算.运筹学数学 12:262——268.谷歌学者

34赖,L。,El Gamal公司,H。,江,H。&可怜的,V.H.公司。(2008). 认知无线电网络的最佳媒体访问协议。在第六届移动、特设和无线网络建模与优化国际研讨会及研讨会.谷歌学者

35赖,T.L.公司。&罗宾斯,H。(1985).渐进有效的自适应分配规则.应用数学进展 6:4——22.交叉参考谷歌学者

36线路接口单元,英国。,赵,问：。&克里希纳马查里,B。(2010).具有不完全信道状态检测的动态多信道接入.IEEE信号处理汇刊 58:2795——2808.谷歌学者

37马哈詹,答：。&特内克奇斯,D。(2008).多武器匪徒问题.英寸英雄,A.O.公司。三,卡斯塔农,D.A.公司。,科克伦,D。、和卡斯特拉,英国。（编辑），传感器管理的基础与应用，第页。121——151,纽约州纽约市:施普林格.谷歌学者

38尼诺-莫拉,J。(2006).不安分的强盗边际生产率指数、递减的回报和按订单/按库存生产的最优控制M（M）/G公司/1个队列.运筹学的数学方法 31:50——84.谷歌学者

39奥克萨南,J。,科维恩,五、。&可怜的,高压。(2012). 基于置信界限和不安多臂强盗模型的感知策略。在2012年第四十六届信号、系统和计算机Asilomar会议（Asilomar）会议记录，第页。318——323,加利福尼亚州太平洋格罗夫:电气与电子工程师协会.谷歌学者

40奥尔特纳,第页。&奥尔,R。(2007). 未折现强化学习的对数在线遗憾界限。在2006年神经信息处理系统进展会议记录19，第19卷，第49页，不列颠哥伦比亚省温哥华:麻省理工学院出版社.谷歌学者

41欧阳,年。&特内克奇斯,D。(2013). 关于多状态通道中近视感知的最优性。arXiv公司：1305.6993.谷歌学者

42斯内尔,法学博士。(1952)鞅系统定理的应用.美国数学学会会刊 73:293——312.谷歌学者

43索宁,国际货币基金组织。(2008). 马尔可夫链的广义Gittins指数及其递推计算。统计与概率信件 78:1526——1533.谷歌学者

44索宁,国际货币基金组织。(2011).马尔可夫链的最优停止与三个抽象优化问题.斯多葛学派 83:405——414.谷歌学者

45斯坦伯格,C、。&索宁,一、。(2014).继续、退出、重新启动概率模型.英寸Katehakis公司,制造商编号。,罗斯,S.M.公司。、和杨,J。（编辑），赛勒斯·德曼纪念卷II：不确定性下的优化：成本、风险和收入《运筹学年鉴》，施普林格.谷歌学者

46苏,H。,邱,M。&王,H。(2012).可充电电动汽车智能电网安全无线通信系统.IEEE通讯杂志 50:62——68.谷歌学者

47泰金,C、。&线路接口单元,M。(2011). 不受控制的不安盗贼问题中的最优自适应学习。arXiv:1107.4042.谷歌学者

48蒂瓦里,答：。&巴特利特,P.L.公司。(2007).乐观线性规划对不可约MDP给出对数遗憾.英寸普拉特,J.C.公司。,科勒,D。,歌手,年。和罗韦斯,S.T.公司。（编辑），神经信息处理系统研究进展，第页。1505——1512.谷歌学者

49齐齐克利斯,J.N.公司。(1994).Gittins指数定理的一个简短证明.应用概率年鉴,27:194——199.谷歌学者

50瓦莱亚,第页。,瓦尔朗,J。&Buyukkoc公司,C、。(1985).多武装匪徒问题的扩展：折扣案例.IEEE自动控制汇刊,30:426——439.谷歌学者

51韦伯,钢筋。(1992).关于多武装匪徒的Gittins指数.应用概率年鉴 1024——1033.谷歌学者

52韦伯,钢筋。&韦斯,G.公司。(1990).关于不安分土匪的指数政策.应用概率杂志 637——648.谷歌学者

文章内容

一般折旧和承诺下的多风险银行

摘要

工具书类

将文章保存到Kindle

将文章保存到Dropbox

将文章保存到Google Drive

答复： 提交响应

您的详细信息

您已输入最大贡献者数

利益冲突

答复：提交响应