主机名:page-component-848d4c4894-4rdrl总加载时间:0渲染日期:2024-06-14T02:31:21.312Z有数据问题:falsehasContentIssue为false

一般折旧和承诺下的多风险银行

剑桥大学出版社在线出版:2014年10月10日

韦斯利·考恩
附属:
罗格斯大学数学系,地址:110 Frelinghuysen Road,Piscataway,NJ 08854,USA E-mail:cwcowan@mah.rutgers.edu
迈克尔·凯特哈基斯(Michael N.Katehakis)
附属:
美国新泽西州皮斯卡塔韦罗卡费勒路100号纽瓦克和新不伦瑞克罗格斯商学院管理科学和信息系统系08854电子邮箱:mnk@rutgers.edu
权限和权限 [在新窗口中打开]

摘要

核心共享和HTML视图不适用于此内容。但是,由于您有权访问此内容,可以通过“保存PDF”操作按钮获得完整的PDF。

一般来说,对多臂机器人的研究是在这样的背景下进行的,即在无限时间范围内的每一个时间步长,控制器选择在单个周期内激活一个独立过程的有限集合(统计实验、种群等)中的单个过程或强盗,获得奖励,这是激活过程的一个功能,并在这样做的过程中推进所选的过程。经典的做法是,每轮奖励以常数因子β∈(0,1)进行折扣。

在本文中,我们提出了一个问题的解决方案,该问题具有潜在的非马尔可夫、不可计数的状态空间奖励过程,在该框架下,首先,折扣因子可能是不均匀的并且随着时间的推移而变化,其次,每个强盗的激活周期可能不是固定的或均匀的,相反,在更改为另一个强盗之前,可能会有一个随机的激活持续时间。该解决方案基于广义状态重启指数,并将问题视为“基于状态空间的决策”,而是“基于时间的决策”。

类型
研究文章
版权
版权所有©剑桥大学出版社2014

工具书类

1阿尔托,美国。,阿耶斯塔,美国。&正义者,R。(2011).Gittins指数的性质及其在最优调度中的应用.工程和信息科学中的概率 25:269——288.谷歌学者
2阿格蒙,N。,克劳斯,美国。&卡明卡,通用电气公司。(2008). 在对抗环境中进行多机器人周边巡逻。2008年IEEE机器人与自动化国际会议(ICRA 2008),第页。2339——2345加利福尼亚州帕萨迪纳:IEEE。谷歌学者
三。阿格拉瓦尔,R(右),对冲,M。&特内克奇斯,D。(1990).具有多重播放和切换成本的多武器盗贼问题.随机与随机报告 29:437——459.谷歌学者
4贝塞卡斯,D.P.公司。(2011).动态规划和最优控制,卷。,第3版。马萨诸塞州贝尔蒙特:雅典娜科技.谷歌学者
5布贝克,美国。&塞萨·比安奇,N。(2012). 随机和非随机多武器盗贼问题的遗憾分析。arXiv:1204.5721.交叉参考谷歌学者
6伯内塔斯,A.N.公司。&Katehakis公司,制造商编号。(1997).马尔可夫决策过程的最优自适应策略.运筹学数学 22:222——255.谷歌学者
7伯内塔斯,A.N.公司。&Katehakis公司,制造商编号。(2002).有限水平单臂盗贼问题的渐近Bayes分析.工程与信息科学中的概率 17:157——161.谷歌学者
8伯内塔斯,A.N.公司。&Katehakis公司,制造商编号。(1996).序列分配问题的最优自适应策略.应用数学进展 17:122——142.谷歌学者
9卡罗,F、。&,O.S.公司。(2010).具有响应延迟的土匪问题的可索引性.工程和信息科学中的概率 24:349——374.谷歌学者
10,F、。&,T.L.公司。(1987).最优停车和动态分配.应用概率的进展 19:829–53.交叉参考谷歌学者
11,K.L.公司。(1982).从马尔可夫过程到布朗运动的讲座.柏林:Springer-Verlag公司.谷歌学者
12德纳多,电动汽车。,范伯格,E.A.公司。&罗斯布卢姆,U.G.公司。(2013).多武器强盗,有约束.英寸卡特哈基斯,制造商编号。,罗斯,S.M.公司。、和,J。,(编辑),赛勒斯·德曼纪念卷一:不确定性下的优化:成本、风险和收入《运筹学年鉴》,纽约州纽约市:施普林格.谷歌学者
13德曼,C、。&麻袋,J。(1960).更换定期检查的设备(最佳可选停止规则).海军研究后勤季刊 7:597——607.谷歌学者
14埃尔卡鲁伊,N。&卡拉茨,一、。(1993).离散时间中的一般Gittins索引过程.美国国家科学院院刊 90:1232——1236.谷歌学者
15费尔南德斯·高查兰,E.公司。,阿拉珀塔提斯,答:。&马库斯,S.I.公司。(1993).部分可观测受控马尔可夫链的自适应控制方案分析.IEEE自动控制汇刊 38:987——993.谷歌学者
16菲律宾,美国。,卡佩,O。&加里维尔,答:。(2010). 强化学习中的乐观主义和Kullback–Leibler分歧。2010年第48届Allerton通信、控制和计算年会,第页。115——122伊利诺伊州蒙蒂塞洛:IEEE。谷歌学者
17打火石,M。,费尔南德斯,E.公司。&凯尔顿,W.D.公司。(2009).基于近似动态规划的无人机搜索算法设计仿真分析.军事运筹学 14:41——50.谷歌学者
18傅若斯蒂,E.公司。&韦斯,G.公司。(2014).Gittins多臂盗贼定理的四种证明.英寸Katehakis公司,制造商编号。,罗斯,S.M.公司。、和,J。,(编辑),赛勒斯·德曼纪念卷II:不确定性下的优化:成本、风险和收入《运筹学年鉴》,纽约州纽约市:施普林格.谷歌学者
19吉廷斯,J.C.公司。,格拉泽布鲁克,K.D.公司。&韦伯,钢筋。(2011).多武器匪徒配置指数.英国西苏塞克斯:威利.谷歌学者
20吉廷斯,J.C.公司。&琼斯,D.M.公司。(1974).实验序列设计的动态分配指标.英寸加尼,J。,(编辑),统计方面的进展,第页。241–66,荷兰阿姆斯特丹:出版社1972年在布达佩斯举行的欧洲统计学家会议上宣读。谷歌学者
21吉廷斯,J.C.公司。(1979).Bandit进程和动态分配指数(含讨论).英国皇家统计学会杂志B辑 41:335——340.谷歌学者
22吉廷斯,J.C.公司。(1989).多武器匪徒配置指数.奇切斯特:威利.谷歌学者
23格雷兹布鲁克,K.D.公司。,霍奇,D.J.公司。&柯克布里德,C、。(2011).排队控制和资产管理的可索引性的一般概念.应用概率年鉴 21:876——907.谷歌学者
24格拉泽布鲁克,K.D.公司。,柯克布里德,C、。,米切尔,H.M.公司。,盖弗,D.P.公司。&雅各布斯,每年。(2007).解决问题的索引策略.运筹学 55:769——781.谷歌学者
25戈文达拉朱鲁,Z.公司。&Katehakis公司,制造商编号。(1991).调查抽样中的动态分配.美国数学与管理科学杂志 11:199–199.谷歌学者
26本田,J。&武村,答:。(2010).有界支持模型的渐近最优土匪算法.英寸COLT公司,第页。67——79.谷歌学者
27石岛,T。&瓦莱亚,第页。(1994).重提多武器匪徒问题.最优化理论与应用杂志 83:113——154.谷歌学者
28卡斯皮,H。&曼德尔鲍姆,答:。(1998).离散和连续时间内的多武器匪徒.应用概率年鉴 8:1270——1290.交叉参考谷歌学者
29Katehakis公司,制造商编号。&德曼,C、。(1986).临床试验中最优序贯分配规则的计算.课堂讲稿-专题系列,8:29——39.交叉参考谷歌学者
30Katehakis公司,制造商编号。&罗斯布卢姆,U.G.公司。(1996).有限状态多臂盗贼问题:灵敏度折扣、平均报酬和平均超车最优.应用概率年鉴 6:1024——1034.谷歌学者
31Katehakis公司,制造商编号。,奥尔金,一、。,罗斯,S.M.公司。&,J。(2013).论赛勒斯·德曼的生活和工作.运筹学年鉴,208:1——22.谷歌学者
32Katehakis公司,制造商编号。&罗宾斯,H。(1995).从几个群体中进行顺序选择.美国国家科学院院刊 92:8584——8585.谷歌学者
33Katehakis公司,制造商编号。&维诺特,空军。(1987).多武器盗贼问题:分解与计算.运筹学数学 12:262——268.谷歌学者
34,L。,El Gamal公司,H。,,H。&可怜的,V.H.公司。(2008). 认知无线电网络的最佳媒体访问协议。第六届移动、特设和无线网络建模与优化国际研讨会及研讨会.谷歌学者
35,T.L.公司。&罗宾斯,H。(1985).渐进有效的自适应分配规则.应用数学进展 6:4——22.交叉参考谷歌学者
36线路接口单元,英国。,,问:。&克里希纳马查里,B。(2010).具有不完全信道状态检测的动态多信道接入.IEEE信号处理汇刊 58:2795——2808.谷歌学者
37马哈詹,答:。&特内克奇斯,D。(2008).多武器匪徒问题.英寸英雄,A.O.公司。 ,卡斯塔农,D.A.公司。,科克伦,D。、和卡斯特拉,英国。(编辑),传感器管理的基础与应用,第页。121——151,纽约州纽约市:施普林格.谷歌学者
38尼诺-莫拉,J。(2006).不安分的强盗边际生产率指数、递减的回报和按订单/按库存生产的最优控制M(M)/G公司/1个队列.运筹学的数学方法 31:50——84.谷歌学者
39奥克萨南,J。,科维恩,五、。&可怜的,高压。(2012). 基于置信界限和不安多臂强盗模型的感知策略。2012年第四十六届信号、系统和计算机Asilomar会议(Asilomar)会议记录,第页。318——323,加利福尼亚州太平洋格罗夫:电气与电子工程师协会.谷歌学者
40奥尔特纳,第页。&奥尔,R。(2007). 未折现强化学习的对数在线遗憾界限。2006年神经信息处理系统进展会议记录19,第19卷,第49页,不列颠哥伦比亚省温哥华:麻省理工学院出版社.谷歌学者
41欧阳,年。&特内克奇斯,D。(2013). 关于多状态通道中近视感知的最优性。arXiv公司:1305.6993.谷歌学者
42斯内尔,法学博士。(1952)鞅系统定理的应用.美国数学学会会刊 73:293——312.谷歌学者
43索宁,国际货币基金组织。(2008). 马尔可夫链的广义Gittins指数及其递推计算。统计与概率信件 78:1526——1533.谷歌学者
44索宁,国际货币基金组织。(2011).马尔可夫链的最优停止与三个抽象优化问题.斯多葛学派 83:405——414.谷歌学者
45斯坦伯格,C、。&索宁,一、。(2014).继续、退出、重新启动概率模型.英寸Katehakis公司,制造商编号。,罗斯,S.M.公司。、和,J。(编辑),赛勒斯·德曼纪念卷II:不确定性下的优化:成本、风险和收入《运筹学年鉴》,施普林格.谷歌学者
46,H。,,M。&,H。(2012).可充电电动汽车智能电网安全无线通信系统.IEEE通讯杂志 50:62——68.谷歌学者
47泰金,C、。&线路接口单元,M。(2011). 不受控制的不安盗贼问题中的最优自适应学习。arXiv:1107.4042.谷歌学者
48蒂瓦里,答:。&巴特利特,P.L.公司。(2007).乐观线性规划对不可约MDP给出对数遗憾.英寸普拉特,J.C.公司。,科勒,D。,歌手,年。罗韦斯,S.T.公司。(编辑),神经信息处理系统研究进展,第页。1505——1512.谷歌学者
49齐齐克利斯,J.N.公司。(1994).Gittins指数定理的一个简短证明.应用概率年鉴,27:194——199.谷歌学者
50瓦莱亚,第页。,瓦尔朗,J。&Buyukkoc公司,C、。(1985).多武装匪徒问题的扩展:折扣案例.IEEE自动控制汇刊,30:426——439.谷歌学者
51韦伯,钢筋。(1992).关于多武装匪徒的Gittins指数.应用概率年鉴 1024——1033.谷歌学者
52韦伯,钢筋。&韦斯,G.公司。(1990).关于不安分土匪的指数政策.应用概率杂志 637——648.谷歌学者