×

非循环赌博游戏。 (英语) Zbl 1455.91036号

摘要:我们考虑了两个参与者的零和随机博弈,其中每个参与者控制居住在紧凑度量空间中的参与者自己的状态变量。这个术语来源于赌博问题,其中玩家的状态代表其在赌场中的财富。在标准假设下(例如,连续支付和非扩张转移),我们考虑每个贴现因子的(λ)贴现随机博弈的值(v_\lambda),并研究当(λ。我们证明,在一个新的非循环条件下,极限存在,并被刻画为一个函数方程组的唯一解:极限是唯一的连续过度和抑制函数,因此,如果玩家的对手不移动,当当前收益至少与极限值相等时,可以到达该区域,而不会降低极限值。该方法从研究双方缺乏信息的零和重复博弈出发,对Mertens-Zamir系统进行了推广,并提供了一个新的观点。反例表明,在稍微弱一些的非循环概念下,(v_\lambda)的收敛可能会失败。

理学硕士:

第91页第15页 随机对策,随机微分对策
91A05型 2人游戏
91A60型 概率博弈;赌博
60克40 停车时间;最优停车问题;赌博理论
90立方厘米 马尔可夫和半马尔可夫决策过程
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] [1] Aliprantis CD,Border K(2006)无限维分析:搭便车指南(斯普林格·弗拉格,柏林,海德堡)。谷歌学者·Zbl 1156.46001号
[2] [2] Aumann R、Maschler M、Stearns R(1995)信息不完全的重复博弈(麻省理工学院出版社,马萨诸塞州剑桥)。谷歌学者·Zbl 0972.91501号
[3] [3] Bewley T,Kohlberg E(1976)随机对策的渐近理论。数学。操作。物件。1(3):197-208.链接,谷歌学者·Zbl 0364.93031号
[4] [4] Bolt J,Gaubert S,Vigeral G(2015)可定义零和随机博弈。数学。操作。物件。40(1):171-191.链接,谷歌学者·Zbl 1312.91012号
[5] [5] Buckdahn R,Quincampoix M,Renault J(2015)关于长期平均最优控制问题的表示公式。J.微分方程259(11):5554-5581.Crossref,谷歌学者·Zbl 1326.49067号 ·doi:10.1016/j.jde.2015.06.039
[6] [6] Dubins L,Savage LJ(1965)随机过程的不等式(麦格劳-希尔)。谷歌学者·Zbl 0133.41402号
[7] [7] Dubins L,Maitra AP,Sudderth WD(2002)不变性赌博问题和马尔可夫决策过程。Feinberg EA,Shwartz A编辑。马尔可夫决策过程手册(纽约施普林格),409-428.Crossref,谷歌学者·Zbl 1014.90112号 ·doi:10.1007/978-1-4615-0805-2_13
[8] [8] Everett H(1957)递归游戏。塔克A、沃尔夫P编辑。对游戏理论的贡献III(普林斯顿大学出版社,新泽西州普林斯顿)。谷歌学者·Zbl 0078.32802号
[9] [9] Flesch J,Schoenmakers G,Vrieze K(2008)产品状态空间上的随机博弈。数学。操作。物件。33(2):403-420.Link,谷歌学者·Zbl 1231.91020号
[10] [10] Gensbittel F,Rainer C(2017)双方信息不完全的零和微分对策值的概率表示。SIAM J.控制优化。55(2):693-723.Crossref,谷歌学者·Zbl 1358.91018号 ·doi:10.1137/16M106217X
[11] [11] Gensbittel F,Renault J(2015)双方缺乏信息的马尔可夫链博弈的价值。数学。操作。物件。40(4):820-841.Link,谷歌学者·兹比尔1330.91030
[12] [12] Kamenica E,Gentzkow M(2011)《贝叶斯说服》。阿默尔。经济。版次。101(6):2590-2615.Crossref,谷歌学者·数字对象标识代码:10.1257/aer.101.6.2590
[13] [13] Koessler F、Laclau L、Tomala T(2018)交互式信息设计。HEC巴黎研究论文编号ECO/SCD-2018-1260,巴黎经济学院,法国巴黎。谷歌学者
[14] [14] Kohlberg E(1974)具有吸收状态的重复博弈。安。统计师。2(4):724-738.Crossref,谷歌学者·Zbl 0297.90114号 ·doi:10.1214/aos/1176342760
[15] [15] Laraki R(2001)《分裂游戏与应用》。国际。J.博弈论30(3):359-376.Crossref,谷歌学者·Zbl 1082.91026号 ·doi:10.1007/s001820100085
[16] [16] Laraki R(2001)变分不等式、函数方程组和不完全信息重复博弈。SIAM J.控制优化。40:516-524.谷歌学者Crossref·Zbl 1003.39025号 ·doi:10.1137/S0363012900366601
[17] [17] Laraki R,Lasserre JB(2008)计算凸包络和凸壳的统一凸近似。J.凸面分析。3:635-654.谷歌学者·Zbl 1153.90011号
[18] [18] Laraki R,Sorin S(2014)《零和动态游戏的进展》。Young HP,Zamir S编辑。博弈论手册IV,第4卷(阿姆斯特丹爱思唯尔出版社),27-93。谷歌学者
[19] [19] Laraki R,Sudderth WD(2004)最优报酬算子对连续性和Lipschitz连续性的保持。数学。操作。物件。29(3):672-685.Link,谷歌学者·Zbl 1082.60035号
[20] [20] Li X,Quincampoix M,Renault J(2016)用一般方法进行最优控制的极限值。离散连续动力系统A36(4):2113-2132.谷歌学者交叉引用·Zbl 1326.93129号 ·doi:10.3934/dcds.2016.36.2113
[21] [21]Maitra A,Sudderth WD(1996)离散赌博与随机博弈(Springer-Verlag,纽约)。Crossref,谷歌学者·兹伯利0864.90148 ·doi:10.1007/978-1-4612-4002-0
[22] [22]Mertens JF(1986)《重复游戏》。Gleason AM编辑程序。国际。国会数学家(美国数学学会,加州伯克利),1528-1577年。谷歌学者
[23] [23]Mertens JF,Zamir S(1971)在双方都缺乏信息的情况下,两人零和重复游戏的价值。国际。J.博弈论1(1):39-64.Crossref,谷歌学者·Zbl 0232.90066号 ·doi:10.1007/BF01753433
[24] [24]Mertens JF,Neyman A,Rosenberg D(2009)《利用紧凑的动作空间吸收游戏》。数学。操作。物件。34(2):257-262.Link,谷歌学者·Zbl 1232.91037号
[25] [25]Mertens JF、Sorin S、Zamir S(2015)重复游戏(英国剑桥大学出版社)。Crossref,谷歌学者·Zbl 1336.91005号 ·doi:10.1017/CBO9781139343275
[26] [26]Oliu-Barton M(2018)分裂博弈:统一价值与最优策略。动态游戏应用程序。8:157-179.Crossref,谷歌学者·Zbl 1390.91040号 ·doi:10.1007/s13235-017-0216-8
[27] [27]雷诺J(2011)动态规划中的统一值。《欧洲数学杂志》。Soc.13(2):309-330.谷歌学者·Zbl 1229.90253号
[28] [28]雷诺J,Venel X(2016)马尔可夫决策过程和重复博弈中的长期值,以及概率空间的新距离。数学。操作。物件。42(2):249-276谷歌学者
[29] [29]Rosenberg D,Sorin S(2001)零和重复博弈的算子方法。以色列J.数学。121(1):221-246.Crossref,谷歌学者·Zbl 1054.91014号 ·doi:10.1007/BF02802505
[30] [30]Schal M(1989)关于随机动态规划:马尔可夫决策过程和赌博之间的桥梁。Langer H,Nolkau V,eds.马尔可夫过程和控制理论,数学研究,第54卷(Akademie-Verlag,柏林),178-216。谷歌学者·Zbl 0693.90076号
[31] [31]Shapley LS(1953)随机游戏。程序。国家。阿卡德。科学。美国39(10):1095-1110.Crossref,谷歌学者·Zbl 0051.35805号 ·doi:10.1073/美国国家统计局.39.10.1953
[32] [32]索林S(2002)关于零和重复博弈的第一堂课(斯普林格·弗拉格,柏林,海德堡)。谷歌学者·Zbl 1005.91019号
[33] [33]索林·S,内曼·A,eds.(2003)随机博弈及其应用,《北约科学丛书C 570》(荷兰多德雷赫特Kluwer学术出版社)。谷歌学者·Zbl 1027.00040号
[34] [34]Sorin S,Vigeral G(2013)通过比较定理证明二人零和折扣重复博弈极限值的存在性。J.优化。理论应用.157(2):564-576.Crossref,谷歌学者·Zbl 1268.91019号 ·doi:10.1007/s10957-012-0193-4
[35] [35]Vigeral G(2013)具有紧动作集且无渐近值的零和随机博弈。动态游戏应用程序。3(2):172-186.Crossref,谷歌学者·Zbl 1280.91026号 ·doi:10.1007/s13235-013-0073-z
[36] [36]Ziliotto B(2016)非扩张算子的Tauberian定理及其在零和随机博弈中的应用。数学。操作。物件。41(4):1522-1534.链接,谷歌学者·Zbl 1369.47069号
[37] [37]Ziliotto B(2016)零和重复博弈:渐近值存在性的反例和猜想maxmin=lim v(n)。安·普罗巴伯。44(2):1107-1133.交叉引用·Zbl 1344.91006号 ·doi:10.1214/14-AOP997
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。