×

具有完全信息的有限零和随机对策偏差向量的一般唯一性。 (英语) Zbl 1415.91035号

小结:均值-支付零和随机对策可以通过非线性谱问题来研究。当状态空间是有限的时,后者包括寻找(T(u)=λe+u)的本征对解,其中(T:mathbb{R}^n\rightarrow\mathbb}R}^n)是Shapley(或动态规划)算子,(λ)是标量,(e)是单位向量,(u.in\mathbb_2R}^n\)。标量\(\lambda \)产生每个时间单位的平均收益,向量\(u \)称为偏差,使人们能够确定平均对弈游戏中的最优平稳策略。本征对的存在通常与遍历条件有关。一个基本问题是了解偏差向量对于哪类游戏是唯一的(最多可达一个加法常数)。本文考虑具有有限状态空间和行为空间的完全信息零和随机对策,将转移支付作为可变参数,转移概率是固定的。我们表明,作为过渡支付函数的偏差向量通常是唯一的(直到一个加性常数)。该证明使用了非线性Perron-Frobenius理论的技术。作为结果的一个应用,我们得到了一个显式摄动方案,它允许我们通过策略迭代求解随机对策的退化实例。

MSC公司:

91A15型 随机对策,随机微分对策
91A05型 2人游戏
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] 阿基安,M。;巴帕特,R.B。;Gaubert,S.,Max-plus代数,(Hogben,Leslie,线性代数手册。线性代数、离散数学及其应用手册(2013),Chapman&Hall/CRC:Chapman和Hall/CRC Boca Raton,佛罗里达州)
[2] 阿基安,M。;Cochet-Terrasson,J。;Detournay,S。;Gaubert,S.,具有平均收益和完美信息的零和多链随机博弈的策略迭代算法(2012)
[3] 阿基安,M。;Gaubert,S.,凸单调齐次映射的谱定理,遍历控制,非线性分析。,52, 2, 637-679 (2003) ·Zbl 1030.47048号
[4] 阿基安,M。;Gaubert,S。;Guterman,A.,热带多面体等价于平均回报博弈,Internat。代数计算杂志。,第22、1条,第1250001页(2012年)·Zbl 1239.14054号
[5] 阿基安,M。;Gaubert,S。;Hochart,A.,均值支付零和博弈偏差向量的一般唯一性,(第53届IEEE决策与控制会议,第53届美国IEEE决策和控制会议,美国加利福尼亚州洛杉矶(2014年12月)),1581-1587
[6] 阿基安,M。;Gaubert,S。;Hochart,A.,零和博弈的遍历性条件,离散Contin。动态。系统。,35, 9, 3901-3931 (2015) ·Zbl 1338.47073号
[7] 阿基安,M。;Gaubert,S。;Walsh,C.,《最大值加上马丁边界》,Doc。数学。,14, 195-240 (2009) ·Zbl 1182.31017号
[8] Aliprantis,C.D。;Tourky,R.,Cones and Duality,《数学研究生》,第84卷(2007),美国数学学会:美国数学学会普罗维登斯,RI·Zbl 1127.46002号
[9] 阿拉米吉恩,X。;Gaubert,S。;Skomra,M.,使用随机博弈算法求解泛型非阿基米德半定程序,(第41届符号和代数计算国际研讨会论文集。第41届国际符号和代数计算机研讨会论文集,加拿大安大略省滑铁卢ISSAC(2016年7月)),31-38,扩展版:·Zbl 1360.90185号
[10] Andersson博士。;Miltersen,P.B.,《求解图上随机游戏的复杂性》,(算法与计算,算法和计算,计算科学讲义,第5878卷(2009),施普林格:施普林格柏林),112-121·兹比尔1272.91025
[11] 巴氏杆菌。;科恩,G。;Olsder,G.J。;Quadrat,J.-P.,《同步与线性》,《概率与数理统计中的威利级数:概率与数理统计》(1992),John Wiley&Sons,Ltd.:John Wiley&Sons,Ltd.奇切斯特·Zbl 0824.93003号
[12] Bapat,R.B.,Perron-Frobenius定理的最大版本,(国际线性代数学会第六届会议论文集,国际线性代数协会第六届大会论文集,Chemnitz,1996年,第275/276卷(1998)),3-18·Zbl 0941.15020号
[13] Bather,J.,有限马尔可夫链的最优决策程序。第二部分。通信系统,应用中的高级。概率。,5, 521-540 (1973) ·Zbl 0275.90049号
[14] Bewley,T。;科尔伯格,E.,随机博弈的渐近理论,数学。操作。第1、3、197-208号决议(1976年)·Zbl 0364.93031号
[15] 博尔特,J。;Gaubert,S。;Vigeral,G.,可定义零和随机游戏,数学。操作。研究,40,1,171-191(2015)·Zbl 1312.91012号
[16] 布尔克,M。;Raghavan,T.E.S.,完美信息加性报酬和加性转移随机博弈的政策改进,折现和平均报酬,J.Dyn。游戏,1,3,347-361(2014)·Zbl 1329.91013号
[17] Bruck,R.E.,Banach空间中非扩张映射的不动点集的性质,Trans。阿默尔。数学。《社会学杂志》,179,251-262(1973)·Zbl 0265.47043号
[18] Butković,P.,《Max-Linear Systems:Theory and Algorithms》,施普林格数学专著(2010),施普林格·弗拉格伦敦有限公司:施普林格伦敦有限责任公司·兹伯利1202.15032
[19] Cochet-Terrasson,J。;Gaubert,S.,具有平均收益的零和随机博弈的策略迭代算法,C.R.Math。阿卡德。科学。巴黎,343,5377-382(2006)·Zbl 1097.91014号
[20] Cochet-Terrasson,J。;Gaubert,S。;Gunawardena,J.,min-max函数的构造不动点定理,Dyn。刺。系统。,14, 4, 407-433 (1999) ·Zbl 0958.47028号
[21] Condon,A.,《随机博弈的复杂性》,Inform。和计算。,96, 2, 203-224 (1992) ·Zbl 0756.90103号
[22] 克兰德尔,M.G。;Tartar,L.,非扩张映射与保序映射之间的一些关系,Proc。阿默尔。数学。《社会学杂志》,78,3,385-390(1980)·兹比尔0449.47059
[23] Cuninghame-Green,R.,Minimax代数,《经济学和数学系统讲义》,第166卷(1979),Springer-Verlag:Springer-Verlag Berlin New York·Zbl 0399.90052号
[24] De Loera,J.A.(美国)。;Rambau,J。;Santos,F.,《数学中的三角化、算法和计算》,第25卷(2010年),Springer-Verlag:Springer-Verlag Berlin·Zbl 1207.52002号
[25] Denardo,E.V。;Fox,B.L.,多链马尔可夫更新计划,SIAM J.Appl。数学。,16, 468-487 (1968) ·Zbl 0201.19303号
[26] 埃伦菲赫特,A。;Mycielski,J.,平均回报游戏的位置策略,国际。J.博弈论,8,2,109-113(1979),MR 83d:90246·Zbl 0499.90098号
[27] Everett,H.,递归游戏(对游戏理论的贡献,第3卷)。《对游戏理论的贡献》,第3卷,《数学研究年鉴》,第39卷(1957年),普林斯顿大学出版社:普林斯顿大学出版,新泽西州普林斯顿),47-78·Zbl 0078.32802号
[29] Figalli,A。;Rifford,L.,Aubry sets,Hamilton-Jacobi方程和Mañé猜想,(几何分析,数学相对性,非线性偏微分方程。几何分析,数理相对性,和非线性偏微分方程式,当代数学,第599卷(2013),Amer。数学。Soc.:美国。数学。佛罗里达州普罗维登斯Soc.Providence),83-104·Zbl 1364.37137号
[30] Friedmann,O.,最新确定性策略迭代算法的指数下限,Log。方法计算。科学。,7,3:19(2011),42页·Zbl 1237.68087号
[31] Gaubert,S。;Gunawardena,J.,齐次单调函数的Perron-Frobenius定理,Trans。阿默尔。数学。Soc.,356,12,4931-4950(2004),(电子版)·Zbl 1067.47064号
[32] Gondran,M。;Minoux,M.,Valeurs propres et vecteurs propers dans les dioídes et leur interpretation en the theorie des grapes,公牛。教育总监。里奇。Sér。C数学。通知。,2, 25-41 (1977)
[33] Gurvich,V.A。;Karzanov,A.V。;Khachiyan,L.G.,《循环博弈与有向图中的极小极大平均环的发现》,Zh。维奇尔。Mat.Mat.Fiz.公司。,28, 9, 1407-1417 (1988), 1439 ·Zbl 0661.90108号
[34] 霍夫曼,A.J。;Karp,R.M.,关于非终止随机博弈,管理。科学。,12, 359-370 (1966) ·兹伯利0136.14303
[35] Howard,R.A.,《动态规划和马尔可夫过程》(1960),麻省理工学院技术出版社,John Wiley&Sons,Inc.:麻省理工学院技术出版社·兹比尔0091.16001
[36] 科尔伯格,E.,《具有吸收状态的重复游戏》,安.统计师。,2, 724-738 (1974) ·兹比尔0297.90114
[37] Kohlberg,E.,非扩张分段线性变换的不变半线,数学。操作。研究,5,3,366-372(1980)·Zbl 0442.90102号
[38] Kolokoltsov,V.N。;Maslov,V.P.,Idempotent Analysis and Its Applications,Mathematics and Its Applications,第401卷(1997年),Kluwer Academic Publishers Group:Kluwer-Academical Publishers Group Dordrecht·Zbl 0941.93001号
[39] 洛杉矶Kontorer。;Yakovenko,S.Yu。,非线性半群和无限时域优化,(Idempotent Analysis,Idempolent Analysis。苏联数学进展,第13卷(1992),Amer。数学。Soc.:美国。数学。Soc.Providence,RI),167-210年·Zbl 0856.49003号
[40] Rida Laraki;雷诺、杰罗姆、非循环赌博游戏(2017)·Zbl 1455.91036号
[41] 利格特,T.M。;Lippman,S.A.,《具有完美信息和时间平均回报的随机博弈》,SIAM Rev.,11,604-607(1969)·Zbl 0193.19602号
[42] Mallet-Paret,J。;Nussbaum,R.D.,由max-plus算子产生的一类齐次锥映射的特征值,离散Contin。动态。系统。,8, 3, 519-562 (2002) ·Zbl 1007.47031号
[43] Mertens,J.-F。;内曼,A.,《随机游戏》,国际。J.博弈论,10,2,53-66(1981)·Zbl 0486.90096号
[44] 内曼,A。;Sorin,S.,《随机游戏和应用》,北约科学系列C,第570卷(2003年),施普林格:施普林格荷兰·Zbl 1027.00040号
[45] Ovchinnikov,S.,分段线性函数的Max-min表示,Beitr。代数几何。,43, 1, 297-302 (2002) ·Zbl 0996.26007号
[46] Puri,A.,混合系统和离散事件系统理论(1995),博士论文
[47] 雷诺,J.,《动态规划中的统一值》,《欧洲数学杂志》。Soc.(JEMS),第13、2、309-330页(2011年)·Zbl 1229.90253号
[48] 雷诺(Renault),杰罗姆(Jéróme),在知情的控制者数学(Math)的指导下,重复游戏的价值。操作。Res.,37,1154-179(2012),第2891152号决议·Zbl 1238.91027号
[49] 罗曼诺夫斯基,I.V.,离散确定性过程的稳态控制优化,控制论,3,2,52-62(1967),(英语)
[50] 罗森博格,D。;Sorin,S.,《零和重复博弈的算子方法》,以色列J.数学。,121, 221-246 (2001) ·Zbl 1054.91014号
[51] Shapley,L.S.,《随机游戏》,Proc。国家。阿卡德。科学。美国,39,1095-1100(1953)·Zbl 0051.35805号
[52] Sorin,S.,《零和重复游戏第一门课程》,《数学与应用》(柏林),第37卷(2002年),Springer-Verlag:Springer-Verlag Berlin,MR 1890574·Zbl 1005.91019号
[53] Sorin,S.,单调非扩张映射的渐近性质,离散事件Dyn。系统。,14, 1, 109-122 (2004) ·Zbl 1035.93047号
[54] Sturmfels,B。;Tran,N.M.,热带特征向量的组合类型,公牛。伦敦。数学。Soc.,45,1,27-36(2013)·Zbl 1269.15009号
[55] Vigeral,G.,一个具有紧凑动作集且没有渐近值的零zum随机对策,Dyn。游戏应用程序。,3, 2, 172-186 (2013) ·Zbl 1280.91026号
[56] Ziliotto,B.,非扩张算子的Tauberian定理及其在零和随机博弈中的应用,数学。操作。第41、4、1522-1534号决议(2016年)·Zbl 1369.47069号
[57] 美国兹威克。;Paterson,M.,图上平均支付游戏的复杂性,Theoret。计算。科学。,158, 1-2, 343-359 (1996) ·Zbl 0871.68138号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。