Kybernetika 48 5号, 1027-1044, 2012

一类马尔可夫停止对策的纳什均衡

摘要：

本文研究了一类在可数空间上具有两人和马尔可夫转移的离散时间零和对策。在每个决定时间，玩家II可以停止系统向玩家I支付终端奖励，如果系统没有停止，玩家I选择一个动作来驱动系统，并从玩家II处获得运行奖励。用总期望折扣报酬衡量一对决策策略的性能，在标准连续紧性条件下，证明了该停止博弈具有一个以均衡方程为特征的值函数，并利用该结果建立了纳什均衡的存在性。同时，利用逐次逼近的方法构造博弈的近似纳什均衡。

关键词：

收缩算子，零和停止对策，上下值函数相等，命中时间，平稳策略

分类：

91A10、91A15

纸张.pdf

参考文献：

E.Altman和A.Shwartz:约束马尔可夫博弈：纳什均衡。摘自：《动态游戏年鉴》（V.Gaitsgory，J.Filar和K.Mizukami编辑）6（2000），第213-221页，波士顿伯克豪斯。交叉参考
R.Atar和A.Budhiraja:非齐次Infiny-Laplace方程的随机微分对策。安·普罗巴伯。2 (2010), 498-531. 交叉参考
T.Bielecki、D.Hernández-Hernánde z和S.R.Pliska:离散时间有限状态马尔可夫链的风险敏感控制及其在投资组合管理中的应用。数学。操作方法。第50号决议（1999年），167-188。交叉参考
E.B.丹金:停止马尔可夫过程实例的最佳选择。苏联。数学。多克。4 (1963), 627-629. 交叉参考
V.N.Kolokoltsov和O.A.Malafeyev:理解博弈论。《世界科学》，新加坡，2010年。交叉参考
G.佩斯基尔:关于美国期权问题。数学。《财务》第15期（2010年），169-181。交叉参考
G.Pekill和A.Shiryaev:最优停车和自由边界问题。 Birkhau ser，波士顿，2010年。交叉参考
M.普特曼:马尔可夫决策过程。威利，纽约，1994年。交叉参考
A.谢里耶夫:最佳停止规则。施普林格，纽约，1978年。交叉参考
K.斯拉德克:不确定性下的拉姆齐增长模型。 In：程序。第27届国际经济学数学方法会议（H.Brozová，ed.），Kostelec nad Courn-2009年，第296-300页。交叉参考
K.斯拉德克:风险敏感的拉姆齐增长模型。 In：程序。第28届国际经济学数学方法会议（M.Houda和J.Friebelová，eds.）《经济学杂志》2010年。交叉参考
L.S.沙普利:随机游戏。程序。美国国家科学院。科学。美国39（1953），1095-1100。交叉参考
J.范德沃尔:折扣马尔可夫对策：连续逼近和停止时间。国际。《博弈论》6（1977），11-22。交叉参考
J.范德沃尔:折扣马尔可夫对策：广义策略迭代法。 J.优化。理论应用。25 (1978), 125-138. 交叉参考
D.J.怀特:马尔可夫决策过程的实际应用。接口15（1985），73-83。交叉参考
D.J.怀特:马尔可夫决策过程的进一步实际应用。接口18（1988），55-61。交叉参考
L.E.扎克里森:马尔可夫博弈。《博弈论进展》（M.Dresher、L.S.Shapley和A.W.Tucker编辑），普林斯顿大学出版社，普林斯顿1964年，第211-253页。交叉参考

凯贝内提卡

日记账

账户

Kybernetika 48 5号, 1027-1044, 2012

一类马尔可夫停止对策的纳什均衡

摘要：

关键词：

分类：

参考文献：