本文研究了一类在可数空间上具有两人和马尔可夫转移的离散时间零和对策。在每个决定时间,玩家II可以停止系统向玩家I支付终端奖励,如果系统没有停止,玩家I选择一个动作来驱动系统,并从玩家II处获得运行奖励。用总期望折扣报酬衡量一对决策策略的性能,在标准连续紧性条件下,证明了该停止博弈具有一个以均衡方程为特征的值函数,并利用该结果建立了纳什均衡的存在性。同时,利用逐次逼近的方法构造博弈的近似纳什均衡。
收缩算子,零和停止对策,上下值函数相等,命中时间,平稳策略
91A10、91A15