×

完全信息动态刺激模型中的Stackelberg平衡。 (英语。俄文原件) Zbl 1397.91109号

自动。远程控制 79,第4号,701-712(2018); Avtom翻译。Telemekh公司。2018年,第4152-166号(2018)。
摘要:在离散时间和无限规划期的情况下,我们考虑了一个带有马尔可夫动力学和折扣最优性准则的激励模型。在这个模型中,监管者对执行者产生经济影响,选择一个激励函数,该函数取决于系统状态和执行者的行为,执行者采用位置控制策略。系统动态、监管机构的收入和执行人的成本取决于系统状态和执行人行为。我们证明,找到(逆)Stackelberg博弈的近似解可以归结为求解最优控制问题,其准则等于监管者的收入与执行者的成本之差。这里,调节器的(ε)最优策略是在经济上激励执行器遵循这种最优控制策略。

理学硕士:

91A65型 分级游戏(包括Stackelberg游戏)
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] 冯·斯塔克伯格,H。,Marktform和Gleichgewicht维也纳:施普林格出版社,1934年·Zbl 1405.91003号
[2] Basar,T.和Olsder,G.J。,动态非合作博弈论费城:SIAM,1999年·Zbl 0946.91001号
[3] Dockner,E.、Jörgensen,S.、Van Long,N.和Sorger,G。,经济学与控制科学中的微分博弈,剑桥:剑桥大学出版社,2000年·Zbl 0996.91001号 ·doi:10.1017/CBO9780511805127
[4] 北卡罗来纳州Van Long。,经济学中的动态博弈综述《新加坡:世界科学》,2010年·Zbl 1237.91002号 ·数字对象标识代码:10.1142/7577
[5] 李·T。;Sethi,S.P.,《动态Stackelberg博弈模型综述》,《离散控制动力学》-B、 22125-159(2017)·Zbl 1409.91064号 ·doi:10.3934/dcdsb.2017007
[6] Ho,Y.-C。;卢,P。;Muralidharan,R.,《信息结构、Stackelberg博弈和激励可控性》,IEEE Trans。自动化。控制,26454-460,(1981)·兹比尔0476.90089 ·doi:10.1109/TAC.1981.1102652
[7] Olsder,G.J.,《逆Stackelberg博弈中的现象》。第1部分:静态问题,J.Optim。理论应用。,143, 589-600, (2009) ·Zbl 1182.91056号 ·doi:10.1007/s10957-009-9573-9
[8] Olsder,G.J.,《逆Stackelberg博弈中的现象》。第2部分:动力学问题,J.Optim。理论应用。,143, 601-618, (2009) ·Zbl 1182.91055号 ·doi:10.1007/s10957-009-9572-x
[9] 北卡罗来纳州格罗特。;舒特,B。;Hellendorn,H.,反向Stackelberg游戏。第一部分:基本框架,421-426,(2012)·doi:10.1109/CCA.2012.6402334
[10] 格罗特,N。;舒特,B。;Hellendorn,H.,反向Stackelberg游戏。第二部分:结果和未决问题,427-432,(2012)·doi:10.1109/CCA.2012.6402335
[11] Yu Germeier。在两名球员的比赛中,动作顺序固定,道克。阿卡德。苏联诺克,1981001-1004,(1971)·Zbl 0253.90065号
[12] Yu Germeier。B.、。,Igry的neprotivopolyzhonymi interesami(非对抗性运动会),莫斯科:瑙卡,1976年·Zbl 0584.90097号
[13] Kononenko,A.F.,两级递阶控制系统的博弈论分析,苏联计算机。数学。数学。物理。,14, 72-81, (1974) ·Zbl 0313.90072号 ·doi:10.1016/0041-5553(74)90197-9
[14] Gorelov,文学硕士。;Kononenko,A.F.,《冲突的动态模型》。三、 等级游戏,Autom。远程控制,76,264-277,(2015)·兹比尔1406.91074 ·doi:10.1134/S000511791502006X
[15] 沈,H。;巴沙尔,T。;Jörgensen,S.(编辑);Quincampoix,M.(编辑);Vincent,Th.L.(编辑),《信息完整和不完整网络游戏的基于激励的定价》,431-458,(2007),波士顿·Zbl 1153.91370号 ·doi:10.1007/978-0-8176-4553-322
[16] 斯塔科娃,K。;G.J.奥尔斯德。;Bliemer,M.C.J.,动态次优收费设计问题中不同收费政策的比较。三链路网络的案例研究,Eur.J.Transp。基础设施。第4号决议,331-346,(2009年)
[17] 卢,P。;Ho,Y。;Muralidharan,R.,《负荷自适应定价:电力设施的新兴工具》,IEEE Trans。自动。对照,27320-329,(1982)·Zbl 0478.90046号 ·doi:10.1109/TAC.1982.1102918
[18] V.N.伯科夫、M.古布科、N.科尔金和D.诺维科夫。,组织控制理论导论博卡拉顿:CRC出版社,2015年·Zbl 1308.90001号 ·doi:10.1201/b18152
[19] 诺维科夫,D.A。,Stimulirovanie v sotsial'no-ekonomicheskikh sistemakh(bazovye matematicheskie modeli)(社会经济系统中的刺激(基本数学模型),莫斯科:研究所问题。乌普拉夫伦。RAN,1998年。
[20] 诺维科夫,D.A。;Shokhina,T.E.,动态主动系统中的激励机制,Autom。远程控制,64,1912-1921,(2003)·Zbl 1171.91318号 ·doi:10.1023/B:AURC.0000008429.24786.89
[21] Sundaram,R.K。,最优化理论第一课程,剑桥:剑桥大学出版社,1996年·兹伯利0885.90106 ·doi:10.1017/CBO9780511804526
[22] 新南威尔士州帕帕乔治奥和南特州基里西·伊亚洛鲁。,应用分析手册《多德雷赫特:施普林格》,2009年·Zbl 1189.49003号
[23] Hernández-Lerma,O.和Lasserre,J.B。,离散时间马尔可夫控制过程:基本最优性准则纽约:施普林格出版社,1996年·Zbl 0840.93001号 ·doi:10.1007/978-1-4612-0729-0
[24] Maitra,A.,紧度量空间上的折扣动态规划,Sankhyá:印度统计杂志。序列号。A、 30211-216(1968)·Zbl 0187.17702号
[25] Schäl,M.,一般状态空间动态规划中的平均最优性,数学。操作。决议,18,163-172,(1993)·Zbl 0777.90079号 ·doi:10.1287/门18.1.163
[26] Bertsekas博士和Shreve博士。,随机最优控制:离散时间情形《贝尔蒙特:雅典娜科学》,1996年·Zbl 0471.93002号
[27] 范伯格,E.A。;Lewis,M.E.,平均成本Markov决策过程的最优不等式和随机现金平衡问题,数学。操作。决议,32,769-783,(2007)·Zbl 1341.90142号 ·doi:10.1287/门1070.0269
[28] 克鲁兹·苏亚雷斯,D。;蒙特斯·德奥卡,R。;Salem-Silva,F.,折扣马尔可夫决策过程最优策略唯一性的条件,数学。操作。研究,60,415-436,(2004)·Zbl 1104.90053号 ·doi:10.1007/s001860400372
[29] 布雷顿,M。;Alj,A。;Haurie,A.,《两人游戏中的序列Stackelberg均衡》,J.Optim。西奥。申请。,59, 71-97, (1998) ·Zbl 0631.90100号 ·doi:10.1007/BF00939867
[30] Blackwell,D.,折扣动态编程,Ann.Math。统计人员。,36, 226-235, (1965) ·Zbl 0133.42805号 ·doi:10.1214/aoms/1177700285
[31] Shreve,S.E.公司。;Bertsekas,D.P.,动态规划中的通用可测量策略,数学。操作。第4号决议,第15-30页,(1979年)·Zbl 0412.90071号 ·doi:10.1287/门4.1.15
[32] 摩根·J。;Clarke,F.H.(编辑);Dem'yanov,V.F.(编辑);Giannessi,F.(ed.),约束适定双层优化问题,307-325,(1989),波士顿·Zbl 0786.90112号 ·doi:10.1007/978-1-4757-6019-4_18
[33] Patrone,F。;Lucchetti,R.(编辑);Revalski,J.(编辑),《纳什均衡和相关主题的稳健性》,211-227,(1995),多德雷赫特·Zbl 0849.90131号 ·doi:10.1007/978-94-015-8472-2_9
[34] 蒙特斯·德奥卡,R。;Lemus-Rodríguez,E.,价值迭代最大化何时接近折扣马尔可夫决策过程的最优平稳策略?缩小Borel空间理论与实际计算之间的差距,WSEAS Trans。数学。,9, 151-160, (2010)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。