×

随机动态程序的基于状态划分的线性程序:不变性。 (英语) Zbl 1258.90055号

摘要:一种常见的近似动态规划方法需要进行状态划分和线性规划的使用,即状态空间被划分,最优值函数被近似为每个分区上的一个常数。通过最小化分区上定义的正成本函数,可以构造最优值函数的上界。我们证明了这个近似值函数与正成本函数无关,并且在给定分区的情况下,它是最小上界。

MSC公司:

90立方厘米 随机规划
90立方厘米 动态编程
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Axsäter,S.,动态编程中的状态聚合:并行处理器上独立作业调度的应用,Oper。Res.Lett.公司。,2, 171-176 (1983) ·Zbl 0525.90058号
[2] 比恩,J.C。;Birge,J.R。;Smith,R.L.,《动态规划中的聚合》,Oper。研究,35,215-220(1987)·Zbl 0634.90091号
[3] Bellman,R.E.,《动态编程》(1957),普林斯顿大学出版社:普林斯顿大学出版,新泽西州普林斯顿·Zbl 0077.13605号
[4] De Farias,D.P。;Van Roy,B.,近似动态规划的线性规划方法,Oper。研究,850-865(2003)·Zbl 1165.90666号
[5] Denardo,E.V.,《马尔可夫决策问题中的线性规划》,管理。科学。,16, 5, 282-288 (1970) ·兹比尔0191.48602
[6] d'Epenoux,F.,概率生产和库存问题,管理。科学。,10, 1, 98-108 (1963)
[7] Glover,F.,代理约束,Oper。第16、4、741-749号决议(1968年)·Zbl 0165.22602号
[8] Glover,F.,《数学规划中的代理约束对偶》,Oper。决议,23,3,434-451(1975)·Zbl 0314.90093号
[9] 格林伯格,H.J。;Pierskalla,W.P.,《替代数学规划》,Oper。研究,18,5,924-939(1970)·Zbl 0232.90059号
[10] M.Grötschel。;Holland,O.,大型对称旅行商问题的求解,数学。程序。,51, 141-202 (1991) ·Zbl 0733.90047号
[11] M.Grötschel。;Lovász,L。;Schijver,A.,组合优化中的椭球方法及其后果,组合数学,1,2169-197(1981)·Zbl 0492.90056号
[12] Hordijk,A。;Kallenberg,L.C.M.,线性规划和马尔可夫决策链,管理。科学。,25, 4, 352-362 (1979) ·Zbl 0421.90076号
[13] Howard,R.A.,《动态规划和马尔可夫过程》(1960年),麻省理工学院出版社:麻省理学院出版社,马萨诸塞州剑桥·兹比尔0091.16001
[14] Krishnamoorthy,K。;Pachter,M。;钱德勒,P。;Darbha,S.,《使用无人机优化周边巡逻行动》,AIAA J.Guid。控制动态。,35, 2, 434-441 (2012)
[15] Krishnamoorthy,K。;Pachter,M。;Darbha,S。;Chandler,P.,《应用于无人机周界巡逻的状态聚合近似动态规划》,国际。J.鲁棒非线性控制,21,12,1396-1409(2011)·Zbl 1244.90237号
[16] K.Krishnamoorthy,M.Park,S.Darbha,M.Pachter,P.Chandler,随机动态程序的边界程序及其在周界巡逻问题中的应用,见:Proc。美国控制委员会,蒙特利尔,魁北克省,加利福尼亚州,2012年,第5874-5880页。;K.Krishnamoorthy,M.Park,S.Darbha,M.Pachter,P.Chandler,随机动态程序的边界程序及其在周界巡逻问题中的应用,见:Proc。《美国控制会议》,蒙特利尔,QC,加利福尼亚州,2012年,第5874-5880页。
[17] MacQueen,J.B.,马尔可夫决策问题的一种改进的动态规划方法,数学杂志。分析。申请。,14, 38-43 (1966) ·Zbl 0141.17203号
[18] Manne,A.S.,线性规划和序列决策,管理。科学。,6, 3, 259-267 (1960) ·Zbl 0995.90599号
[19] Mendelssohn,R.,《聚合线性规划的改进边界》,Oper。研究,28,6,1450-1453(1980)·Zbl 0447.90054号
[20] Mendelssohn,R.,马尔可夫决策过程的迭代聚合过程,Oper。研究,30,1,62-73(1982)·Zbl 0481.90090号
[21] 舒尔曼斯,D。;Patrascu,R.,因子MDP的直接值逼近,(神经信息处理系统进展,第14卷(2001年),麻省理工学院出版社:麻省理工学院出版社,马萨诸塞州剑桥),1579-1586
[22] Schweitzer,P.J。;塞德曼,A.,马尔科夫决策过程中的广义多项式近似,J.Math。分析。申请。,110, 2, 568-582 (1985) ·Zbl 0578.90091号
[23] Trick,M。;Zin,S.,值函数的样条逼近:线性规划方法,宏观经济。动态。,1, 255-277 (1997) ·Zbl 0914.90209号
[24] Van Roy,B.,状态聚合近似值迭代的性能损失界限,数学。操作。Res.,31,2234-244(2006年)·Zbl 1278.90424号
[25] Y.Wang,S.Boyd,通过迭代Bellman不等式的近似动态规划。在线可用:网址:http://www.stanford.edu/boyd/papers/adpiter_bellman.html;Y.Wang,S.Boyd,通过迭代Bellman不等式的近似动态规划。在线可用:http://www.stanford.edu网站/boyd/papers/adpiter_bellman.html·Zbl 1317.93237号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。