×

有限时域马尔可夫决策过程的一种基于可变邻域搜索的算法。 (英语) Zbl 1202.90269号

摘要:本文考虑了可变邻域搜索(VNS)算法在有限时域(H阶段)马尔可夫决策过程(MDP)中的应用,以缓解搜索全局最优时的“维数灾难”现象。VNSMDP算法背后的主要思想是,基于刚才考虑的阶段的结果,在当前操作的可变邻域集中系统地搜索阶段(t)中状态(x)的最优解(操作)。因此,VNSMDP算法能够在动作空间的某些子集内搜索最优值,而不是在整个动作集上搜索最优值。本文对VNSMDP算法的复杂性和收敛性进行了分析。理论和计算分析表明,VNSMDP算法能够有效地搜索全局最优解。

理学硕士:

90立方厘米 马尔可夫和半马尔可夫决策过程
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] 阿巴德,M。;Boustique,H.,极限平均马尔可夫决策问题的分解算法,运筹学快报,31473-476(2003)·Zbl 1052.90097号
[2] Bellman,R.,《动态编程》(1957),普林斯顿大学出版社·Zbl 0077.13605号
[3] Bertsekas,D.P.,Casta(\widetilde{n})关于无限时域动态规划的D.A.自适应聚合方法,IEEE自动控制事务,34,589-598(1989)·Zbl 0675.90089号
[4] Bertsekas,D.P.,《动态规划和最优控制》,卷。1和2(1995),《雅典娜科学:雅典娜科技》,马萨诸塞州贝尔蒙特·Zbl 0935.90037号
[5] 布隆德尔,V.D。;Tsitsiklis,J.,《系统和控制中计算复杂性结果的调查》,Automatica,361249-1274(2000)·Zbl 0989.93006号
[6] Brimberg,J。;Hansen,P。;Mladenovic,N.,可变邻域搜索中的吸引概率,4OR-A季刊《运筹学杂志》,8,2,181-194(2010)·Zbl 1193.90216号
[8] Chang,H.S。;傅先生。;胡,J。;Marcus,S.I.,求解马尔可夫决策过程的自适应抽样算法,运筹学,53126-139(2005)·Zbl 1165.90672号
[9] Chang,H.S。;Lee,H.G。;傅先生。;Marcus,S.I.M.,解决马尔可夫决策过程的进化策略迭代,IEEE自动控制汇刊,501804-1808(2005)·Zbl 1365.90258号
[10] Chang,H.S。;傅先生。;胡锦秋。;Marcus,S.I.,有限时域随机动态规划的渐近有效模拟算法,IEEE自动控制汇刊,52,89-94(2007)·Zbl 1366.90144号
[11] Chang,H.S。;傅先生。;胡锦秋。;Marcus,S.I.,马尔可夫决策过程的递归学习自动机方法,IEEE自动控制事务,521349-1355(2007)·兹伯利1366.90215
[12] de Farias,D.P。;Van Roy,B.,《近似动态规划的线性规划方法》,运筹学,51850-865(2003)·Zbl 1165.90666号
[13] Hansen,P。;Mladenović,N.,《可变邻域搜索的发展》(Ribeiro,C.;Hansen,P.,《元启发式的论文和调查》(2001),Kluwer:Kluwer-Dordrecht),415-439·Zbl 1017.90130号
[14] Hansen,P。;Mladenović,N。;Moreno Pérez,J.,《可变邻域搜索》,《欧洲运筹学杂志》,191593-595(2008)
[15] Hansen,P。;Mladenović,N。;马萨诸塞州莫雷诺-佩雷斯。,可变邻域搜索:方法和应用,4OR,6319-360(2008)·Zbl 1179.90332号
[16] Hansen,P。;Mladenović,N。;马萨诸塞州莫雷诺·佩雷斯。,可变邻域搜索:算法和应用,运筹学年鉴,175367-407(2010)·Zbl 1185.90211号
[17] 胡,J。;傅先生。;拉梅扎尼,V。;Marcus,S.I.,《求解马尔可夫决策过程的进化随机策略搜索算法》,《计算信息杂志》,第19期,第161-174页(2007年)·Zbl 1241.90173号
[18] 卡恩斯,M。;Mansour,Y。;Ng,A.Y.,大型马尔可夫决策过程中近最优规划的稀疏抽样算法,机器学习,2-3,193-208(2002)·Zbl 1014.68150号
[19] MacQueen,J.,马尔可夫决策问题中的次优行为测试,运筹学,15559-561(1967)·Zbl 0171.18401号
[20] 梅里娜,C。;莱夫丘克,纽约州。;Levchuk,G.M。;Pattipati,K.R.,《目标实现的马尔可夫决策问题方法》,IEEE系统、人与控制论事务——A部分:系统与人,38,116-132(2008)
[21] Mladenović,N。;Hansen,P.,可变邻域搜索,计算机与运筹学,241097-1100(1997)·Zbl 0889.90119号
[22] Puterman,M.L.,《马尔可夫决策过程:离散随机动态规划》(1994),威利出版社:威利纽约·Zbl 0829.90134号
[23] Rust,J.,《使用随机化打破维度诅咒》,《计量经济学》,65 487-516(1997)·Zbl 0872.90107号
[24] 横山由纪夫。;Lewis,H.W.,遗传算法的随机动态生产循环问题的优化,计算机与运筹学,30 1831-1849(2003)·Zbl 1047.90017号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。