文件Zbl 1202.90269-zbMATH Open

有限时域马尔可夫决策过程的一种基于可变邻域搜索的算法。（英语） Zbl 1202.90269号

申请。数学。计算。 217，第7期，3480-3492（2010）.

摘要：本文考虑了可变邻域搜索（VNS）算法在有限时域（H阶段）马尔可夫决策过程（MDP）中的应用，以缓解搜索全局最优时的“维数灾难”现象。VNSMDP算法背后的主要思想是，基于刚才考虑的阶段的结果，在当前操作的可变邻域集中系统地搜索阶段（t）中状态（x）的最优解（操作）。因此，VNSMDP算法能够在动作空间的某些子集内搜索最优值，而不是在整个动作集上搜索最优值。本文对VNSMDP算法的复杂性和收敛性进行了分析。理论和计算分析表明，VNSMDP算法能够有效地搜索全局最优解。

引用于1文件

理学硕士：

90立方厘米

马尔可夫和半马尔可夫决策过程

关键词：

马尔可夫决策过程;有限地平线;元启发式;可变邻域搜索;可变作用集

PDF格式 BibTeX公司 XML格式引用

全文：内政部

参考文献：

[1]	阿巴德，M。；Boustique，H.，极限平均马尔可夫决策问题的分解算法，运筹学快报，31473-476（2003）·Zbl 1052.90097号
[2]	Bellman，R.，《动态编程》（1957），普林斯顿大学出版社·Zbl 0077.13605号
[3]	Bertsekas，D.P.，Casta（\widetilde{n}）关于无限时域动态规划的D.A.自适应聚合方法，IEEE自动控制事务，34，589-598（1989）·Zbl 0675.90089号
[4]	Bertsekas，D.P.，《动态规划和最优控制》，卷。1和2（1995），《雅典娜科学：雅典娜科技》，马萨诸塞州贝尔蒙特·Zbl 0935.90037号
[5]	布隆德尔，V.D。；Tsitsiklis，J.，《系统和控制中计算复杂性结果的调查》，Automatica，361249-1274（2000）·Zbl 0989.93006号
[6]	Brimberg，J。；Hansen，P。；Mladenovic，N.，可变邻域搜索中的吸引概率，4OR-A季刊《运筹学杂志》，8，2，181-194（2010）·Zbl 1193.90216号
[8]	Chang，H.S。；傅先生。；胡，J。；Marcus，S.I.，求解马尔可夫决策过程的自适应抽样算法，运筹学，53126-139（2005）·Zbl 1165.90672号
[9]	Chang，H.S。；Lee，H.G。；傅先生。；Marcus，S.I.M.，解决马尔可夫决策过程的进化策略迭代，IEEE自动控制汇刊，501804-1808（2005）·Zbl 1365.90258号
[10]	Chang，H.S。；傅先生。；胡锦秋。；Marcus，S.I.，有限时域随机动态规划的渐近有效模拟算法，IEEE自动控制汇刊，52，89-94（2007）·Zbl 1366.90144号
[11]	Chang，H.S。；傅先生。；胡锦秋。；Marcus，S.I.，马尔可夫决策过程的递归学习自动机方法，IEEE自动控制事务，521349-1355（2007）·兹伯利1366.90215
[12]	de Farias，D.P。；Van Roy，B.，《近似动态规划的线性规划方法》，运筹学，51850-865（2003）·Zbl 1165.90666号
[13]	Hansen，P。；Mladenović，N.，《可变邻域搜索的发展》（Ribeiro，C.；Hansen，P.，《元启发式的论文和调查》（2001），Kluwer:Kluwer-Dordrecht），415-439·Zbl 1017.90130号
[14]	Hansen，P。；Mladenović，N。；Moreno Pérez，J.，《可变邻域搜索》，《欧洲运筹学杂志》，191593-595（2008）
[15]	Hansen，P。；Mladenović，N。；马萨诸塞州莫雷诺-佩雷斯。，可变邻域搜索：方法和应用，4OR，6319-360（2008）·Zbl 1179.90332号
[16]	Hansen，P。；Mladenović，N。；马萨诸塞州莫雷诺·佩雷斯。，可变邻域搜索：算法和应用，运筹学年鉴，175367-407（2010）·Zbl 1185.90211号
[17]	胡，J。；傅先生。；拉梅扎尼，V。；Marcus，S.I.，《求解马尔可夫决策过程的进化随机策略搜索算法》，《计算信息杂志》，第19期，第161-174页（2007年）·Zbl 1241.90173号
[18]	卡恩斯，M。；Mansour，Y。；Ng，A.Y.，大型马尔可夫决策过程中近最优规划的稀疏抽样算法，机器学习，2-3，193-208（2002）·Zbl 1014.68150号
[19]	MacQueen，J.，马尔可夫决策问题中的次优行为测试，运筹学，15559-561（1967）·Zbl 0171.18401号
[20]	梅里娜，C。；莱夫丘克，纽约州。；Levchuk，G.M。；Pattipati，K.R.，《目标实现的马尔可夫决策问题方法》，IEEE系统、人与控制论事务——A部分：系统与人，38，116-132（2008）
[21]	Mladenović，N。；Hansen，P.，可变邻域搜索，计算机与运筹学，241097-1100（1997）·Zbl 0889.90119号
[22]	Puterman，M.L.，《马尔可夫决策过程：离散随机动态规划》（1994），威利出版社：威利纽约·Zbl 0829.90134号
[23]	Rust，J.，《使用随机化打破维度诅咒》，《计量经济学》，65 487-516（1997）·Zbl 0872.90107号
[24]	横山由纪夫。；Lewis，H.W.，遗传算法的随机动态生产循环问题的优化，计算机与运筹学，30 1831-1849（2003）·Zbl 1047.90017号

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
ab公司	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
数据传输时间	文档类型(j个：期刊文章；b条：书本；一：图书文章）

一&b条	逻辑和
一\|b条	逻辑或
!ab公司	逻辑不
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

领域

操作员

有限时域马尔可夫决策过程的一种基于可变邻域搜索的算法。（英语） Zbl 1202.90269号

理学硕士：

关键词：

参考文献：

示例

领域

操作员

有限时域马尔可夫决策过程的一种基于可变邻域搜索的算法。 （英语） Zbl 1202.90269号

理学硕士：

关键词：

参考文献：

有限时域马尔可夫决策过程的一种基于可变邻域搜索的算法。（英语） Zbl 1202.90269号