罗杰·哈特利(编辑);林·托马斯(Lyn C.Thomas)。(编辑);道格拉斯·怀特。(编辑) [埃文·波特斯。;赫伯纳,格哈德;惠特尔,P。;D.里兹。;费德格伦,A。;施韦策,P.J。;Sheu,S.S。;法恩·K·J。;A.Hordijk。;L.C.M.卡伦伯格。;蒂杰姆斯,H.C。;新泽西州Furukawa。;麦肯,H。;van Hee,K.M。;Sawaki,K。;怀特,切尔西C.III;郑,R.C.H。;范德杜恩·绍特,F.A。] 马尔可夫决策过程的最新发展。1978年7月17日至19日在曼彻斯特大学举行的马尔可夫决策过程国际会议记录。 (英语) Zbl 0547.90064号 数学及其应用研究所系列会议。伦敦-纽约:学术出版社(Harcourt Brace Jovanovich,出版商)。十四、 第334页(1980年)。 马尔可夫决策过程理论已经存在了大约20年。它的基本概念是在这一时期的上半期建立起来的,目前的研究主要集中在理论结果和计算程序的各种改进、推广、扩展和规范上。本卷包含这些方向的一些最新成就。这一领域的工作和出版物迅速扩展,但正如编辑们所写的那样,到目前为止,这一理论的实际应用还很少。作为一个原因,他们提出了大多数实际问题的计算“规模”。总结参与者的感受,他们预测在处理特定类型的“真正”有用问题方面的早期进展。我们现在对文章添加一些评论,这些评论可能从标题上看不太明显。Hübner通过(nu^N(N<N))计算值\(nu^N)。Whittle研究了当(nu^N到infty})和(nu^{infty{)是Bellman方程的唯一解时。Reetz在折扣为(alpha>1)的过程中,在有限(可能是随机)时间间隔上找到最优策略。Sheu和Farn处理了有限空间中的遍历情况。Hordijk和Kallenberg提出了平均准则的对偶线性规划。托马斯调查了21种沟通条件并发现了它们之间的关系。当过渡律依赖于未知参数时,Van Hee采用贝叶斯方法。Cheng、Hordijk和Schouten考虑时间离散化。内容:R.Hartley、L.C.Thomas和D.J.White,前言;Evan L.Porteus,折扣有限Markov和半Markov决策链迭代方法概述;G.Hübner,序列相似变换:平稳次马尔可夫决策问题的一种有前途的序列近似方法;P.Whittle,成本无限的负规划:正则性的简单条件;D.Reetz,扩展马尔科夫决策过程的带标点和截断年金;D.J.White,可数状态无限时域折扣马尔可夫决策过程的有限状态近似:连续近似方法;A.Federgruen和P.J.Schweitzer,未贴现马尔可夫决策过程渐近值迭代的研究;S.S.Sheu和K.J.Farn,紧作用马氏决策过程中平稳1-最优计划存在的充分条件;A.Hordijk和L.C.M.Kallenberg,关于用线性规划解决马尔可夫决策问题;H.C.Tijms,平均费用可数状态半马尔可夫决策问题的算法及其在受控生产和排队系统中的应用;Lyn C.Thomas,可数状态Markov决策过程的连通条件;N.Furukawa,状态空间可数的向量值马氏决策过程;H.Myoken,马尔可夫决策过程的自适应双重控制方法及其应用;K.M.van Hee,转移律未知的马尔可夫决策过程:平均收益情形;K.Sawaki,分段线性马尔可夫决策过程及其在部分可观测模型中的应用;Chelsea C.White,III,效用准则下马尔可夫决策问题的同位素策略的最优性;Roger Hartley,动态规划和一个未贴现的、无限时域的凸随机控制问题;程瑞昌,随机跳跃扰动系统的最优控制及其马尔可夫决策过程表示;A.Hordijk和F.A.van der Duyn Schouten,决策过程的弱收敛。 引用于5评论引用于2文件 MSC公司: 90立方厘米 马尔可夫和半马尔可夫决策过程 90立方厘米 动态编程 90-06 与运筹学和数学规划有关的会议记录、会议记录、收藏等 关键词:马尔可夫决策过程;序贯逼近;负面编程;渐近值迭代 PDF格式BibTeX公司 XML格式