托马斯·普列托·鲁莫 转移概率未知的有限最优停止问题的统计推断。 (英语) Zbl 1039.62076号 测试 第1215-239号第12页(2003年). 摘要:我们考虑一个具有未知平稳转移概率的有限最优停止问题。假设收益已知。我们估计了平稳确定性决策规则的值,然后得到了最优决策规则的估计,以及与概率1一致的问题的最优值。本文研究了两种不同的方法:最大似然估计和一种新的程序,我们称之为拉伸估计,这是一种更有效的技术。 引用于1文件 MSC公司: 62升15 统计中的最优停止 90 C90 数学规划的应用 关键词:动态规划;拉伸估计器;汇聚 PDF格式BibTeX公司 XML格式引用 \textit{T.Prieto Rumeau},测试12,第1期,215--239(2003;Zbl 1039.62076) 全文: 内政部 参考文献: [1] Billingsley,P.(1961年)。马尔可夫过程的统计推断。芝加哥大学出版社,芝加哥·Zbl 0106.34201号 [2] 费勒,W.(1968)。概率论及其应用导论,第一卷。John Wiley&Sons,纽约·Zbl 0155.23101号 [3] Hernández-Lerma,O.和Marcus,S.(1985)。折扣马尔可夫决策链的自适应控制。优化理论与应用杂志,46:227–235·兹伯利0543.90093 ·doi:10.1007/BF00938426 [4] Kurano,M.(1987)。马尔可夫决策过程的学习算法。应用概率杂志,24:270-276·Zbl 0631.90085号 ·doi:10.2307/3214080 [5] Luenberger,D.(1979年)。动态系统简介。John Wiley&Sons,纽约·Zbl 0458.93001号 [6] Mandl,P.(1974)。马尔可夫链中的估计和控制。应用概率进展,6:40–60·兹比尔0281.60070 ·doi:10.2307/1426206 [7] Puterman,M.(1994)。Markov决策过程Wiley,纽约。 此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。