×

部分可观测马尔可夫决策过程的实验设计。 (英语) Zbl 1391.90634号

摘要:本文讨论了如何在部分可观测马尔可夫决策过程(POMDP)中最有效地进行实验,以提供有关感兴趣参数的信息量最大的数据的问题。介绍了马尔可夫决策过程的方法,特别是动态规划方法,并将其用于相关Fisher信息最大化的算法中。然后将该算法应用于两个POMDP示例。通过适当的离散化,所开发的方法也可以应用于随机动力系统,因此我们展示了Morris-Lecar神经元模型中的控制策略,并给出了仿真结果。我们讨论了如何通过使用先验知识来处理这些方法中的参数依赖性,并开发了用于在线更新控制策略的工具。这在另一个描述PCR模型中DNA模板生长动力学的随机动力学系统中得到了证明。

MSC公司:

90立方厘米 马尔可夫和半马尔可夫决策过程
62K05美元 最佳统计设计
62英尺10英寸 点估计
90立方厘米 动态编程
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] J.Bongard和H.Lipson,非线性动力系统的自动逆向工程,程序。国家。阿卡德。科学。美国,104(2007),第9943–9948页·Zbl 1155.37044号
[2] O.Cappeí、E.Moulines和T.Rydeín,隐马尔可夫模型中的推理,Springer,纽约,2005年·Zbl 1080.62065号
[3] K.Chaloner和I.Verdinelli,贝叶斯实验设计:综述,统计。科学。,10(1995年),第273–304页·Zbl 0955.62617号
[4] B.Ermentrout和D.Terman,神经科学的数学基础,磁盘间。申请。数学。35,施普林格,纽约,2010年·Zbl 1320.92002年
[5] P.Haccou、P.Jagers和V.Vatutin,分支过程:种群的变异、增长和灭绝,外倾角。螺柱适配器。动态。5,剑桥大学出版社,剑桥,2005年·Zbl 1118.92001号
[6] E.C.海登,自动化实验室《自然》,516(2014),第131-132页。
[7] G.胡克,非线性动力学的强制函数诊断《生物统计学》,65(2009),第613–620页·Zbl 1172.62046号
[8] G.Hooker和S.P.Ellner,非线性动力学中的拟合优度:指定错误的速率还是指定错误的状态?,Ann.应用。Stat.,9(2015),第754-776页·Zbl 1397.62269号
[9] G.Hooker、K.K.Lin和B.Rogers,扩散过程的控制理论与实验设计SIAM/ASA J.不确定性。数量。,3(2015),第234–264页·兹比尔1327.62437
[10] A.Iolov、S.Ditlevsen和A.Longtin,扩散过程中首次击中时间估计的优化设计SIAM/ASA J.不确定性。数量。,5(2017年),第88–110页·Zbl 1365.62305号
[11] R.D.King、J.Rowland、S.G.Oliver、M.Young、W.Aubrey、E.Byrne、M.Liakata、M.Markham、P.Pir、L.N.Soldatova、A.Sparkes、K.E.Whelan和A.Clare,科学自动化《科学》,第324页(2009年),第85-89页。
[12] G.莫纳汉,部分可观测马尔可夫决策过程综述:理论、模型和算法、管理科学、。,28(1982),第1-16页·兹伯利04869.0084
[13] W·鲍威尔,近似动态规划:解决维数问题,John Wiley&Sons,新泽西州霍博肯,2007年·Zbl 1156.90021号
[14] M.Puterman,马尔可夫决策过程-离散随机动态规划,John Wiley&Sons,新泽西州霍博肯,2005年·Zbl 1184.90170号
[15] J.Shachat、J.T.Swarthouty和L.Wei,人与纳什:混合策略均衡的自我激励性质实验.newblock未出版,厦门大学王亚南经济研究所,厦门,中国,2011。
[16] G.史密斯,离子通道的随机选通建模,摘自计算细胞生物学,Interdiscip。申请。数学。20,Springer,纽约,2002年,第285-319页。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。