文件Zbl 1391.90634-zbMATH打开

部分可观测马尔可夫决策过程的实验设计。（英语） Zbl 1391.90634号

SIAM/ASA J.不确定性。数量。 6, 549-567 (2018).

摘要：本文讨论了如何在部分可观测马尔可夫决策过程（POMDP）中最有效地进行实验，以提供有关感兴趣参数的信息量最大的数据的问题。介绍了马尔可夫决策过程的方法，特别是动态规划方法，并将其用于相关Fisher信息最大化的算法中。然后将该算法应用于两个POMDP示例。通过适当的离散化，所开发的方法也可以应用于随机动力系统，因此我们展示了Morris-Lecar神经元模型中的控制策略，并给出了仿真结果。我们讨论了如何通过使用先验知识来处理这些方法中的参数依赖性，并开发了用于在线更新控制策略的工具。这在另一个描述PCR模型中DNA模板生长动力学的随机动力学系统中得到了证明。

引用于4文件

MSC公司：

90立方厘米	马尔可夫和半马尔可夫决策过程
62K05美元	最佳统计设计
62英尺10英寸	点估计
90立方厘米	动态编程

关键词：

实验设计;马尔可夫决策过程;动态规划;最优控制;值迭代算法

PDF格式 BibTeX公司 XML格式引用

全文：内政部 arXiv公司

参考文献：

[1]	J.Bongard和H.Lipson，非线性动力系统的自动逆向工程，程序。国家。阿卡德。科学。美国，104（2007），第9943–9948页·Zbl 1155.37044号
[2]	O.Cappeí、E.Moulines和T.Rydeín，隐马尔可夫模型中的推理，Springer，纽约，2005年·Zbl 1080.62065号
[3]	K.Chaloner和I.Verdinelli，贝叶斯实验设计：综述，统计。科学。，10（1995年），第273–304页·Zbl 0955.62617号
[4]	B.Ermentrout和D.Terman，神经科学的数学基础，磁盘间。申请。数学。35，施普林格，纽约，2010年·Zbl 1320.92002年
[5]	P.Haccou、P.Jagers和V.Vatutin，分支过程：种群的变异、增长和灭绝，外倾角。螺柱适配器。动态。5，剑桥大学出版社，剑桥，2005年·Zbl 1118.92001号
[6]	E.C.海登，自动化实验室《自然》，516（2014），第131-132页。
[7]	G.胡克，非线性动力学的强制函数诊断《生物统计学》，65（2009），第613–620页·Zbl 1172.62046号
[8]	G.Hooker和S.P.Ellner，非线性动力学中的拟合优度：指定错误的速率还是指定错误的状态？，Ann.应用。Stat.，9（2015），第754-776页·Zbl 1397.62269号
[9]	G.Hooker、K.K.Lin和B.Rogers，扩散过程的控制理论与实验设计SIAM/ASA J.不确定性。数量。，3（2015），第234–264页·兹比尔1327.62437
[10]	A.Iolov、S.Ditlevsen和A.Longtin，扩散过程中首次击中时间估计的优化设计SIAM/ASA J.不确定性。数量。，5（2017年），第88–110页·Zbl 1365.62305号
[11]	R.D.King、J.Rowland、S.G.Oliver、M.Young、W.Aubrey、E.Byrne、M.Liakata、M.Markham、P.Pir、L.N.Soldatova、A.Sparkes、K.E.Whelan和A.Clare，科学自动化《科学》，第324页（2009年），第85-89页。
[12]	G.莫纳汉，部分可观测马尔可夫决策过程综述：理论、模型和算法、管理科学、。，28（1982），第1-16页·兹伯利04869.0084
[13]	W·鲍威尔，近似动态规划：解决维数问题，John Wiley&Sons，新泽西州霍博肯，2007年·Zbl 1156.90021号
[14]	M.Puterman，马尔可夫决策过程-离散随机动态规划，John Wiley&Sons，新泽西州霍博肯，2005年·Zbl 1184.90170号
[15]	J.Shachat、J.T.Swarthouty和L.Wei，人与纳什：混合策略均衡的自我激励性质实验.newblock未出版，厦门大学王亚南经济研究所，厦门，中国，2011。
[16]	G.史密斯，离子通道的随机选通建模，摘自计算细胞生物学，Interdiscip。申请。数学。20，Springer，纽约，2002年，第285-319页。

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
ab公司	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文档类型(j个：期刊文章；b条：book；一：图书文章）

一&b条	逻辑和
一\|b条	逻辑或
！ab公司	逻辑不
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

字段

操作员

部分可观测马尔可夫决策过程的实验设计。（英语） Zbl 1391.90634号

MSC公司：

关键词：

参考文献：

示例

字段

操作员

部分可观测马尔可夫决策过程的实验设计。 （英语） Zbl 1391.90634号

MSC公司：

关键词：

参考文献：

部分可观测马尔可夫决策过程的实验设计。（英语） Zbl 1391.90634号