×

自适应感知的部分可观测马尔可夫决策过程近似。 (英语) Zbl 1192.93111号

摘要:自适应传感涉及主动管理传感器资源,以实现传感任务,如物体检测、分类和跟踪,这为离散事件系统方法的新应用提供了一个很有前途的方向。我们描述了一种基于近似求解问题的部分可观测马尔可夫决策过程(POMDP)公式的自适应感知方法。由于实际自适应传感问题涉及的状态空间非常大,因此需要进行此类近似,从而无法精确计算最优解。我们回顾了POMDP的理论,并展示了该理论如何应用于自适应传感问题。然后我们描述了各种近似方法,并举例说明它们在自适应传感中的应用。这些示例还展示了相对于近视方法而言,非近视方法可能带来的收益,并强调了对此类收益依赖于传感资源和环境的一些见解。

MSC公司:

90立方厘米 马尔可夫和半马尔可夫决策过程
90B36型 运筹学中的随机调度理论
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Altman E(1998)约束马尔可夫决策过程。Chapman and Hall/CRC,伦敦·Zbl 0930.90081号
[2] Bartels R、Backus S、Zeek E、Misoguti L、Vdovin G、Christov IP、Murnane MM、Kapteyn HC(2000)相干软X射线的成形脉冲优化。自然406:164–166·doi:10.1038/35018029
[3] Bellman R(1957)动态编程。普林斯顿大学出版社·Zbl 0077.13605号
[4] Bertsekas DP(2005)《动态规划和次优控制:从ADP到MPC的调查》。In:程序。2005年12月12日至15日在塞维利亚举行的第44届IEEE决策与控制联合会议和欧洲控制联合会议
[5] Bertsekas DP(2007)《动态规划和最优控制》,第一卷,第三版,2005年;第二卷,第3版。雅典娜科技公司,贝尔蒙特
[6] Bertsekas DP,Castanon DA(1999)随机调度问题的展开算法。启发式杂志5:89–108·Zbl 0997.90037号 ·doi:10.1023/A:1009634810396
[7] Bertsekas DP,Tsitsiklis JN(1996),神经动力学编程。雅典娜科技公司,贝尔蒙特
[8] Blatt D,Hero AO III(2006a)《从加权分类到政策搜索》。主题:神经信息处理系统(NIPS)进展,第18卷,第139-146页
[9] Blatt D,Hero AO III(2006b)《通过分类减少策略搜索优化传感器调度》(CROPS)。In:程序。关于自动化计划和调度(ICAPS)的国际会议
[10] Castanon D(1997)传感器管理的近似动态编程。In:程序。第36届IEEE决策与控制会议,圣地亚哥,第1202-1207页
[11] Chang HS,Givan RL,Chong EKP(2004)部分可观测Markov决策过程在线解决方案的并行推出。离散事件Dyn系统14(3):309–341·Zbl 1057.90051号 ·doi:10.1023/B:DISC0000028199.78776.c4
[12] Chang HS,Fu MC,Hu J,Marcus SI(2007),马尔可夫决策过程的基于仿真的算法。Springer通信和控制工程系列。Springer,柏林-海德堡,纽约
[13] Chen RC,Wagner K(2007)自适应波形调度的部分可观测约束马尔可夫决策过程。In:程序。高级应用电磁学国际会议,都灵,2007年9月17日至21日,第454–463页
[14] Cheng HT(1988)部分可观测Markov决策过程的算法。不列颠哥伦比亚大学博士论文
[15] Chhetri A,Morrell D,Papandreou-Suppappola A(2004)目标跟踪中非近视传感器调度的高效搜索策略。In:关于信号、系统和计算机的Asilomar conf·Zbl 1099.90539号
[16] Chong EKP,Givan RL,Chang HS(2000)通过事后优化实现基于仿真的网络控制框架。In:程序。第39届IEEE决策与控制会议,悉尼,2000年12月12-15日,第1433-1438页
[17] de Farias DP,Van Roy B(2003)近似动态规划的线性规划方法。运营研究51(6):850–865·Zbl 1165.90666号 ·doi:10.1287/opre.51.6850.24925
[18] de Farias DP,Van Roy B(2004)关于近似动态规划线性规划方法中的约束采样。数学运算研究29(3):462–478·Zbl 1082.90124 ·doi:10.1287/门1040.0094
[19] Gottlieb E,Harrigan R(2001)《Umbra仿真框架》。Sandia技术报告SAND2001-1533(无限发布)
[20] 何毅,Chong EKP(2004)传感器网络中目标跟踪的传感器调度。In:程序。第43届IEEE决策与控制会议(CDC’04),2004年12月14-17日,第743-748页
[21] He Y,Chong EKP(2006)《目标跟踪的传感器调度:蒙特卡罗采样方法》。数字信号处理16(5):533–545·doi:10.1016/j.dsp.2005.02.005
[22] Hero A、Castanon D、Cochran D、Kastella K(eds)(2008)传感器管理的基础和应用。施普林格,柏林-海德堡-纽约
[23] Ji S,Parr R,Carin L(2007)具有部分可观测马尔可夫决策过程的非近视多方面感知。IEEE Trans Signal Process 55(6):2720–2730(第1部分)·Zbl 1390.90559号 ·doi:10.1109/TSP.2007.893747
[24] Julier S,Uhlmann J(2004)《无中心滤波和非线性估计》。IEEE 92(3)会议记录:401–422·doi:10.1109/JPROC.2003.823141
[25] Krakow LW,Li Y,Chong EKP,Groom KN,Harrington J,Rigdon B(2006)通过部分可观察的马尔可夫决策过程控制周界监视无线传感器网络。In:程序。2006年IEEE int-Carnahan安全技术会议(ICCST),列克星敦,2006年10月17日至20日
[26] Kearns MJ,Mansour Y,Ng AY(1999)大型Markov决策过程中近最优规划的稀疏采样算法。In:程序。第16届国际人工智能联合会议,第1324–1331页
[27] Kaelbling LP、Littman ML、Moore AW(1996)《强化学习:一项调查》。J Artif Intell Res杂志4:237–285
[28] Kaelbling LP、Littman ML、Cassandra AR(1998),部分可观测随机域中的规划和行动。艺术智能101:99–134·Zbl 0908.68165号 ·doi:10.1016/S0004-3702(98)00023-X
[29] Kreucher CM、Hero A、Kastella K(2005a)《任务驱动和信息驱动传感器管理用于目标跟踪的比较》。In:程序。第44届IEEE决策与控制会议(CDC’05),2005年12月12日至15日
[30] Kreucher CM、Kastella K、Hero AO III(2005b)使用主动传感方法的传感器管理。信号处理85(3):607–624·Zbl 1148.68437号 ·doi:10.1016/j.sigpro.2004.11.004
[31] Kreucher CM,Kastella K,Hero AO III(2005c)使用联合多目标概率密度进行多目标跟踪。IEEE跨航空电子系统41(4):1396–1414·doi:10.1109/TAES.2005.1561892
[32] Kreucher CM、Blatt D、Hero AO III、Kastella K(2006),用于检测和跟踪智能目标的自适应多模传感器调度。数字信号处理16:546–567·doi:10.1016/j.dsp.2004.12.008
[33] Kreucher CM,Hero AO III,Kastella K,Chang D(2004)多目标跟踪中非近视传感器管理的有效方法。In:程序。第43届IEEE决策与控制会议(CDC’04),2004年12月14日至17日
[34] Krishnamurthy V(2005)网络中心战中低概率拦截传感器的发射管理。IEEE Trans-Aerosp电子系统41(1):133–151·doi:10.1109/TAES.2005.1413752
[35] Krishnamurthy V,Evans RJ(2001)《隐马尔可夫模型多武器强盗:多目标跟踪中波束调度的方法》。IEEE传输信号处理49(12):2893–2908·doi:10.1109/78.969499
[36] Li Y,Krakow LW,Chong EKP,Groom KN(2006)多传感器多目标跟踪的动态传感器管理。In:程序。第40届信息科学和系统年会,普林斯顿,2006年3月22日至24日,第1397–1402页
[37] Li Y,Krakow LW,Chong EKP,Groom KN(2007)跟踪多目标传感器调度的近似随机动态规划。数字信号处理。doi:10.1016/j.dsp.2007.05.004
[38] Lovejoy WS(1991a)部分观测Markov决策过程的计算可行界。运营研究39:162–175·Zbl 0743.90110号 ·doi:10.1287/操作39.1.162
[39] Lovejoy WS(1991b)部分可观测Markov决策过程的算法方法综述。Ann Oper Res 28(1):47–65·Zbl 0717.90086号 ·doi:10.1007/BF020555574
[40] Miller SA、Harris ZA和Chong EKP(2009)用于多目标跟踪的自主无人机协调制导的POMDP框架。EURASIP J Appl Signal Process(机器人和自主领域信号处理进展专刊)。doi:10.1155/2009/724597·Zbl 1184.90169号
[41] Pontryagin LS、Boltyansky VG、Gamkrelidze RV、Mishchenko EF(1962)《优化过程的数学理论》。纽约威利
[42] Powell WB(2007)近似动态编程:解决维度的诅咒。Wiley-Interscience,纽约·Zbl 1156.90021号
[43] Ristic B,Arulampalam S,Gordon N(2004)《超越卡尔曼滤波器:跟踪应用的粒子滤波器》。诺伍德阿泰克大厦·Zbl 1092.93041号
[44] Roy N,Gordon G,Thrun S(2005)通过信念压缩找到近似POMDP解。J Artif智能研究23:1–40·Zbl 1080.68690号 ·doi:10.1016/j.artint.2005.06.002
[45] Rust J(1997)使用随机化打破维度诅咒。计量经济学65(3):487–516·Zbl 0872.90107号 ·doi:10.2307/2171751
[46] Scott WR Jr、Kim K、Larson GD、Gurbuz AC、McClellan JH(2004)用于地雷探测的组合地震、雷达和感应传感器。In:程序。2004年IEEE地球科学和遥感研讨会,安克雷奇,2004年9月20日至24日,第1613-1616页
[47] Shi L,Chen C-H(2000)随机离散资源分配优化的新算法。离散事件动态系统10:271–294·Zbl 0959.91037号 ·doi:10.1023/A:1017214011352
[48] Smallwood RD,Sondik EJ(1973)有限时间内部分可观测马尔可夫过程的最优控制。运营研究21(5):1071–1088·Zbl 0275.93059号 ·doi:10.1287/opre.21.5.1071
[49] Sutton RS,Barto AG(1998)强化学习。麻省理工学院,剑桥
[50] Thrun S、Burgard W、Fox D(2005)《概率机器人》。麻省理工学院,剑桥
[51] Tijms HC(2003)随机模型第一课程。纽约威利·Zbl 1088.60002号
[52] Washburn R、Schneider M、Fox J(2002),基于随机动态规划的传感器资源管理方法。In:关于信息融合的第五次会议
[53] Watkins CJCH(1989)从延迟奖励中学习。剑桥大学国王学院博士论文
[54] Willems JC(1996)1969:最优控制的诞生。In:程序。第35届IEEE决策与控制会议(CDC’96),第1586–1587页
[55] Wu G,Chong EKP,Givan RL(2002)使用事后优化的突发级拥塞控制。IEEE Trans-Automat Control(通信网络系统和控制方法特刊)47(6):979–991·Zbl 1364.90114号
[56] Yu H,Bertsekas DP(2004)具有平均成本的POMDP离散近似。In:程序。人工智能中不确定性的第20次讨论,班夫,第619-627页
[57] 张NL,刘伟(1996)《随机域规划:问题特征与逼近》。技术报告HKUST-CS96-31,香港科技大学计算机科学系
[58] Zhang Z,Moola S,Chong EKP(2008)无线网络中机会公平调度的近似随机动态规划。In:程序。第47届IEEE决策与控制会议,坎昆,2008年12月9-11日,第1404-1409页
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。