×

一阶MDP的实用解决方案技术。 (英语) Zbl 1191.68641号

总结:许多传统的解决方法用于相关规定的决策理论规划问题(例如,概率规划领域描述语言(PPDDL)中所述的那些问题)根据领域对象的特定实例化建立规范,并将解决方法直接应用于生成的地面马尔可夫决策过程(MDP)。不幸的是,这些固定解方法的空间和时间复杂性在域对象数量上是多项式的,在关系问题规范中谓词arity和嵌套量词数量上是指数的。另一种解决关系规划问题的方法是直接在关系层面上解决问题。在本文中,我们提出了一种这样的方法,该方法将PPDDL表示的一个表达子集转换为一阶MDP(FOMDP)规范,然后在任何中间步骤都不需要基础的情况下导出域依赖策略。然而,这种通用性并非没有一系列挑战——本文的目的是探索解决FOMDP的实用解决方案技术。为了证明我们的技术的适用性,我们给出了我们的一阶近似线性规划规划器对2004年和2006年ICAPS国际规划竞赛概率轨道问题的概念验证结果。

MSC公司:

68T20型 人工智能背景下的问题解决(启发式、搜索策略等)
90立方厘米 马尔可夫和半马尔可夫决策过程
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] D.Andre,S.Russell,《可编程强化学习代理:神经信息处理系统的进展》(NIPS-01),第13卷,2001年,第78-85页;D.Andre,S.Russell,可编程强化学习代理,摘自:神经信息处理系统的进展(NIPS-01),第13卷,2001年,第78-85页
[2] F.Bacchus,J.Y.Halpern,H.J.Levesque,《情境演算中噪声传感器的推理》,收录于:国际人工智能联合会议(IJCAI-95),蒙特利尔,1995年,第1933-1940页;F.Bacchus,J.Y.Halpern,H.J.Levesque,《情境演算中噪声传感器的推理》,摘自:国际人工智能联合会议(IJCAI-95),蒙特利尔,1995年,第1933-1940页·Zbl 0996.68192号
[3] 巴克斯,F。;Kabanza,F.,《使用时序逻辑表示规划的搜索控制知识》,人工智能,116,1-2,123-191(2000)·Zbl 0939.68827号
[4] R.I.Bahar,E.Frohm,C.Gaona,G.Hachtel,E.Macii,A.Pardo,F.Somenzi,代数决策图及其应用,收录于:IEEE/ACM CAD国际会议,1993年,第428-432页;R.I.Bahar、E.Frohm、C.Gaona、G.Hachtel、E.Macii、A.Pardo、F.Somenzi,代数决策图及其应用,载于:IEEE/ACM国际CAD会议,1993年,第428-432页
[5] A.G.Barto,S.J.Bradtke,S.P.Singh,《使用实时动态编程学习行动》,麻省理工大学UM-CS-1993-002,马萨诸塞州阿默斯特大学,1993年;A.G.Barto,S.J.Bradtke,S.P.Singh,《学习使用实时动态编程进行操作》,技术代表UM-CS-1993-002,美国马萨诸塞州阿默斯特,1993年
[6] Bellman,R.E.,《动态编程》(1957),普林斯顿大学出版社:普林斯顿大学出版,新泽西州普林斯顿·Zbl 0077.13605号
[7] Bertsekas,D.P.,《动态编程》(1987),普伦蒂斯·霍尔:新泽西州普伦蒂斯霍尔-恩格尔伍德悬崖·Zbl 0935.90037号
[8] Bertsekas,D.P。;Tsitsiklis,J.N.,神经动力学编程(1996),雅典娜科学:雅典娜科技贝尔蒙特,马萨诸塞州·Zbl 0924.68163号
[9] A.L.Blum,M.L.Furst,通过图形分析进行快速规划,载于:IJCAI 95,蒙特利尔,1995年,第1636-1642页;A.L.Blum,M.L.Furst,通过图分析快速规划,收录于:IJCAI 95,蒙特利尔,1995年,第1636-1642页
[10] B.Bonet,H.Geffner,《mGPT:基于启发式搜索的概率规划师》,载于:《IPC-04概率规划轨道在线会议录:http://www.cs.rutgers.edu/mlittman/topics/ipc04-pt/程序/;B.Bonet,H.Geffner,《mGPT:基于启发式搜索的概率规划师》,载于:《IPC-04概率规划轨道在线会议录:http://www.cs.rutgers.edu/mlittman/topics/ipc04-pt/会议记录/·Zbl 1080.68656号
[11] C.Boutiler、R.I.Brafman、C.Geib,《马尔可夫决策过程的优先目标分解:走向经典规划和决策理论规划的综合》,载于:国际人工智能联合会议(IJCAI-97)。名古屋,1997年,第1156-1162页;C.Boutiler、R.I.Brafman、C.Geib,《马尔可夫决策过程的优先目标分解:走向经典规划和决策理论规划的综合》,载于:国际人工智能联合会议(IJCAI-97)。名古屋,1997年,第1156-1162页
[12] Boutiler,C。;院长,T。;Hanks,S.,《决策理论规划:结构假设和计算杠杆》,《人工智能研究杂志》(JAIR),11,1-94(1999)·Zbl 0918.68110号
[13] C.Boutiler,N.Friedman,M.Goldszmidt,D.Koller,贝叶斯网络中的上下文特定独立性,收录于:人工智能中的不确定性(UAI-96),俄勒冈州波特兰,1996年,第115-123页;C.Boutiler,N.Friedman,M.Goldszmidt,D.Koller,贝叶斯网络中的上下文特定独立性,收录于:人工智能中的不确定性(UAI-96),俄勒冈州波特兰,1996年,第115-123页
[14] C.Boutiler、R.Reiter、B.Price,《一阶MDP的符号动态规划》,载于:国际人工智能联合会议(IJCAI-01),西雅图,2001年,第690-697页;C.Boutiler、R.Reiter、B.Price,《一阶MDP的符号动态规划》,载于:国际人工智能联合会议(IJCAI-01),西雅图,2001年,第690-697页
[15] C.Boutiler、R.Reiter、M.Soutchanski、S.Thrun,《情境演算中的决策论高级代理编程》,载于:AAAI-00,德克萨斯州奥斯汀,2000年,第355-362页;C.Boutiler、R.Reiter、M.Soutchanski、S.Thrun,《情境演算中的决策论高级代理编程》,收录于:AAAI-00,德克萨斯州奥斯汀,2000年,第355-362页
[16] Brachman,R。;Levesque,H.,《知识表示与推理》(2004),摩根考夫曼出版公司:摩根考夫曼出版公司,加利福尼亚州旧金山
[17] O.Buffet,D.Aberdeen,因子化政策梯度规划师(ipc-06版),载于《第五届国际规划竞赛论文集》,2006年;O.Buffet,D.Aberdeen,因子化政策梯度规划师(ipc-06版),摘自:2006年第五届国际规划竞赛论文集·Zbl 1192.68636号
[18] Buntine,W.,《广义包含及其在归纳和冗余中的应用》,人工智能,36375-399(1988)
[19] de Farias,D。;Roy,B.V.,《近似动态规划的线性规划方法》,运筹学,51,6,850-865(2003)·兹比尔1165.90666
[20] R.de Salvo Braz,E.Amir,D.Roth,《提升一阶概率推理》,载于:第19届国际人工智能联合会议(IJCAI-2005),英国爱丁堡,2005年,第1319-1325页;R.de Salvo Braz,E.Amir,D.Roth,《提升一阶概率推理》,载于:第19届国际人工智能联合会议(IJCAI-2005),英国爱丁堡,2005年,第1319-1325页
[21] R.de Salvo Braz,E.Amir,D.Roth,MPE和提升概率变量消除中的部分反演,摘自:美国波士顿国家人工智能会议(AAAI-06),2006年;R.de Salvo Braz,E.Amir,D.Roth,MPE和提升概率变量消除中的部分反演,收录于:美国波士顿国家人工智能会议(AAAI-06),2006年
[22] 迪尔登,R。;Boutiler,C.,抽象和近似决策理论规划,人工智能,89,12,219-283(1997)·Zbl 1042.68669号
[23] Dechter,R.,桶消除:推理的统一框架,人工智能,113,41-85(1999)·Zbl 0939.68847号
[24] K.Driessens,S.Dzeroski,《在关系强化学习中整合实验和指导》,载《机器学习国际会议》,2002年,第115-122页;K.Driessens,S.Dzeroski,《关系强化学习中的实验与指导整合》,载于:国际机器学习会议,2002年,第115-122页·Zbl 1079.68084号
[25] Dzeroski,S。;DeRaedt,L。;Driessens,K.,《关系强化学习》,《机器学习杂志》(MLJ),43,7-52(2001)·Zbl 0988.68088号
[26] A.Fern,S.Yoon,R.Givan,《带有政策语言偏差的近似政策迭代》,载于《神经信息处理系统的进展》第16期(NIPS-03),2003年12月;A.Fern,S.Yoon,R.Givan,《带有政策语言偏差的近似政策迭代》,载于《神经信息处理系统的进展》第16期(NIPS-03),2003年12月·Zbl 1182.68237号
[27] A.Fern,S.Yoon,R.Givan,从随机漫步中学习特定领域的控制知识,收录于:国际计划与调度会议(ICAPS-04),2004年6月,第191-199页;A.Fern,S.Yoon,R.Givan,从随机漫步中学习特定领域的控制知识,收录于:国际计划与调度会议(ICAPS-04),2004年6月,第191-199页
[28] A.Ferrein,C.Fritz,G.Lakemeyer,《用选项扩展DTGolog》,载于:第18届国际人工智能联合会议(IJCAI-2003),墨西哥阿卡普尔科,2003年,第144-151页;A.Ferrein,C.Fritz,G.Lakemeyer,《用选项扩展DTGolog》,载于:第18届国际人工智能联合会议(IJCAI-2003),墨西哥阿卡普尔科,2003年,第144-151页
[29] Fikes,R.E。;Nilsson,N.J.,STRIPS:将定理证明应用于问题解决的新方法,AI期刊,2189-208(1971)·Zbl 0234.68036号
[30] N.H.Gardiol,L.P.Kaelbling,《关系MDP中基于包络的规划》,载于《神经信息处理系统的进展》16(NIPS-03),加利福尼亚州温哥华,2004年,第1040-1046页;N.H.Gardiol,L.P.Kaelbling,关系MDP中的基于包络的规划,收录于:神经信息处理系统的进展16(NIPS-03),加利福尼亚州温哥华,2004年,第1040-1046页
[31] Gartner,T。;德莱森斯,K。;Ramon,J.,关系强化学习的图核和高斯过程,机器学习杂志(MLJ),64,91-119(2006)·Zbl 1103.68681号
[32] A.Gerevini,B.Bonet,B.Givan(编辑),第五届国际规划竞赛IPC-05在线会议记录:http://www.ldc.usb.ve/bonet/ipc5/docs/ipc-2006-booklet.pdf.gz; A.Gerevini,B.Bonet,B.Givan(编辑),第五届国际规划竞赛IPC-05在线会议记录:http://www.ldc.usb.ve/bonet/ipc5/docs/ipc-2006-booklet.pdf.gz
[33] C.Gretton,S.Thiebaux,《在归纳政策选择中利用一阶回归》,载于:《人工智能中的不确定性》(UAI-04),加拿大班夫,2004年,第217-225页;C.Gretton,S.Thiebaux,在归纳政策选择中利用一阶回归,载于:人工智能的不确定性(UAI-04),加拿大班夫,2004年,第217-225页
[34] C.Guestrin,M.Hauskrecht,B.Kveton,用连续和离散变量求解因子MDP,载于:第20届人工智能不确定性会议,2004年,第235-242页;C.Guestrin,M.Hauskrecht,B.Kveton,用连续和离散变量求解因子化MDP,收录于:第20届人工智能不确定性会议,2004年,第235-242页·Zbl 1182.68252号
[35] C.Guestrin、D.Koller、C.Gearhart、N.Kanodia,《关系型MDP中新环境的通用计划》,载于:第18届国际人工智能联合会议(IJCAI-2003),墨西哥阿卡普尔科,2003年,第1003-1010页;C.Guestrin、D.Koller、C.Gearhart、N.Kanodia,《关系型MDP中新环境的通用计划》,载于:第18届国际人工智能联合会议(IJCAI-2003),墨西哥阿卡普尔科,2003年,第1003-1010页
[36] Guestrin,C。;科勒,D。;帕尔,R。;Venktaraman,S.,因子化MDP的有效求解方法,《人工智能研究杂志》,第19期,第399-468页(2002年)·Zbl 1026.68125号
[37] M.Hauskrecht,B.Kveton,因子化连续状态Markov决策过程的线性程序近似,in:神经信息处理系统进展,2004年,第895-902页;M.Hauskrecht,B.Kveton,因子化连续状态Markov决策过程的线性程序近似,收录于:神经信息处理系统进展16,2004年,第895-902页
[38] J.Hoey,R.St-Aubin,A.Hu,C.Boutiler,SPUDD:使用决策图的随机规划,摘自:《人工智能中的不确定性》(UAI-99),斯德哥尔摩,1999年,第279-288页;J.Hoey,R.St-Aubin,A.Hu,C.Boutiler,SPUDD:使用决策图的随机规划,摘自:人工智能中的不确定性(UAI-99),斯德哥尔摩,1999年,第279-288页
[39] 霍夫曼,J。;Nebel,B.,《FF计划系统:通过启发式搜索快速生成计划》,《人工智能研究杂志》(JAIR),第14期,第253-302页(2001年)·Zbl 0970.68044号
[40] Hölldobler,S。;卡拉巴耶夫,E。;Skvortsova,O.,FluCaP:一阶mdp的启发式搜索规划器,《人工智能研究杂志》,27419-439(2006)·Zbl 1182.68246号
[41] Howard,R.A.,《动态规划和马尔可夫过程》(1960),麻省理工学院出版社·Zbl 0091.16001号
[42] E.Karabaev,O.Skvortsova,求解一阶MDP的启发式搜索算法,in:《人工智能中的不确定性》(UAI-05),苏格兰爱丁堡,2005年,第292-299页;E.Karabaev,O.Skvortsova,求解一阶MDP的启发式搜索算法,收录于:人工智能中的不确定性(UAI-05),苏格兰爱丁堡,2005年,第292-299页
[43] K.Kersting,M.van Otterlo,L.de Raedt,Bellman goes relational,in:机器学习国际会议(ICML-04),ACM出版社,2004年,第465-472页;K.Kersting,M.van Otterlo,L.de Raedt,Bellman goes relational,in:机器学习国际会议(ICML-04),ACM出版社,2004年,第465-472页
[44] Khardon,R.,规划领域的学习行动策略,人工智能,113,1-2,125-148(1999)·Zbl 0943.68130号
[45] Khardon,R.,《学会采取行动》,机器学习,35,1,57-90(1999)·Zbl 0920.68103号
[46] D.Koller,R.Parr,《结构化MDP中政策的计算因子价值函数》,摘自:国际人工智能联合会议(IJCAI-99),斯德哥尔摩,1999年,第1332-1339页;D.Koller,R.Parr,《结构化MDP中政策的计算因子价值函数》,摘自:国际人工智能联合会议(IJCAI-99),斯德哥尔摩,1999年,第1332-1339页
[47] D.Koller,R.Parr,因子化MDP的政策迭代,in:人工智能中的不确定性(UAI-00),斯德哥尔摩,2000年,第326-334页;D.Koller,R.Parr,因子化MDP的政策迭代,in:人工智能中的不确定性(UAI-00),斯德哥尔摩,2000年,第326-334页
[48] Levesque,H.J。;Reiter,R。;Lespérance,Y。;林,F。;Scherl,R.,GOLOG:一种用于动态域的逻辑编程语言,《逻辑编程杂志》,31,1-3,59-83(1997)·兹比尔0880.68008
[49] I.Little,Paragraph:A Graphplan based probability planner,摘自:2006年第五届国际规划竞赛论文集;I.Little,Paragraph:A Graphplan based probability planner,摘自:2006年第五届国际规划竞赛论文集
[50] M.L.Littman,H.L.S.Younes(编辑),IPC-04概率规划轨道的在线程序:http://www.cs.rutgers.edu/mlittman/topics/ipc04-pt/程序/; M.L.Littman,H.L.S.Younes(编辑),IPC-04概率规划轨道的在线程序:http://www.cs.rutgers.edu/mlittman/topics/ipc04-pt/程序/
[51] S.Mahadevan,Samuel meets Amarel:《使用全局状态空间分析实现值函数近似自动化》,载于:国家人工智能会议(AAAI-05),匹兹堡,2005年,第1000-1005页;S.Mahadevan,Samuel meet Amarel:Automating value function approximation using global state space analysis,in:National Conference on Artificial Intelligence(AAAI-05),匹兹堡,2005,pp.1000-1005
[52] McCarthy,J.,《情境、行为和因果律》,斯坦福大学技术代表,1963年,再版,(Minsky,M.,语义信息处理(1968),麻省理工学院出版社:麻省理工大剑桥出版社),410-417
[53] N.Meuleau,M.Hauskrecht,K.-E.Kim,L.Peshkin,L.P.Kaelbling,T.Dean,C.Boutiler,求解超大弱耦合Markov决策过程,收录于:美国人工智能全国会议(AAAI-98),威斯康星州麦迪逊,1998年,第165-172页;N.Meuleau,M.Hauskrecht,K.-E.Kim,L.Peshkin,L.P.Kaelbling,T.Dean,C.Boutiler,《求解超大弱耦合Markov决策过程》,收录于:美国人工智能全国会议(AAAI-98),威斯康星州麦迪逊,1998年,第165-172页
[54] B.Motik,《使用分辨率和演绎数据库进行描述逻辑推理》,博士论文,Univesität Karlsruhe(TH),德国卡尔斯鲁厄,2006年1月;B.Motik,《使用分辨率和演绎数据库进行描述逻辑推理》,博士论文,Univesität Karlsruhe(TH),德国卡尔斯鲁厄,2006年1月
[55] Ng,A.Y。;原田,D。;Russell,S.,《报酬转换下的政策不变性:报酬塑造的理论与应用》,(第16届国际机器学习大会(1999年),Morgan Kaufmann:Morgan Koufmann San Francisco,CA),278-287
[56] 帕尔·R。;Russell,S.,《机器层次结构的强化学习》(Jordan,M.M.K.;Solla,S.),《神经信息处理系统进展》10(1998),麻省理工学院出版社:麻省理学院出版社剑桥,1043-1049
[57] R.Patrascu,P.Poupart,D.Schuurmans,C.Boutiler,C.Guestrin,因子化马尔可夫决策过程的贪婪线性值逼近,收录于:国家人工智能会议(AAAI-02),埃德蒙顿,2002年,第285-291页;R.Patrascu,P.Poupart,D.Schuurmans,C.Boutiler,C.Guestrin,因子化马尔可夫决策过程的贪婪线性值逼近,收录于:国家人工智能会议(AAAI-02),埃德蒙顿,2002年,第285-291页
[58] E.P.D.Pednault,ADL:探索STRIPS和情境演算之间的中间地带,KR,1989年,第324-332页;E.P.D.Pednault,ADL:探索STRIPS和情境演算之间的中间地带,KR,1989年,第324-332页
[59] Poole,D.,《不确定性下多智能体建模的独立选择逻辑》,人工智能,94,1-2,7-56(1997)·Zbl 0902.03017号
[60] D.Poole,一阶概率推断,收录于:IJCAI,2003年,第985-991页;D.Poole,一阶概率推断,收录于:IJCAI,2003年,第985-991页
[61] P.Poupart,C.Boutiler,R.Patrascu,D.Schuurmans,分解MDP的分段线性值函数近似,收录于:国家人工智能会议(AAAI-02),埃德蒙顿,2002年,第292-299页;P.Poupart,C.Boutiler,R.Patrascu,D.Schuurmans,分解MDP的分段线性值函数近似,收录于:国家人工智能会议(AAAI-02),埃德蒙顿,2002年,第292-299页
[62] Puterman,M.L.,《马尔可夫决策过程:离散随机动态规划》(1994),威利出版社,纽约·Zbl 0829.90134号
[63] Reiter,R.,《情境演算中的框架问题:目标回归的简单解决方案(有时)和完整结果》,(Lifschitz,V.,《人工智能和计算数学理论》(约翰·麦卡锡荣誉论文)(1991),学术出版社:加州圣地亚哥学术出版社),359-380·Zbl 0755.68124号
[64] Reiter,R.,《行动中的知识:指定和实现动态系统的逻辑基础》(2001),麻省理工学院出版社·Zbl 1018.03022号
[65] Riazanov,A。;Voronkov,A.,《吸血鬼的设计与实现》,AI Communications,15,2,91-110(2002)·Zbl 1021.68082号
[66] J.Rintanen,规划与感知形式的表达等效,载于:第13届自动规划与调度国际会议,2003年,第185-194页;J.Rintanen,规划与感知形式的表达等效,载于:第13届自动规划与调度国际会议,2003年,第185-194页
[67] S.Sanner,结构化关系环境中的一阶决策理论规划,博士论文,加拿大安大略省多伦多市多伦多大学,2008年3月;S.Sanner,结构化关系环境中的一阶决策理论规划,博士论文,加拿大安大略省多伦多市多伦多大学,2008年3月
[68] S.Sanner,C.Boutilier,《一阶MDP的近似线性规划》,《人工智能的不确定性》(UAI-05),苏格兰爱丁堡,2005年,第509-517页;S.Sanner,C.Boutiler,一阶MDP的近似线性规划,收录于:人工智能中的不确定性(UAI-05),苏格兰爱丁堡,2005年,第509-517页·Zbl 1341.90144号
[69] S.Sanner,C.Boutiler,一阶MDP的实用线性评估技术,in:人工智能中的不确定性(UAI-06),马萨诸塞州波士顿,2006年;S.Sanner,C.Boutiler,一阶MDP的实用线性评估技术,收录于:人工智能中的不确定性(UAI-06),马萨诸塞州波士顿,2006年·Zbl 1191.68641号
[70] S.Sanner,C.Boutiler,因子化一阶MDP的近似求解技术,载于:第17届自动规划与调度国际会议(ICAPS-07),2007年,第288-295页;S.Sanner,C.Boutiler,因子化一阶MDP的近似求解技术,收录于:第17届自动规划与调度国际会议(ICAPS-07),2007年,第288-295页·Zbl 1191.68641号
[71] D.Schuurmans,R.Patrascu,因子MDP的直接值近似,载于:神经信息处理进展14(NIPS-01),温哥华,2001年,第1579-1586页;D.Schuurmans,R.Patrascu,因子MDP的直接值近似,in:神经信息处理的进展14(NIPS-01),温哥华,2001年,第1579-1586页
[72] Schweitzer,P。;塞德曼,A.,马尔科夫决策过程中的广义多项式近似,数学分析与应用杂志,110,568-582(1985)·Zbl 0578.90091号
[73] Shapley,L.S.,《随机游戏》,《国家科学院院刊》,39,327-332(1953)·Zbl 0051.35805号
[74] 辛格,S.P。;Cohn,D.,《如何动态合并马尔可夫决策过程》(How to dynamic merge Markov decision processes)(《神经信息处理系统进展》(NIPS-98)(1998),麻省理工学院出版社:麻省理学院出版社剑桥,1057-1063
[75] R.St-Aubin,J.Hoey,C.Boutiler,APRICODD:使用决策图进行近似政策构建,摘自:神经信息处理进展13(NIPS-00),丹佛,2000年,第1089-1095页;R.St-Aubin,J.Hoey,C.Boutiler,APRICODD:使用决策图进行近似政策构建,摘自:神经信息处理进展13(NIPS-00),丹佛,2000年,第1089-1095页
[76] F.Teichteil,P.Fabiani,《带决策图的符号随机聚焦动态规划》,载《第五届国际规划竞赛论文集》,2006年;F.Teichteil,P.Fabiani,带决策图的符号随机聚焦动态规划,收录于:第五届国际规划竞赛论文集,2006年·Zbl 1112.90092号
[77] 蒂堡,S。;格雷顿,C。;斯莱尼,J。;价格,D。;Kabanza,F.,《非马尔科夫报酬的决策理论规划》,《人工智能研究杂志》,第25期,第17-74页(2006年1月)·Zbl 1182.68270号
[78] 齐齐克利斯,J.N。;Van Roy,B.,《大规模动态规划的基于特征的方法》,机器学习,22,59-94(1996)·Zbl 1099.90586号
[79] M.Veloso,《在一般问题解决中通过类比推理学习》,卡内基梅隆大学博士论文,1992年8月;M.Veloso,《在一般问题解决中通过类比推理学习》,卡内基梅隆大学博士论文,1992年8月
[80] C.Wang,S.Joshi,R.Khardon,关系型MDP的一阶决策图,载于:第二十届国际人工智能联合会议(IJCAI-07),印度海得拉巴,2007年,第1095-1100页;C.Wang,S.Joshi,R.Khardon,关系型MDP的一阶决策图,载于:第二十届国际人工智能联合会议(IJCAI-07),印度海得拉巴,2007年,第1095-1100页·Zbl 1182.68271号
[81] 王,C。;Joshi,S。;Khardon,R.,关系MDP的一阶决策图,《人工智能研究杂志》(JAIR),31431-472(2008)·Zbl 1182.68271号
[82] C.Wang,R.Khardon,关系MDP的政策迭代,in:人工智能中的不确定性(UAI-07),加拿大温哥华,2007年;C.Wang,R.Khardon,关系型MDP的政策迭代,载于:人工智能的不确定性(UAI-07),加拿大温哥华,2007年
[83] J.Wu,R.Givan,《发现概率规划的关系域特征》,载:第17届国际自动化规划与调度会议(ICAPS 2007),2007年,第344-351页;J.Wu,R.Givan,《发现概率规划的关系域特征》,载于:第17届国际自动规划与调度会议(ICAPS 2007),2007年,第344-351页
[84] S.Yoon,A.Fern,R.Givan,一阶马尔可夫决策过程的归纳策略选择,收录于:人工智能中的不确定性(UAI-02),埃德蒙顿,2002年,第569-576页;S.Yoon,A.Fern,R.Givan,一阶马尔可夫决策过程的归纳策略选择,收录于:人工智能中的不确定性(UAI-02),埃德蒙顿,2002年,第569-576页
[85] S.Yoon,A.Fern,R.Givan,《学习概率规划领域的反应策略》,收录于:IPC-04概率规划轨道的在线程序:http://www.cs.rutgers.edu/mlittman/topics/ipc04-pt/程序/; S.Yoon,A.Fern,R.Givan,《学习概率规划领域的反应策略》,收录于:IPC-04概率规划轨道的在线程序:http://www.cs.rutgers.edu/mlittman/topics/ipc04-pt/proceedings(http://www.cs.rutgers.edu/mlittman/topics/ipc04-pt/proceedings)/
[86] S.Yoon,A.Fern,R.Givan,规划领域进度的学习度量,收录于:第20届全国人工智能会议,2005年7月,第1217-1222页;S.Yoon,A.Fern,R.Givan,规划领域进度的学习度量,收录于:第20届全国人工智能会议,2005年7月,第1217-1222页
[87] 尹,S。;弗恩,A。;Givan,R.,《带有政策语言偏差的近似政策迭代:学习求解关系马尔可夫决策过程》,《人工智能研究杂志》(JAIR),25,85-118(2006)·Zbl 1182.68237号
[88] S.Yoon,A.Fern,R.Givan,《FF-Replan:概率规划的基准》,载于:第17届国际自动规划与调度会议(ICAPS-07),2007年,第352-359页;S.Yoon,A.Fern,R.Givan,《FF-Replan:概率规划的基准》,载于:第17届国际自动规划与调度会议(ICAPS-07),2007年,第352-359页
[89] Younes,H.L.S。;利特曼,M.L。;韦斯曼,D。;Asmuth,J.,《国际规划竞赛的第一条概率轨道》,《人工智能研究杂志》(JAIR),24851-887(2005)·Zbl 1080.68676号
[90] N.L.Zhang,D.Poole,《贝叶斯网络计算的简单方法》,摘自:Proc。第十届加拿大人工智能会议,1994年,第171-178页;N.L.Zhang,D.Poole,《贝叶斯网络计算的简单方法》,摘自:Proc。第十届加拿大人工智能会议,1994年,第171-178页
[91] Zhang,N.L。;Poole,D.,《利用贝叶斯网络推理中的因果独立性》,《人工智能研究杂志》(JAIR),5301-328(1996)·Zbl 0900.68384号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。