斯科特·桑纳;Craig Boutiler公司 一阶MDP的实用解决方案技术。 (英语) Zbl 1191.68641号 Artif公司。智力。 173,编号5-6,748-788(2009)。 总结:许多传统的解决方法用于相关规定的决策理论规划问题(例如,概率规划领域描述语言(PPDDL)中所述的那些问题)根据领域对象的特定实例化建立规范,并将解决方法直接应用于生成的地面马尔可夫决策过程(MDP)。不幸的是,这些固定解方法的空间和时间复杂性在域对象数量上是多项式的,在关系问题规范中谓词arity和嵌套量词数量上是指数的。另一种解决关系规划问题的方法是直接在关系层面上解决问题。在本文中,我们提出了一种这样的方法,该方法将PPDDL表示的一个表达子集转换为一阶MDP(FOMDP)规范,然后在任何中间步骤都不需要基础的情况下导出域依赖策略。然而,这种通用性并非没有一系列挑战——本文的目的是探索解决FOMDP的实用解决方案技术。为了证明我们的技术的适用性,我们给出了我们的一阶近似线性规划规划器对2004年和2006年ICAPS国际规划竞赛概率轨道问题的概念验证结果。 引用于14文件 MSC公司: 68T20型 人工智能背景下的问题解决(启发式、搜索策略等) 90立方厘米 马尔可夫和半马尔可夫决策过程 关键词:MDP公司;一阶逻辑;规划 软件:FODD-计划;氟氯化钙;NMRDPP公司;图规划;高尔夫;VAMPIRE公司 PDF格式BibTeX公司 XML格式引用 \textit{S.Sanner}和\textit{C.Boutiler},Artif。智力。173,编号5--6,748--788(2009;Zbl 1191.68641) 全文: 内政部 参考文献: [1] D.Andre,S.Russell,《可编程强化学习代理:神经信息处理系统的进展》(NIPS-01),第13卷,2001年,第78-85页;D.Andre,S.Russell,可编程强化学习代理,摘自:神经信息处理系统的进展(NIPS-01),第13卷,2001年,第78-85页 [2] F.Bacchus,J.Y.Halpern,H.J.Levesque,《情境演算中噪声传感器的推理》,收录于:国际人工智能联合会议(IJCAI-95),蒙特利尔,1995年,第1933-1940页;F.Bacchus,J.Y.Halpern,H.J.Levesque,《情境演算中噪声传感器的推理》,摘自:国际人工智能联合会议(IJCAI-95),蒙特利尔,1995年,第1933-1940页·Zbl 0996.68192号 [3] 巴克斯,F。;Kabanza,F.,《使用时序逻辑表示规划的搜索控制知识》,人工智能,116,1-2,123-191(2000)·Zbl 0939.68827号 [4] R.I.Bahar,E.Frohm,C.Gaona,G.Hachtel,E.Macii,A.Pardo,F.Somenzi,代数决策图及其应用,收录于:IEEE/ACM CAD国际会议,1993年,第428-432页;R.I.Bahar、E.Frohm、C.Gaona、G.Hachtel、E.Macii、A.Pardo、F.Somenzi,代数决策图及其应用,载于:IEEE/ACM国际CAD会议,1993年,第428-432页 [5] A.G.Barto,S.J.Bradtke,S.P.Singh,《使用实时动态编程学习行动》,麻省理工大学UM-CS-1993-002,马萨诸塞州阿默斯特大学,1993年;A.G.Barto,S.J.Bradtke,S.P.Singh,《学习使用实时动态编程进行操作》,技术代表UM-CS-1993-002,美国马萨诸塞州阿默斯特,1993年 [6] Bellman,R.E.,《动态编程》(1957),普林斯顿大学出版社:普林斯顿大学出版,新泽西州普林斯顿·Zbl 0077.13605号 [7] Bertsekas,D.P.,《动态编程》(1987),普伦蒂斯·霍尔:新泽西州普伦蒂斯霍尔-恩格尔伍德悬崖·Zbl 0935.90037号 [8] Bertsekas,D.P。;Tsitsiklis,J.N.,神经动力学编程(1996),雅典娜科学:雅典娜科技贝尔蒙特,马萨诸塞州·Zbl 0924.68163号 [9] A.L.Blum,M.L.Furst,通过图形分析进行快速规划,载于:IJCAI 95,蒙特利尔,1995年,第1636-1642页;A.L.Blum,M.L.Furst,通过图分析快速规划,收录于:IJCAI 95,蒙特利尔,1995年,第1636-1642页 [10] B.Bonet,H.Geffner,《mGPT:基于启发式搜索的概率规划师》,载于:《IPC-04概率规划轨道在线会议录:http://www.cs.rutgers.edu/mlittman/topics/ipc04-pt/程序/;B.Bonet,H.Geffner,《mGPT:基于启发式搜索的概率规划师》,载于:《IPC-04概率规划轨道在线会议录:http://www.cs.rutgers.edu/mlittman/topics/ipc04-pt/会议记录/·Zbl 1080.68656号 [11] C.Boutiler、R.I.Brafman、C.Geib,《马尔可夫决策过程的优先目标分解:走向经典规划和决策理论规划的综合》,载于:国际人工智能联合会议(IJCAI-97)。名古屋,1997年,第1156-1162页;C.Boutiler、R.I.Brafman、C.Geib,《马尔可夫决策过程的优先目标分解:走向经典规划和决策理论规划的综合》,载于:国际人工智能联合会议(IJCAI-97)。名古屋,1997年,第1156-1162页 [12] Boutiler,C。;院长,T。;Hanks,S.,《决策理论规划:结构假设和计算杠杆》,《人工智能研究杂志》(JAIR),11,1-94(1999)·Zbl 0918.68110号 [13] C.Boutiler,N.Friedman,M.Goldszmidt,D.Koller,贝叶斯网络中的上下文特定独立性,收录于:人工智能中的不确定性(UAI-96),俄勒冈州波特兰,1996年,第115-123页;C.Boutiler,N.Friedman,M.Goldszmidt,D.Koller,贝叶斯网络中的上下文特定独立性,收录于:人工智能中的不确定性(UAI-96),俄勒冈州波特兰,1996年,第115-123页 [14] C.Boutiler、R.Reiter、B.Price,《一阶MDP的符号动态规划》,载于:国际人工智能联合会议(IJCAI-01),西雅图,2001年,第690-697页;C.Boutiler、R.Reiter、B.Price,《一阶MDP的符号动态规划》,载于:国际人工智能联合会议(IJCAI-01),西雅图,2001年,第690-697页 [15] C.Boutiler、R.Reiter、M.Soutchanski、S.Thrun,《情境演算中的决策论高级代理编程》,载于:AAAI-00,德克萨斯州奥斯汀,2000年,第355-362页;C.Boutiler、R.Reiter、M.Soutchanski、S.Thrun,《情境演算中的决策论高级代理编程》,收录于:AAAI-00,德克萨斯州奥斯汀,2000年,第355-362页 [16] Brachman,R。;Levesque,H.,《知识表示与推理》(2004),摩根考夫曼出版公司:摩根考夫曼出版公司,加利福尼亚州旧金山 [17] O.Buffet,D.Aberdeen,因子化政策梯度规划师(ipc-06版),载于《第五届国际规划竞赛论文集》,2006年;O.Buffet,D.Aberdeen,因子化政策梯度规划师(ipc-06版),摘自:2006年第五届国际规划竞赛论文集·Zbl 1192.68636号 [18] Buntine,W.,《广义包含及其在归纳和冗余中的应用》,人工智能,36375-399(1988) [19] de Farias,D。;Roy,B.V.,《近似动态规划的线性规划方法》,运筹学,51,6,850-865(2003)·兹比尔1165.90666 [20] R.de Salvo Braz,E.Amir,D.Roth,《提升一阶概率推理》,载于:第19届国际人工智能联合会议(IJCAI-2005),英国爱丁堡,2005年,第1319-1325页;R.de Salvo Braz,E.Amir,D.Roth,《提升一阶概率推理》,载于:第19届国际人工智能联合会议(IJCAI-2005),英国爱丁堡,2005年,第1319-1325页 [21] R.de Salvo Braz,E.Amir,D.Roth,MPE和提升概率变量消除中的部分反演,摘自:美国波士顿国家人工智能会议(AAAI-06),2006年;R.de Salvo Braz,E.Amir,D.Roth,MPE和提升概率变量消除中的部分反演,收录于:美国波士顿国家人工智能会议(AAAI-06),2006年 [22] 迪尔登,R。;Boutiler,C.,抽象和近似决策理论规划,人工智能,89,12,219-283(1997)·Zbl 1042.68669号 [23] Dechter,R.,桶消除:推理的统一框架,人工智能,113,41-85(1999)·Zbl 0939.68847号 [24] K.Driessens,S.Dzeroski,《在关系强化学习中整合实验和指导》,载《机器学习国际会议》,2002年,第115-122页;K.Driessens,S.Dzeroski,《关系强化学习中的实验与指导整合》,载于:国际机器学习会议,2002年,第115-122页·Zbl 1079.68084号 [25] Dzeroski,S。;DeRaedt,L。;Driessens,K.,《关系强化学习》,《机器学习杂志》(MLJ),43,7-52(2001)·Zbl 0988.68088号 [26] A.Fern,S.Yoon,R.Givan,《带有政策语言偏差的近似政策迭代》,载于《神经信息处理系统的进展》第16期(NIPS-03),2003年12月;A.Fern,S.Yoon,R.Givan,《带有政策语言偏差的近似政策迭代》,载于《神经信息处理系统的进展》第16期(NIPS-03),2003年12月·Zbl 1182.68237号 [27] A.Fern,S.Yoon,R.Givan,从随机漫步中学习特定领域的控制知识,收录于:国际计划与调度会议(ICAPS-04),2004年6月,第191-199页;A.Fern,S.Yoon,R.Givan,从随机漫步中学习特定领域的控制知识,收录于:国际计划与调度会议(ICAPS-04),2004年6月,第191-199页 [28] A.Ferrein,C.Fritz,G.Lakemeyer,《用选项扩展DTGolog》,载于:第18届国际人工智能联合会议(IJCAI-2003),墨西哥阿卡普尔科,2003年,第144-151页;A.Ferrein,C.Fritz,G.Lakemeyer,《用选项扩展DTGolog》,载于:第18届国际人工智能联合会议(IJCAI-2003),墨西哥阿卡普尔科,2003年,第144-151页 [29] Fikes,R.E。;Nilsson,N.J.,STRIPS:将定理证明应用于问题解决的新方法,AI期刊,2189-208(1971)·Zbl 0234.68036号 [30] N.H.Gardiol,L.P.Kaelbling,《关系MDP中基于包络的规划》,载于《神经信息处理系统的进展》16(NIPS-03),加利福尼亚州温哥华,2004年,第1040-1046页;N.H.Gardiol,L.P.Kaelbling,关系MDP中的基于包络的规划,收录于:神经信息处理系统的进展16(NIPS-03),加利福尼亚州温哥华,2004年,第1040-1046页 [31] Gartner,T。;德莱森斯,K。;Ramon,J.,关系强化学习的图核和高斯过程,机器学习杂志(MLJ),64,91-119(2006)·Zbl 1103.68681号 [32] A.Gerevini,B.Bonet,B.Givan(编辑),第五届国际规划竞赛IPC-05在线会议记录:http://www.ldc.usb.ve/bonet/ipc5/docs/ipc-2006-booklet.pdf.gz; A.Gerevini,B.Bonet,B.Givan(编辑),第五届国际规划竞赛IPC-05在线会议记录:http://www.ldc.usb.ve/bonet/ipc5/docs/ipc-2006-booklet.pdf.gz [33] C.Gretton,S.Thiebaux,《在归纳政策选择中利用一阶回归》,载于:《人工智能中的不确定性》(UAI-04),加拿大班夫,2004年,第217-225页;C.Gretton,S.Thiebaux,在归纳政策选择中利用一阶回归,载于:人工智能的不确定性(UAI-04),加拿大班夫,2004年,第217-225页 [34] C.Guestrin,M.Hauskrecht,B.Kveton,用连续和离散变量求解因子MDP,载于:第20届人工智能不确定性会议,2004年,第235-242页;C.Guestrin,M.Hauskrecht,B.Kveton,用连续和离散变量求解因子化MDP,收录于:第20届人工智能不确定性会议,2004年,第235-242页·Zbl 1182.68252号 [35] C.Guestrin、D.Koller、C.Gearhart、N.Kanodia,《关系型MDP中新环境的通用计划》,载于:第18届国际人工智能联合会议(IJCAI-2003),墨西哥阿卡普尔科,2003年,第1003-1010页;C.Guestrin、D.Koller、C.Gearhart、N.Kanodia,《关系型MDP中新环境的通用计划》,载于:第18届国际人工智能联合会议(IJCAI-2003),墨西哥阿卡普尔科,2003年,第1003-1010页 [36] Guestrin,C。;科勒,D。;帕尔,R。;Venktaraman,S.,因子化MDP的有效求解方法,《人工智能研究杂志》,第19期,第399-468页(2002年)·Zbl 1026.68125号 [37] M.Hauskrecht,B.Kveton,因子化连续状态Markov决策过程的线性程序近似,in:神经信息处理系统进展,2004年,第895-902页;M.Hauskrecht,B.Kveton,因子化连续状态Markov决策过程的线性程序近似,收录于:神经信息处理系统进展16,2004年,第895-902页 [38] J.Hoey,R.St-Aubin,A.Hu,C.Boutiler,SPUDD:使用决策图的随机规划,摘自:《人工智能中的不确定性》(UAI-99),斯德哥尔摩,1999年,第279-288页;J.Hoey,R.St-Aubin,A.Hu,C.Boutiler,SPUDD:使用决策图的随机规划,摘自:人工智能中的不确定性(UAI-99),斯德哥尔摩,1999年,第279-288页 [39] 霍夫曼,J。;Nebel,B.,《FF计划系统:通过启发式搜索快速生成计划》,《人工智能研究杂志》(JAIR),第14期,第253-302页(2001年)·Zbl 0970.68044号 [40] Hölldobler,S。;卡拉巴耶夫,E。;Skvortsova,O.,FluCaP:一阶mdp的启发式搜索规划器,《人工智能研究杂志》,27419-439(2006)·Zbl 1182.68246号 [41] Howard,R.A.,《动态规划和马尔可夫过程》(1960),麻省理工学院出版社·Zbl 0091.16001号 [42] E.Karabaev,O.Skvortsova,求解一阶MDP的启发式搜索算法,in:《人工智能中的不确定性》(UAI-05),苏格兰爱丁堡,2005年,第292-299页;E.Karabaev,O.Skvortsova,求解一阶MDP的启发式搜索算法,收录于:人工智能中的不确定性(UAI-05),苏格兰爱丁堡,2005年,第292-299页 [43] K.Kersting,M.van Otterlo,L.de Raedt,Bellman goes relational,in:机器学习国际会议(ICML-04),ACM出版社,2004年,第465-472页;K.Kersting,M.van Otterlo,L.de Raedt,Bellman goes relational,in:机器学习国际会议(ICML-04),ACM出版社,2004年,第465-472页 [44] Khardon,R.,规划领域的学习行动策略,人工智能,113,1-2,125-148(1999)·Zbl 0943.68130号 [45] Khardon,R.,《学会采取行动》,机器学习,35,1,57-90(1999)·Zbl 0920.68103号 [46] D.Koller,R.Parr,《结构化MDP中政策的计算因子价值函数》,摘自:国际人工智能联合会议(IJCAI-99),斯德哥尔摩,1999年,第1332-1339页;D.Koller,R.Parr,《结构化MDP中政策的计算因子价值函数》,摘自:国际人工智能联合会议(IJCAI-99),斯德哥尔摩,1999年,第1332-1339页 [47] D.Koller,R.Parr,因子化MDP的政策迭代,in:人工智能中的不确定性(UAI-00),斯德哥尔摩,2000年,第326-334页;D.Koller,R.Parr,因子化MDP的政策迭代,in:人工智能中的不确定性(UAI-00),斯德哥尔摩,2000年,第326-334页 [48] Levesque,H.J。;Reiter,R。;Lespérance,Y。;林,F。;Scherl,R.,GOLOG:一种用于动态域的逻辑编程语言,《逻辑编程杂志》,31,1-3,59-83(1997)·兹比尔0880.68008 [49] I.Little,Paragraph:A Graphplan based probability planner,摘自:2006年第五届国际规划竞赛论文集;I.Little,Paragraph:A Graphplan based probability planner,摘自:2006年第五届国际规划竞赛论文集 [50] M.L.Littman,H.L.S.Younes(编辑),IPC-04概率规划轨道的在线程序:http://www.cs.rutgers.edu/mlittman/topics/ipc04-pt/程序/; M.L.Littman,H.L.S.Younes(编辑),IPC-04概率规划轨道的在线程序:http://www.cs.rutgers.edu/mlittman/topics/ipc04-pt/程序/ [51] S.Mahadevan,Samuel meets Amarel:《使用全局状态空间分析实现值函数近似自动化》,载于:国家人工智能会议(AAAI-05),匹兹堡,2005年,第1000-1005页;S.Mahadevan,Samuel meet Amarel:Automating value function approximation using global state space analysis,in:National Conference on Artificial Intelligence(AAAI-05),匹兹堡,2005,pp.1000-1005 [52] McCarthy,J.,《情境、行为和因果律》,斯坦福大学技术代表,1963年,再版,(Minsky,M.,语义信息处理(1968),麻省理工学院出版社:麻省理工大剑桥出版社),410-417 [53] N.Meuleau,M.Hauskrecht,K.-E.Kim,L.Peshkin,L.P.Kaelbling,T.Dean,C.Boutiler,求解超大弱耦合Markov决策过程,收录于:美国人工智能全国会议(AAAI-98),威斯康星州麦迪逊,1998年,第165-172页;N.Meuleau,M.Hauskrecht,K.-E.Kim,L.Peshkin,L.P.Kaelbling,T.Dean,C.Boutiler,《求解超大弱耦合Markov决策过程》,收录于:美国人工智能全国会议(AAAI-98),威斯康星州麦迪逊,1998年,第165-172页 [54] B.Motik,《使用分辨率和演绎数据库进行描述逻辑推理》,博士论文,Univesität Karlsruhe(TH),德国卡尔斯鲁厄,2006年1月;B.Motik,《使用分辨率和演绎数据库进行描述逻辑推理》,博士论文,Univesität Karlsruhe(TH),德国卡尔斯鲁厄,2006年1月 [55] Ng,A.Y。;原田,D。;Russell,S.,《报酬转换下的政策不变性:报酬塑造的理论与应用》,(第16届国际机器学习大会(1999年),Morgan Kaufmann:Morgan Koufmann San Francisco,CA),278-287 [56] 帕尔·R。;Russell,S.,《机器层次结构的强化学习》(Jordan,M.M.K.;Solla,S.),《神经信息处理系统进展》10(1998),麻省理工学院出版社:麻省理学院出版社剑桥,1043-1049 [57] R.Patrascu,P.Poupart,D.Schuurmans,C.Boutiler,C.Guestrin,因子化马尔可夫决策过程的贪婪线性值逼近,收录于:国家人工智能会议(AAAI-02),埃德蒙顿,2002年,第285-291页;R.Patrascu,P.Poupart,D.Schuurmans,C.Boutiler,C.Guestrin,因子化马尔可夫决策过程的贪婪线性值逼近,收录于:国家人工智能会议(AAAI-02),埃德蒙顿,2002年,第285-291页 [58] E.P.D.Pednault,ADL:探索STRIPS和情境演算之间的中间地带,KR,1989年,第324-332页;E.P.D.Pednault,ADL:探索STRIPS和情境演算之间的中间地带,KR,1989年,第324-332页 [59] Poole,D.,《不确定性下多智能体建模的独立选择逻辑》,人工智能,94,1-2,7-56(1997)·Zbl 0902.03017号 [60] D.Poole,一阶概率推断,收录于:IJCAI,2003年,第985-991页;D.Poole,一阶概率推断,收录于:IJCAI,2003年,第985-991页 [61] P.Poupart,C.Boutiler,R.Patrascu,D.Schuurmans,分解MDP的分段线性值函数近似,收录于:国家人工智能会议(AAAI-02),埃德蒙顿,2002年,第292-299页;P.Poupart,C.Boutiler,R.Patrascu,D.Schuurmans,分解MDP的分段线性值函数近似,收录于:国家人工智能会议(AAAI-02),埃德蒙顿,2002年,第292-299页 [62] Puterman,M.L.,《马尔可夫决策过程:离散随机动态规划》(1994),威利出版社,纽约·Zbl 0829.90134号 [63] Reiter,R.,《情境演算中的框架问题:目标回归的简单解决方案(有时)和完整结果》,(Lifschitz,V.,《人工智能和计算数学理论》(约翰·麦卡锡荣誉论文)(1991),学术出版社:加州圣地亚哥学术出版社),359-380·Zbl 0755.68124号 [64] Reiter,R.,《行动中的知识:指定和实现动态系统的逻辑基础》(2001),麻省理工学院出版社·Zbl 1018.03022号 [65] Riazanov,A。;Voronkov,A.,《吸血鬼的设计与实现》,AI Communications,15,2,91-110(2002)·Zbl 1021.68082号 [66] J.Rintanen,规划与感知形式的表达等效,载于:第13届自动规划与调度国际会议,2003年,第185-194页;J.Rintanen,规划与感知形式的表达等效,载于:第13届自动规划与调度国际会议,2003年,第185-194页 [67] S.Sanner,结构化关系环境中的一阶决策理论规划,博士论文,加拿大安大略省多伦多市多伦多大学,2008年3月;S.Sanner,结构化关系环境中的一阶决策理论规划,博士论文,加拿大安大略省多伦多市多伦多大学,2008年3月 [68] S.Sanner,C.Boutilier,《一阶MDP的近似线性规划》,《人工智能的不确定性》(UAI-05),苏格兰爱丁堡,2005年,第509-517页;S.Sanner,C.Boutiler,一阶MDP的近似线性规划,收录于:人工智能中的不确定性(UAI-05),苏格兰爱丁堡,2005年,第509-517页·Zbl 1341.90144号 [69] S.Sanner,C.Boutiler,一阶MDP的实用线性评估技术,in:人工智能中的不确定性(UAI-06),马萨诸塞州波士顿,2006年;S.Sanner,C.Boutiler,一阶MDP的实用线性评估技术,收录于:人工智能中的不确定性(UAI-06),马萨诸塞州波士顿,2006年·Zbl 1191.68641号 [70] S.Sanner,C.Boutiler,因子化一阶MDP的近似求解技术,载于:第17届自动规划与调度国际会议(ICAPS-07),2007年,第288-295页;S.Sanner,C.Boutiler,因子化一阶MDP的近似求解技术,收录于:第17届自动规划与调度国际会议(ICAPS-07),2007年,第288-295页·Zbl 1191.68641号 [71] D.Schuurmans,R.Patrascu,因子MDP的直接值近似,载于:神经信息处理进展14(NIPS-01),温哥华,2001年,第1579-1586页;D.Schuurmans,R.Patrascu,因子MDP的直接值近似,in:神经信息处理的进展14(NIPS-01),温哥华,2001年,第1579-1586页 [72] Schweitzer,P。;塞德曼,A.,马尔科夫决策过程中的广义多项式近似,数学分析与应用杂志,110,568-582(1985)·Zbl 0578.90091号 [73] Shapley,L.S.,《随机游戏》,《国家科学院院刊》,39,327-332(1953)·Zbl 0051.35805号 [74] 辛格,S.P。;Cohn,D.,《如何动态合并马尔可夫决策过程》(How to dynamic merge Markov decision processes)(《神经信息处理系统进展》(NIPS-98)(1998),麻省理工学院出版社:麻省理学院出版社剑桥,1057-1063 [75] R.St-Aubin,J.Hoey,C.Boutiler,APRICODD:使用决策图进行近似政策构建,摘自:神经信息处理进展13(NIPS-00),丹佛,2000年,第1089-1095页;R.St-Aubin,J.Hoey,C.Boutiler,APRICODD:使用决策图进行近似政策构建,摘自:神经信息处理进展13(NIPS-00),丹佛,2000年,第1089-1095页 [76] F.Teichteil,P.Fabiani,《带决策图的符号随机聚焦动态规划》,载《第五届国际规划竞赛论文集》,2006年;F.Teichteil,P.Fabiani,带决策图的符号随机聚焦动态规划,收录于:第五届国际规划竞赛论文集,2006年·Zbl 1112.90092号 [77] 蒂堡,S。;格雷顿,C。;斯莱尼,J。;价格,D。;Kabanza,F.,《非马尔科夫报酬的决策理论规划》,《人工智能研究杂志》,第25期,第17-74页(2006年1月)·Zbl 1182.68270号 [78] 齐齐克利斯,J.N。;Van Roy,B.,《大规模动态规划的基于特征的方法》,机器学习,22,59-94(1996)·Zbl 1099.90586号 [79] M.Veloso,《在一般问题解决中通过类比推理学习》,卡内基梅隆大学博士论文,1992年8月;M.Veloso,《在一般问题解决中通过类比推理学习》,卡内基梅隆大学博士论文,1992年8月 [80] C.Wang,S.Joshi,R.Khardon,关系型MDP的一阶决策图,载于:第二十届国际人工智能联合会议(IJCAI-07),印度海得拉巴,2007年,第1095-1100页;C.Wang,S.Joshi,R.Khardon,关系型MDP的一阶决策图,载于:第二十届国际人工智能联合会议(IJCAI-07),印度海得拉巴,2007年,第1095-1100页·Zbl 1182.68271号 [81] 王,C。;Joshi,S。;Khardon,R.,关系MDP的一阶决策图,《人工智能研究杂志》(JAIR),31431-472(2008)·Zbl 1182.68271号 [82] C.Wang,R.Khardon,关系MDP的政策迭代,in:人工智能中的不确定性(UAI-07),加拿大温哥华,2007年;C.Wang,R.Khardon,关系型MDP的政策迭代,载于:人工智能的不确定性(UAI-07),加拿大温哥华,2007年 [83] J.Wu,R.Givan,《发现概率规划的关系域特征》,载:第17届国际自动化规划与调度会议(ICAPS 2007),2007年,第344-351页;J.Wu,R.Givan,《发现概率规划的关系域特征》,载于:第17届国际自动规划与调度会议(ICAPS 2007),2007年,第344-351页 [84] S.Yoon,A.Fern,R.Givan,一阶马尔可夫决策过程的归纳策略选择,收录于:人工智能中的不确定性(UAI-02),埃德蒙顿,2002年,第569-576页;S.Yoon,A.Fern,R.Givan,一阶马尔可夫决策过程的归纳策略选择,收录于:人工智能中的不确定性(UAI-02),埃德蒙顿,2002年,第569-576页 [85] S.Yoon,A.Fern,R.Givan,《学习概率规划领域的反应策略》,收录于:IPC-04概率规划轨道的在线程序:http://www.cs.rutgers.edu/mlittman/topics/ipc04-pt/程序/; S.Yoon,A.Fern,R.Givan,《学习概率规划领域的反应策略》,收录于:IPC-04概率规划轨道的在线程序:http://www.cs.rutgers.edu/mlittman/topics/ipc04-pt/proceedings(http://www.cs.rutgers.edu/mlittman/topics/ipc04-pt/proceedings)/ [86] S.Yoon,A.Fern,R.Givan,规划领域进度的学习度量,收录于:第20届全国人工智能会议,2005年7月,第1217-1222页;S.Yoon,A.Fern,R.Givan,规划领域进度的学习度量,收录于:第20届全国人工智能会议,2005年7月,第1217-1222页 [87] 尹,S。;弗恩,A。;Givan,R.,《带有政策语言偏差的近似政策迭代:学习求解关系马尔可夫决策过程》,《人工智能研究杂志》(JAIR),25,85-118(2006)·Zbl 1182.68237号 [88] S.Yoon,A.Fern,R.Givan,《FF-Replan:概率规划的基准》,载于:第17届国际自动规划与调度会议(ICAPS-07),2007年,第352-359页;S.Yoon,A.Fern,R.Givan,《FF-Replan:概率规划的基准》,载于:第17届国际自动规划与调度会议(ICAPS-07),2007年,第352-359页 [89] Younes,H.L.S。;利特曼,M.L。;韦斯曼,D。;Asmuth,J.,《国际规划竞赛的第一条概率轨道》,《人工智能研究杂志》(JAIR),24851-887(2005)·Zbl 1080.68676号 [90] N.L.Zhang,D.Poole,《贝叶斯网络计算的简单方法》,摘自:Proc。第十届加拿大人工智能会议,1994年,第171-178页;N.L.Zhang,D.Poole,《贝叶斯网络计算的简单方法》,摘自:Proc。第十届加拿大人工智能会议,1994年,第171-178页 [91] Zhang,N.L。;Poole,D.,《利用贝叶斯网络推理中的因果独立性》,《人工智能研究杂志》(JAIR),5301-328(1996)·Zbl 0900.68384号 此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。