文件Zbl 1191.68641-zbMATH Open

一阶MDP的实用解决方案技术。（英语） Zbl 1191.68641号

Artif公司。智力。 173，编号5-6，748-788（2009）。

总结：许多传统的解决方法用于相关规定的决策理论规划问题（例如，概率规划领域描述语言（PPDDL）中所述的那些问题）根据领域对象的特定实例化建立规范，并将解决方法直接应用于生成的地面马尔可夫决策过程（MDP）。不幸的是，这些固定解方法的空间和时间复杂性在域对象数量上是多项式的，在关系问题规范中谓词arity和嵌套量词数量上是指数的。另一种解决关系规划问题的方法是直接在关系层面上解决问题。在本文中，我们提出了一种这样的方法，该方法将PPDDL表示的一个表达子集转换为一阶MDP（FOMDP）规范，然后在任何中间步骤都不需要基础的情况下导出域依赖策略。然而，这种通用性并非没有一系列挑战——本文的目的是探索解决FOMDP的实用解决方案技术。为了证明我们的技术的适用性，我们给出了我们的一阶近似线性规划规划器对2004年和2006年ICAPS国际规划竞赛概率轨道问题的概念验证结果。

引用于14文件

MSC公司：

68T20型	人工智能背景下的问题解决（启发式、搜索策略等）
90立方厘米	马尔可夫和半马尔可夫决策过程

关键词：

MDP公司;一阶逻辑;规划

软件：

FODD-计划;氟氯化钙;NMRDPP公司;图规划;高尔夫;VAMPIRE公司

PDF格式 BibTeX公司 XML格式引用

全文：内政部

参考文献：

[1]	D.Andre，S.Russell，《可编程强化学习代理：神经信息处理系统的进展》（NIPS-01），第13卷，2001年，第78-85页；D.Andre，S.Russell，可编程强化学习代理，摘自：神经信息处理系统的进展（NIPS-01），第13卷，2001年，第78-85页
[2]	F.Bacchus，J.Y.Halpern，H.J.Levesque，《情境演算中噪声传感器的推理》，收录于：国际人工智能联合会议（IJCAI-95），蒙特利尔，1995年，第1933-1940页；F.Bacchus，J.Y.Halpern，H.J.Levesque，《情境演算中噪声传感器的推理》，摘自：国际人工智能联合会议（IJCAI-95），蒙特利尔，1995年，第1933-1940页·Zbl 0996.68192号
[3]	巴克斯，F。；Kabanza，F.，《使用时序逻辑表示规划的搜索控制知识》，人工智能，116，1-2，123-191（2000）·Zbl 0939.68827号
[4]	R.I.Bahar，E.Frohm，C.Gaona，G.Hachtel，E.Macii，A.Pardo，F.Somenzi，代数决策图及其应用，收录于：IEEE/ACM CAD国际会议，1993年，第428-432页；R.I.Bahar、E.Frohm、C.Gaona、G.Hachtel、E.Macii、A.Pardo、F.Somenzi，代数决策图及其应用，载于：IEEE/ACM国际CAD会议，1993年，第428-432页
[5]	A.G.Barto，S.J.Bradtke，S.P.Singh，《使用实时动态编程学习行动》，麻省理工大学UM-CS-1993-002，马萨诸塞州阿默斯特大学，1993年；A.G.Barto，S.J.Bradtke，S.P.Singh，《学习使用实时动态编程进行操作》，技术代表UM-CS-1993-002，美国马萨诸塞州阿默斯特，1993年
[6]	Bellman，R.E.，《动态编程》（1957），普林斯顿大学出版社：普林斯顿大学出版，新泽西州普林斯顿·Zbl 0077.13605号
[7]	Bertsekas，D.P.，《动态编程》（1987），普伦蒂斯·霍尔：新泽西州普伦蒂斯霍尔-恩格尔伍德悬崖·Zbl 0935.90037号
[8]	Bertsekas，D.P。；Tsitsiklis，J.N.，神经动力学编程（1996），雅典娜科学：雅典娜科技贝尔蒙特，马萨诸塞州·Zbl 0924.68163号
[9]	A.L.Blum，M.L.Furst，通过图形分析进行快速规划，载于：IJCAI 95，蒙特利尔，1995年，第1636-1642页；A.L.Blum，M.L.Furst，通过图分析快速规划，收录于：IJCAI 95，蒙特利尔，1995年，第1636-1642页
[10]	B.Bonet，H.Geffner，《mGPT：基于启发式搜索的概率规划师》，载于：《IPC-04概率规划轨道在线会议录：http://www.cs.rutgers.edu/mlittman/topics/ipc04-pt/程序/；B.Bonet，H.Geffner，《mGPT：基于启发式搜索的概率规划师》，载于：《IPC-04概率规划轨道在线会议录：http://www.cs.rutgers.edu/mlittman/topics/ipc04-pt/会议记录/·Zbl 1080.68656号
[11]	C.Boutiler、R.I.Brafman、C.Geib，《马尔可夫决策过程的优先目标分解：走向经典规划和决策理论规划的综合》，载于：国际人工智能联合会议（IJCAI-97）。名古屋，1997年，第1156-1162页；C.Boutiler、R.I.Brafman、C.Geib，《马尔可夫决策过程的优先目标分解：走向经典规划和决策理论规划的综合》，载于：国际人工智能联合会议（IJCAI-97）。名古屋，1997年，第1156-1162页
[12]	Boutiler，C。；院长，T。；Hanks，S.，《决策理论规划：结构假设和计算杠杆》，《人工智能研究杂志》（JAIR），11，1-94（1999）·Zbl 0918.68110号
[13]	C.Boutiler，N.Friedman，M.Goldszmidt，D.Koller，贝叶斯网络中的上下文特定独立性，收录于：人工智能中的不确定性（UAI-96），俄勒冈州波特兰，1996年，第115-123页；C.Boutiler，N.Friedman，M.Goldszmidt，D.Koller，贝叶斯网络中的上下文特定独立性，收录于：人工智能中的不确定性（UAI-96），俄勒冈州波特兰，1996年，第115-123页
[14]	C.Boutiler、R.Reiter、B.Price，《一阶MDP的符号动态规划》，载于：国际人工智能联合会议（IJCAI-01），西雅图，2001年，第690-697页；C.Boutiler、R.Reiter、B.Price，《一阶MDP的符号动态规划》，载于：国际人工智能联合会议（IJCAI-01），西雅图，2001年，第690-697页
[15]	C.Boutiler、R.Reiter、M.Soutchanski、S.Thrun，《情境演算中的决策论高级代理编程》，载于：AAAI-00，德克萨斯州奥斯汀，2000年，第355-362页；C.Boutiler、R.Reiter、M.Soutchanski、S.Thrun，《情境演算中的决策论高级代理编程》，收录于：AAAI-00，德克萨斯州奥斯汀，2000年，第355-362页
[16]	Brachman，R。；Levesque，H.，《知识表示与推理》（2004），摩根考夫曼出版公司：摩根考夫曼出版公司，加利福尼亚州旧金山
[17]	O.Buffet，D.Aberdeen，因子化政策梯度规划师（ipc-06版），载于《第五届国际规划竞赛论文集》，2006年；O.Buffet，D.Aberdeen，因子化政策梯度规划师（ipc-06版），摘自：2006年第五届国际规划竞赛论文集·Zbl 1192.68636号
[18]	Buntine，W.，《广义包含及其在归纳和冗余中的应用》，人工智能，36375-399（1988）
[19]	de Farias，D。；Roy，B.V.，《近似动态规划的线性规划方法》，运筹学，51，6，850-865（2003）·兹比尔1165.90666
[20]	R.de Salvo Braz，E.Amir，D.Roth，《提升一阶概率推理》，载于：第19届国际人工智能联合会议（IJCAI-2005），英国爱丁堡，2005年，第1319-1325页；R.de Salvo Braz，E.Amir，D.Roth，《提升一阶概率推理》，载于：第19届国际人工智能联合会议（IJCAI-2005），英国爱丁堡，2005年，第1319-1325页
[21]	R.de Salvo Braz，E.Amir，D.Roth，MPE和提升概率变量消除中的部分反演，摘自：美国波士顿国家人工智能会议（AAAI-06），2006年；R.de Salvo Braz，E.Amir，D.Roth，MPE和提升概率变量消除中的部分反演，收录于：美国波士顿国家人工智能会议（AAAI-06），2006年
[22]	迪尔登，R。；Boutiler，C.，抽象和近似决策理论规划，人工智能，89，12，219-283（1997）·Zbl 1042.68669号
[23]	Dechter，R.，桶消除：推理的统一框架，人工智能，113，41-85（1999）·Zbl 0939.68847号
[24]	K.Driessens，S.Dzeroski，《在关系强化学习中整合实验和指导》，载《机器学习国际会议》，2002年，第115-122页；K.Driessens，S.Dzeroski，《关系强化学习中的实验与指导整合》，载于：国际机器学习会议，2002年，第115-122页·Zbl 1079.68084号
[25]	Dzeroski，S。；DeRaedt，L。；Driessens，K.，《关系强化学习》，《机器学习杂志》（MLJ），43，7-52（2001）·Zbl 0988.68088号
[26]	A.Fern，S.Yoon，R.Givan，《带有政策语言偏差的近似政策迭代》，载于《神经信息处理系统的进展》第16期（NIPS-03），2003年12月；A.Fern，S.Yoon，R.Givan，《带有政策语言偏差的近似政策迭代》，载于《神经信息处理系统的进展》第16期（NIPS-03），2003年12月·Zbl 1182.68237号
[27]	A.Fern，S.Yoon，R.Givan，从随机漫步中学习特定领域的控制知识，收录于：国际计划与调度会议（ICAPS-04），2004年6月，第191-199页；A.Fern，S.Yoon，R.Givan，从随机漫步中学习特定领域的控制知识，收录于：国际计划与调度会议（ICAPS-04），2004年6月，第191-199页
[28]	A.Ferrein，C.Fritz，G.Lakemeyer，《用选项扩展DTGolog》，载于：第18届国际人工智能联合会议（IJCAI-2003），墨西哥阿卡普尔科，2003年，第144-151页；A.Ferrein，C.Fritz，G.Lakemeyer，《用选项扩展DTGolog》，载于：第18届国际人工智能联合会议（IJCAI-2003），墨西哥阿卡普尔科，2003年，第144-151页
[29]	Fikes，R.E。；Nilsson，N.J.，STRIPS:将定理证明应用于问题解决的新方法，AI期刊，2189-208（1971）·Zbl 0234.68036号
[30]	N.H.Gardiol，L.P.Kaelbling，《关系MDP中基于包络的规划》，载于《神经信息处理系统的进展》16（NIPS-03），加利福尼亚州温哥华，2004年，第1040-1046页；N.H.Gardiol，L.P.Kaelbling，关系MDP中的基于包络的规划，收录于：神经信息处理系统的进展16（NIPS-03），加利福尼亚州温哥华，2004年，第1040-1046页
[31]	Gartner，T。；德莱森斯，K。；Ramon，J.，关系强化学习的图核和高斯过程，机器学习杂志（MLJ），64，91-119（2006）·Zbl 1103.68681号
[32]	A.Gerevini，B.Bonet，B.Givan（编辑），第五届国际规划竞赛IPC-05在线会议记录：http://www.ldc.usb.ve/bonet/ipc5/docs/ipc-2006-booklet.pdf.gz; A.Gerevini，B.Bonet，B.Givan（编辑），第五届国际规划竞赛IPC-05在线会议记录：http://www.ldc.usb.ve/bonet/ipc5/docs/ipc-2006-booklet.pdf.gz
[33]	C.Gretton，S.Thiebaux，《在归纳政策选择中利用一阶回归》，载于：《人工智能中的不确定性》（UAI-04），加拿大班夫，2004年，第217-225页；C.Gretton，S.Thiebaux，在归纳政策选择中利用一阶回归，载于：人工智能的不确定性（UAI-04），加拿大班夫，2004年，第217-225页
[34]	C.Guestrin，M.Hauskrecht，B.Kveton，用连续和离散变量求解因子MDP，载于：第20届人工智能不确定性会议，2004年，第235-242页；C.Guestrin，M.Hauskrecht，B.Kveton，用连续和离散变量求解因子化MDP，收录于：第20届人工智能不确定性会议，2004年，第235-242页·Zbl 1182.68252号
[35]	C.Guestrin、D.Koller、C.Gearhart、N.Kanodia，《关系型MDP中新环境的通用计划》，载于：第18届国际人工智能联合会议（IJCAI-2003），墨西哥阿卡普尔科，2003年，第1003-1010页；C.Guestrin、D.Koller、C.Gearhart、N.Kanodia，《关系型MDP中新环境的通用计划》，载于：第18届国际人工智能联合会议（IJCAI-2003），墨西哥阿卡普尔科，2003年，第1003-1010页
[36]	Guestrin，C。；科勒，D。；帕尔，R。；Venktaraman，S.，因子化MDP的有效求解方法，《人工智能研究杂志》，第19期，第399-468页（2002年）·Zbl 1026.68125号
[37]	M.Hauskrecht，B.Kveton，因子化连续状态Markov决策过程的线性程序近似，in：神经信息处理系统进展，2004年，第895-902页；M.Hauskrecht，B.Kveton，因子化连续状态Markov决策过程的线性程序近似，收录于：神经信息处理系统进展16，2004年，第895-902页
[38]	J.Hoey，R.St-Aubin，A.Hu，C.Boutiler，SPUDD：使用决策图的随机规划，摘自：《人工智能中的不确定性》（UAI-99），斯德哥尔摩，1999年，第279-288页；J.Hoey，R.St-Aubin，A.Hu，C.Boutiler，SPUDD：使用决策图的随机规划，摘自：人工智能中的不确定性（UAI-99），斯德哥尔摩，1999年，第279-288页
[39]	霍夫曼，J。；Nebel，B.，《FF计划系统：通过启发式搜索快速生成计划》，《人工智能研究杂志》（JAIR），第14期，第253-302页（2001年）·Zbl 0970.68044号
[40]	Hölldobler，S。；卡拉巴耶夫，E。；Skvortsova，O.，FluCaP:一阶mdp的启发式搜索规划器，《人工智能研究杂志》，27419-439（2006）·Zbl 1182.68246号
[41]	Howard，R.A.，《动态规划和马尔可夫过程》（1960），麻省理工学院出版社·Zbl 0091.16001号
[42]	E.Karabaev，O.Skvortsova，求解一阶MDP的启发式搜索算法，in：《人工智能中的不确定性》（UAI-05），苏格兰爱丁堡，2005年，第292-299页；E.Karabaev，O.Skvortsova，求解一阶MDP的启发式搜索算法，收录于：人工智能中的不确定性（UAI-05），苏格兰爱丁堡，2005年，第292-299页
[43]	K.Kersting，M.van Otterlo，L.de Raedt，Bellman goes relational，in：机器学习国际会议（ICML-04），ACM出版社，2004年，第465-472页；K.Kersting，M.van Otterlo，L.de Raedt，Bellman goes relational，in：机器学习国际会议（ICML-04），ACM出版社，2004年，第465-472页
[44]	Khardon，R.，规划领域的学习行动策略，人工智能，113，1-2，125-148（1999）·Zbl 0943.68130号
[45]	Khardon，R.，《学会采取行动》，机器学习，35，1，57-90（1999）·Zbl 0920.68103号
[46]	D.Koller，R.Parr，《结构化MDP中政策的计算因子价值函数》，摘自：国际人工智能联合会议（IJCAI-99），斯德哥尔摩，1999年，第1332-1339页；D.Koller，R.Parr，《结构化MDP中政策的计算因子价值函数》，摘自：国际人工智能联合会议（IJCAI-99），斯德哥尔摩，1999年，第1332-1339页
[47]	D.Koller，R.Parr，因子化MDP的政策迭代，in：人工智能中的不确定性（UAI-00），斯德哥尔摩，2000年，第326-334页；D.Koller，R.Parr，因子化MDP的政策迭代，in：人工智能中的不确定性（UAI-00），斯德哥尔摩，2000年，第326-334页
[48]	Levesque，H.J。；Reiter，R。；Lespérance，Y。；林，F。；Scherl，R.，GOLOG:一种用于动态域的逻辑编程语言，《逻辑编程杂志》，31，1-3，59-83（1997）·兹比尔0880.68008
[49]	I.Little，Paragraph:A Graphplan based probability planner，摘自：2006年第五届国际规划竞赛论文集；I.Little，Paragraph:A Graphplan based probability planner，摘自：2006年第五届国际规划竞赛论文集
[50]	M.L.Littman，H.L.S.Younes（编辑），IPC-04概率规划轨道的在线程序：http://www.cs.rutgers.edu/mlittman/topics/ipc04-pt/程序/; M.L.Littman，H.L.S.Younes（编辑），IPC-04概率规划轨道的在线程序：http://www.cs.rutgers.edu/mlittman/topics/ipc04-pt/程序/
[51]	S.Mahadevan，Samuel meets Amarel：《使用全局状态空间分析实现值函数近似自动化》，载于：国家人工智能会议（AAAI-05），匹兹堡，2005年，第1000-1005页；S.Mahadevan，Samuel meet Amarel:Automating value function approximation using global state space analysis，in：National Conference on Artificial Intelligence（AAAI-05），匹兹堡，2005，pp.1000-1005
[52]	McCarthy，J.，《情境、行为和因果律》，斯坦福大学技术代表，1963年，再版，（Minsky，M.，语义信息处理（1968），麻省理工学院出版社：麻省理工大剑桥出版社），410-417
[53]	N.Meuleau，M.Hauskrecht，K.-E.Kim，L.Peshkin，L.P.Kaelbling，T.Dean，C.Boutiler，求解超大弱耦合Markov决策过程，收录于：美国人工智能全国会议（AAAI-98），威斯康星州麦迪逊，1998年，第165-172页；N.Meuleau，M.Hauskrecht，K.-E.Kim，L.Peshkin，L.P.Kaelbling，T.Dean，C.Boutiler，《求解超大弱耦合Markov决策过程》，收录于：美国人工智能全国会议（AAAI-98），威斯康星州麦迪逊，1998年，第165-172页
[54]	B.Motik，《使用分辨率和演绎数据库进行描述逻辑推理》，博士论文，Univesität Karlsruhe（TH），德国卡尔斯鲁厄，2006年1月；B.Motik，《使用分辨率和演绎数据库进行描述逻辑推理》，博士论文，Univesität Karlsruhe（TH），德国卡尔斯鲁厄，2006年1月
[55]	Ng，A.Y。；原田，D。；Russell，S.，《报酬转换下的政策不变性：报酬塑造的理论与应用》，（第16届国际机器学习大会（1999年），Morgan Kaufmann:Morgan Koufmann San Francisco，CA），278-287
[56]	帕尔·R。；Russell，S.，《机器层次结构的强化学习》（Jordan，M.M.K.；Solla，S.），《神经信息处理系统进展》10（1998），麻省理工学院出版社：麻省理学院出版社剑桥，1043-1049
[57]	R.Patrascu，P.Poupart，D.Schuurmans，C.Boutiler，C.Guestrin，因子化马尔可夫决策过程的贪婪线性值逼近，收录于：国家人工智能会议（AAAI-02），埃德蒙顿，2002年，第285-291页；R.Patrascu，P.Poupart，D.Schuurmans，C.Boutiler，C.Guestrin，因子化马尔可夫决策过程的贪婪线性值逼近，收录于：国家人工智能会议（AAAI-02），埃德蒙顿，2002年，第285-291页
[58]	E.P.D.Pednault，ADL：探索STRIPS和情境演算之间的中间地带，KR，1989年，第324-332页；E.P.D.Pednault，ADL：探索STRIPS和情境演算之间的中间地带，KR，1989年，第324-332页
[59]	Poole，D.，《不确定性下多智能体建模的独立选择逻辑》，人工智能，94，1-2，7-56（1997）·Zbl 0902.03017号
[60]	D.Poole，一阶概率推断，收录于：IJCAI，2003年，第985-991页；D.Poole，一阶概率推断，收录于：IJCAI，2003年，第985-991页
[61]	P.Poupart，C.Boutiler，R.Patrascu，D.Schuurmans，分解MDP的分段线性值函数近似，收录于：国家人工智能会议（AAAI-02），埃德蒙顿，2002年，第292-299页；P.Poupart，C.Boutiler，R.Patrascu，D.Schuurmans，分解MDP的分段线性值函数近似，收录于：国家人工智能会议（AAAI-02），埃德蒙顿，2002年，第292-299页
[62]	Puterman，M.L.，《马尔可夫决策过程：离散随机动态规划》（1994），威利出版社，纽约·Zbl 0829.90134号
[63]	Reiter，R.，《情境演算中的框架问题：目标回归的简单解决方案（有时）和完整结果》，（Lifschitz，V.，《人工智能和计算数学理论》（约翰·麦卡锡荣誉论文）（1991），学术出版社：加州圣地亚哥学术出版社），359-380·Zbl 0755.68124号
[64]	Reiter，R.，《行动中的知识：指定和实现动态系统的逻辑基础》（2001），麻省理工学院出版社·Zbl 1018.03022号
[65]	Riazanov，A。；Voronkov，A.，《吸血鬼的设计与实现》，AI Communications，15，2，91-110（2002）·Zbl 1021.68082号
[66]	J.Rintanen，规划与感知形式的表达等效，载于：第13届自动规划与调度国际会议，2003年，第185-194页；J.Rintanen，规划与感知形式的表达等效，载于：第13届自动规划与调度国际会议，2003年，第185-194页
[67]	S.Sanner，结构化关系环境中的一阶决策理论规划，博士论文，加拿大安大略省多伦多市多伦多大学，2008年3月；S.Sanner，结构化关系环境中的一阶决策理论规划，博士论文，加拿大安大略省多伦多市多伦多大学，2008年3月
[68]	S.Sanner，C.Boutilier，《一阶MDP的近似线性规划》，《人工智能的不确定性》（UAI-05），苏格兰爱丁堡，2005年，第509-517页；S.Sanner，C.Boutiler，一阶MDP的近似线性规划，收录于：人工智能中的不确定性（UAI-05），苏格兰爱丁堡，2005年，第509-517页·Zbl 1341.90144号
[69]	S.Sanner，C.Boutiler，一阶MDP的实用线性评估技术，in：人工智能中的不确定性（UAI-06），马萨诸塞州波士顿，2006年；S.Sanner，C.Boutiler，一阶MDP的实用线性评估技术，收录于：人工智能中的不确定性（UAI-06），马萨诸塞州波士顿，2006年·Zbl 1191.68641号
[70]	S.Sanner，C.Boutiler，因子化一阶MDP的近似求解技术，载于：第17届自动规划与调度国际会议（ICAPS-07），2007年，第288-295页；S.Sanner，C.Boutiler，因子化一阶MDP的近似求解技术，收录于：第17届自动规划与调度国际会议（ICAPS-07），2007年，第288-295页·Zbl 1191.68641号
[71]	D.Schuurmans，R.Patrascu，因子MDP的直接值近似，载于：神经信息处理进展14（NIPS-01），温哥华，2001年，第1579-1586页；D.Schuurmans，R.Patrascu，因子MDP的直接值近似，in：神经信息处理的进展14（NIPS-01），温哥华，2001年，第1579-1586页
[72]	Schweitzer，P。；塞德曼，A.，马尔科夫决策过程中的广义多项式近似，数学分析与应用杂志，110，568-582（1985）·Zbl 0578.90091号
[73]	Shapley，L.S.，《随机游戏》，《国家科学院院刊》，39，327-332（1953）·Zbl 0051.35805号
[74]	辛格，S.P。；Cohn，D.，《如何动态合并马尔可夫决策过程》（How to dynamic merge Markov decision processes）（《神经信息处理系统进展》（NIPS-98）（1998），麻省理工学院出版社：麻省理学院出版社剑桥，1057-1063
[75]	R.St-Aubin，J.Hoey，C.Boutiler，APRICODD：使用决策图进行近似政策构建，摘自：神经信息处理进展13（NIPS-00），丹佛，2000年，第1089-1095页；R.St-Aubin，J.Hoey，C.Boutiler，APRICODD：使用决策图进行近似政策构建，摘自：神经信息处理进展13（NIPS-00），丹佛，2000年，第1089-1095页
[76]	F.Teichteil，P.Fabiani，《带决策图的符号随机聚焦动态规划》，载《第五届国际规划竞赛论文集》，2006年；F.Teichteil，P.Fabiani，带决策图的符号随机聚焦动态规划，收录于：第五届国际规划竞赛论文集，2006年·Zbl 1112.90092号
[77]	蒂堡，S。；格雷顿，C。；斯莱尼，J。；价格，D。；Kabanza，F.，《非马尔科夫报酬的决策理论规划》，《人工智能研究杂志》，第25期，第17-74页（2006年1月）·Zbl 1182.68270号
[78]	齐齐克利斯，J.N。；Van Roy，B.，《大规模动态规划的基于特征的方法》，机器学习，22，59-94（1996）·Zbl 1099.90586号
[79]	M.Veloso，《在一般问题解决中通过类比推理学习》，卡内基梅隆大学博士论文，1992年8月；M.Veloso，《在一般问题解决中通过类比推理学习》，卡内基梅隆大学博士论文，1992年8月
[80]	C.Wang，S.Joshi，R.Khardon，关系型MDP的一阶决策图，载于：第二十届国际人工智能联合会议（IJCAI-07），印度海得拉巴，2007年，第1095-1100页；C.Wang，S.Joshi，R.Khardon，关系型MDP的一阶决策图，载于：第二十届国际人工智能联合会议（IJCAI-07），印度海得拉巴，2007年，第1095-1100页·Zbl 1182.68271号
[81]	王，C。；Joshi，S。；Khardon，R.，关系MDP的一阶决策图，《人工智能研究杂志》（JAIR），31431-472（2008）·Zbl 1182.68271号
[82]	C.Wang，R.Khardon，关系MDP的政策迭代，in：人工智能中的不确定性（UAI-07），加拿大温哥华，2007年；C.Wang，R.Khardon，关系型MDP的政策迭代，载于：人工智能的不确定性（UAI-07），加拿大温哥华，2007年
[83]	J.Wu，R.Givan，《发现概率规划的关系域特征》，载：第17届国际自动化规划与调度会议（ICAPS 2007），2007年，第344-351页；J.Wu，R.Givan，《发现概率规划的关系域特征》，载于：第17届国际自动规划与调度会议（ICAPS 2007），2007年，第344-351页
[84]	S.Yoon，A.Fern，R.Givan，一阶马尔可夫决策过程的归纳策略选择，收录于：人工智能中的不确定性（UAI-02），埃德蒙顿，2002年，第569-576页；S.Yoon，A.Fern，R.Givan，一阶马尔可夫决策过程的归纳策略选择，收录于：人工智能中的不确定性（UAI-02），埃德蒙顿，2002年，第569-576页
[85]	S.Yoon，A.Fern，R.Givan，《学习概率规划领域的反应策略》，收录于：IPC-04概率规划轨道的在线程序：http://www.cs.rutgers.edu/mlittman/topics/ipc04-pt/程序/; S.Yoon，A.Fern，R.Givan，《学习概率规划领域的反应策略》，收录于：IPC-04概率规划轨道的在线程序：http://www.cs.rutgers.edu/mlittman/topics/ipc04-pt/proceedings（http://www.cs.rutgers.edu/mlittman/topics/ipc04-pt/proceedings）/
[86]	S.Yoon，A.Fern，R.Givan，规划领域进度的学习度量，收录于：第20届全国人工智能会议，2005年7月，第1217-1222页；S.Yoon，A.Fern，R.Givan，规划领域进度的学习度量，收录于：第20届全国人工智能会议，2005年7月，第1217-1222页
[87]	尹，S。；弗恩，A。；Givan，R.，《带有政策语言偏差的近似政策迭代：学习求解关系马尔可夫决策过程》，《人工智能研究杂志》（JAIR），25，85-118（2006）·Zbl 1182.68237号
[88]	S.Yoon，A.Fern，R.Givan，《FF-Replan:概率规划的基准》，载于：第17届国际自动规划与调度会议（ICAPS-07），2007年，第352-359页；S.Yoon，A.Fern，R.Givan，《FF-Replan:概率规划的基准》，载于：第17届国际自动规划与调度会议（ICAPS-07），2007年，第352-359页
[89]	Younes，H.L.S。；利特曼，M.L。；韦斯曼，D。；Asmuth，J.，《国际规划竞赛的第一条概率轨道》，《人工智能研究杂志》（JAIR），24851-887（2005）·Zbl 1080.68676号
[90]	N.L.Zhang，D.Poole，《贝叶斯网络计算的简单方法》，摘自：Proc。第十届加拿大人工智能会议，1994年，第171-178页；N.L.Zhang，D.Poole，《贝叶斯网络计算的简单方法》，摘自：Proc。第十届加拿大人工智能会议，1994年，第171-178页
[91]	Zhang，N.L。；Poole，D.，《利用贝叶斯网络推理中的因果独立性》，《人工智能研究杂志》（JAIR），5301-328（1996）·Zbl 0900.68384号

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
拉	语言
所以	来源
ab公司	回顾，摘要
第页	出版年份
右心室	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文档类型(j：期刊文章；b条：book；一：图书文章）

一&b条	逻辑和
一\|b条	逻辑或
!ab公司	逻辑不
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	括号

示例

领域

操作员

一阶MDP的实用解决方案技术。（英语） Zbl 1191.68641号

MSC公司：

关键词：

软件：

参考文献：

示例

领域

操作员

一阶MDP的实用解决方案技术。 （英语） Zbl 1191.68641号

MSC公司：

关键词：

软件：

参考文献：

一阶MDP的实用解决方案技术。（英语） Zbl 1191.68641号