文件Zbl 1409.68269-zbMATH Open

学习规划政策的打包策略。（英语） Zbl 1409.68269号

安。数学。Artif公司。智力。 79，第4期，291-305（2017）.

摘要：在本文中，我们描述了合奏-滚轴是一种基于学习的自动规划器，它使用打包方法来增强学习规划策略的现有技术。以前的政策类型规划和学习系统基于关系分类器的动作预测对状态继承者进行排序。然而，这些基于学习的规划师可能会产生多个质量较差的计划，因为很难在单个分类器中对计划域中发生的所有可能情况进行编码。我们建议使用关系分类器的集合来生成更健壮的策略。与机器学习的其他应用一样，分类器集成的思想包括为特定场景提供准确性和多样性，以覆盖广泛的场景。特别地，合奏-滚轴学习每个规划领域的关系决策树集合。来自不同树集的控制知识被聚合为单个预测或分别应用于一种多队列搜索算法。实验结果表明，使用新政策的两种方式平均都能产生质量更好的计划。

MSC公司：

68T20型	人工智能背景下的问题解决（启发式、搜索策略等）
68T05型	人工智能中的学习和自适应系统

关键词：

自动化规划;机器学习;关系分类器;行动政策

软件：

PDDL公司

PDF格式 BibTeX公司 XML格式引用

全文：内政部

参考文献：

[1]	Blockeel，H.，De Raedt，L.：一阶逻辑决策树的自顶向下归纳法。Artif公司。智力。101(1-2), 285-297 (1998) ·Zbl 0909.68034号 ·doi:10.1016/S0004-3702（98）00034-4
[2]	Breiman，L.：装袋预测因素。马赫。学习。24, 123-140 (1996) ·Zbl 0858.68080号
[3]	坎宁安，P.，卡尼，J.：基于特征选择的分类集合中的多样性与质量。摘自：机器学习：ECML 2000，第109-116页。斯普林格（2000）
[4]	De la Rosa，T.、Jiménez，S.、Fuentetaja，R.、Borrajo，D.：用关系决策树扩展启发式规划。JAIR 40767-813（2011）。http://www.plg.inf.uc3m.es/rfuentet/papers/roller-jair10.pdf ·Zbl 1216.68242号
[5]	Dietterich，T.：机器学习中的集成方法。输入：1。多分类器系统国际讲习班（2000年）·Zbl 0963.68085号
[6]	Fox，M.，Long，D.：PDDL2.1：PDDL的扩展，用于表示时间规划域。JAIR 20，61-124（2003）·Zbl 1036.68093号
[7]	Freund，Y.，Schapire，R.：使用新的增强算法进行实验。摘自：《第13届会议记录》。机器学习会议（1996）·Zbl 1216.68242号
[8]	Helmert，M.：快速向下规划系统。JAIR 26191-246（2006年）·Zbl 1182.68245号
[9]	Hoffmann，J.，Nebel，B.：FF计划系统：通过启发式搜索快速生成计划。JAIR 14，253-302（2001）·兹比尔0970.68044
[10]	Jiménez，S.，De la Rosa，T.，Fernández，S..，Fernandez，F.，Borrajo，D.：自动化规划机器学习综述。知识。工程版本27（4），433-467（2012）·doi:10.1017/S026988891200001X
[11]	Khardon，R.：规划领域的学习行动策略。Artif公司。智力。113, 125-148 (1999) ·兹比尔0943.68130 ·doi:10.1016/S0004-3702（99）00060-0
[12]	Krajnansky，M.，Buffet，O.，Hoffmann，J.，Fern，A.：学习启发式搜索规划的修剪规则。摘自：《第21届欧洲人工智能会议论文集》（ECAI’14）（2014）·Zbl 1036.68093号
[13]	Martin，M.，Geffner，H.：使用概念语言学习规划中的广义政策。参加：人工智能规划系统国际会议，AIPS00（2000）·Zbl 1078.68713号
[14]	Minton，S.：学习有效的搜索控制知识：基于解释的方法。Kluwer学术出版社，马萨诸塞州波士顿（1988）·doi:10.1007/978-1-4613-1703-6
[15]	Röger，G.，Helmert，M.：越多越好：结合启发式估计来满足规划。In:ICAPS，第246-249页（2010年）
[16]	Yoon，S.、Fern，A.、Givan，R.：一阶mdp的归纳策略选择。摘自：第18届会议记录。人工智能不确定性会议，第568-576页。摩根考夫曼出版公司（2002）
[17]	Yoon，S.、Fern，A.、Givan，R.：前向搜索规划的学习控制知识。J.马赫。学习。第9号决议，683-718（2008年）·Zbl 1225.68246号
[18]	Zimmerman，T.，Kambhampati，S.：学习辅助的自动化规划：回顾、评估和展望。AI Mag.24，73-96（2003）

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
实验室	回顾，摘要
第页	出版年份
右心室	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文档类型(j个：期刊文章；b条：book；一：图书文章）

一&b条	逻辑和
一\|b条	逻辑或
!实验室	逻辑不
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

领域

操作员

学习规划政策的打包策略。（英语） Zbl 1409.68269号

MSC公司：

关键词：

软件：

参考文献：

示例

领域

操作员

学习规划政策的打包策略。 （英语） Zbl 1409.68269号

MSC公司：

关键词：

软件：

参考文献：

学习规划政策的打包策略。（英语） Zbl 1409.68269号