人民 swMATH ID: 29437 软件作者: 杨芳凯、吕道明、刘波、史蒂文·古斯塔夫森 描述: PEORL:集成符号规划和分层强化学习以实现稳健决策。强化学习和符号规划都被用于构建智能自治代理。强化学习依赖于从与现实世界的互动中学习,这通常需要大量不可行的经验。符号规划依赖于人工构建的符号知识,这些知识可能对领域的不确定性和变化不可靠。本文提出了一个统一的框架{em-PEORL},该框架将符号规划与分层强化学习(HRL)相结合,以处理动态不确定性环境中的决策。符号计划用于指导代理的任务执行和学习,学习的经验反馈给符号知识以改进计划。该方法可以在复杂域中实现快速的策略搜索和稳健的符号计划。该框架在HRL的基准域上进行了测试。 主页: https://arxiv.org/abs/1804.07779 关键词: 机器学习:arXiv_cs。LG公司;人工智能;arXiv_cs。人工智能;arXiv_状态ML;PEORL框架 相关软件: REBA公司;BWI罐;汽油发动机;CCalc公司;ModelPlex公司;贝勒罗芬;凯伊迈拉X;Clingcon公司;PDDL公司;DL2型;DeepProbLog(深度探测日志);斯莫德尔斯;FODD规划师;博客;克林戈 引用于: 6文件 标准条款 1出版物描述软件 年份 PEORL:集成符号规划和分层强化学习以实现稳健决策arXiv公司杨芳凯、吕道明、刘波、史蒂文·古斯塔夫森 2018 全部的 前5名19位作者引用 2 Lee,Joohyng先生 2 王毅 2 张世奇 1 Das、Subhro 1 亚伦·埃伯哈特 1 内森·富尔顿 1 迈克尔·盖尔芬德 1 史蒂文·古斯塔夫森(Steven M.Gustafson)。 1 帕斯卡·希茨勒 1 Hoang,Trong Nghia村 1 内森·亨特 1 刘波 1 吕道明 1 萨拉·马格里亚坎 1 卡姆鲁扎曼中校萨克 1 阿曼多·索拉勒扎马 1 莫汉·斯里德哈兰 1 杨芳凯 1 周、鲁 3篇连载文章中引用 2 逻辑程序设计理论与实践 1 人工智能通信 1 人工智能研究杂志 在3个字段中引用 6 计算机科学(68至XX) 1 运筹学、数学规划(90-XX) 1 系统论;控制(93至XX) 按年份列出的引文