的一部分神经信息处理系统进展32(NeurIPS 2019)
戴汉军、李玉佳、王成龙、里沙布·辛格、黄波森、普希米特·科利
本文考虑了对看不见的环境进行有效探索的问题,这是人工智能的一个关键挑战“学习探索”框架,我们从环境分布中学习政策。在测试时,面对来自同一分布的看不见的环境,该政策旨在推广探索策略,以在有限的步骤中访问最大数量的唯一状态。我们特别关注具有图形结构状态空间的环境,这些环境在许多重要的现实世界应用程序(如软件测试和地图构建)中都会遇到。我们将此任务表述为一个强化学习问题,其中探索的代理会因过渡到以前看不见的环境状态而获得奖励,并使用图结构内存对代理的过去轨迹进行编码。实验结果表明,我们的方法对于空间地图的探索是非常有效的;当应用于特定领域程序和实际移动应用程序的覆盖引导软件测试这一具有挑战性的问题时,它的性能优于人类专家手工设计的方法。
“学习探索”框架,我们从环境分布中学习政策。在测试时,面对来自同一分布的看不见的环境,该政策旨在推广探索策略,以在有限的步骤中访问最大数量的唯一状态。我们特别关注具有图形结构状态空间的环境,这些环境在许多重要的现实世界应用程序(如软件测试和地图构建)中都会遇到。我们将此任务表述为一个强化学习问题,其中
在电子程序中更改姓名的请求将被接受,不会提出任何问题。然而,名称更改可能会导致书目跟踪问题。作者被要求仔细考虑这一点,并在要求在电子诉讼中更改姓名之前与合著者进行讨论。
使用“报告问题”链接请求更改名称。