计算机工程与应用››2024,第60卷››发行(10):341-352。内政部:10.3778/j.issn.1002-8331.2302-0033

•工程与应用• 以前的文章   下一篇文章

基于碰撞预测的机器人导航强化仿真学习方法

王浩杰、陶冶、卢朝峰  

  1. 青岛科技大学信息科学与技术学院,山东青岛,266100
  • 在线:2024-05-15 出版:2024-05-15

基于碰撞预测的强化模仿学习机器人导航方法

王浩杰,陶冶,鲁超峰  

  1. 青岛科技大学 信息科学技术学院,山东 青岛 266100

摘要:基于学习的机器人导航方法对数据集的依赖性很高,在某些特定环境下性能不理想,例如,智能体无法在广阔的开放空间中朝着目标奔跑,并且在障碍物密集的空间中碰撞率很高。为了提高机器人在多障碍场景中的导航性能,提出了一种基于碰撞预测的强化仿真学习导航方法。首先,根据无模型机器人的性能,为马尔可夫决策过程(MDP)建立状态空间、动作空间和奖励函数。该模型在基于强化学习的仿真环境中进行训练,使机器人能够在稀疏障碍物环境中获得导航和避障能力。为了改善强化学习在特定环境下表现不理想的缺点,采用模仿学习来训练策略。最后,设计了碰撞预测模型,将传统控制与深度学习相结合,使机器人根据预测结果在不同的环境中自适应选择合适的控制策略,大大提高了导航的安全性。在大量前所未有的场景中,实验验证了该方法的导航性能和泛化能力。

摘要:基于学习的机器人导航方法存在对数据的依赖性高和在一些特定环境下表现不完美的问题,例如在空旷场景下无法走直线,在障碍物密集场景下碰撞率高。为了提高机器人的导航性能,提出了一种基于碰撞预测的强化模仿学习导航方法。在无模型的情况下,根据机器人的性能,建立马尔科夫决策过程(马尔可夫决策过程,MDP)中所需要的状态空间、动作空间、奖励函数。采用深度强化学习(深度强化学习,DRL)在仿真环境中进行训练,使机器人获得能够在多障碍环境中导航和避障的能力。使用收集到的专家数据按照模仿学习方法对策略继续进行训练,改善强化学习在障碍物稀疏和密集两种极端情况下表现不完美的问题。设计了一个碰撞预测模型,将传统控制与深度学习相结合,根据预测结果,使机器人自适应地在不同环境下选取合适的控制策略,大大提高了导航的安全性。通过实验,在大量从未遇到过的场景下验证了所提出方法的导航性能和泛化能力。

关键词: 导航, 强化学习, 模仿学习, 碰撞预测, 混合控制