Reinforcement Imitation Learning Method Based on Collision Prediction for Robots Navigation

doi:10.3778/j.issn.1002-8331.2302-0033

摘要

摘要：基于学习的机器人导航方法对数据集的依赖性很高，在某些特定环境下性能不理想，例如，智能体无法在广阔的开放空间中朝着目标奔跑，并且在障碍物密集的空间中碰撞率很高。为了提高机器人在多障碍场景中的导航性能，提出了一种基于碰撞预测的强化仿真学习导航方法。首先，根据无模型机器人的性能，为马尔可夫决策过程（MDP）建立状态空间、动作空间和奖励函数。该模型在基于强化学习的仿真环境中进行训练，使机器人能够在稀疏障碍物环境中获得导航和避障能力。为了改善强化学习在特定环境中表现不完美的缺点，使用模仿学习来训练策略。最后，设计了碰撞预测模型，将传统控制与深度学习相结合，使机器人根据预测结果在不同的环境中自适应选择合适的控制策略，大大提高了导航的安全性。在大量前所未有的场景中，实验验证了该方法的导航性能和泛化能力。

摘要：基于学习的机器人导航方法存在对数据的依赖性高和在一些特定环境下表现不完美的问题，例如在空旷场景下无法走直线，在障碍物密集场景下碰撞率高。为了提高机器人的导航性能，提出了一种基于碰撞预测的强化模仿学习导航方法。在无模型的情况下，根据机器人的性能，建立马尔科夫决策过程（马尔可夫决策过程，MDP）中所需要的状态空间、动作空间、奖励函数。采用深度强化学习（深度强化学习，DRL）在仿真环境中进行训练，使机器人获得能够在多障碍环境中导航和避障的能力。使用收集到的专家数据按照模仿学习方法对策略继续进行训练，改善强化学习在障碍物稀疏和密集两种极端情况下表现不完美的问题。设计了一个碰撞预测模型，将传统控制与深度学习相结合，根据预测结果，使机器人自适应地在不同环境下选取合适的控制策略，大大提高了导航的安全性。通过实验，在大量从未遇到过的场景下验证了所提出方法的导航性能和泛化能力。

关键词: 导航, 强化学习, 模仿学习, 碰撞预测, 混合控制

王浩杰、陶冶、卢朝峰。基于碰撞预测的机器人导航强化仿真学习方法[J]。计算机工程与应用，2024，60（10）：341-352。

王浩杰, 陶冶, 鲁超峰. 基于碰撞预测的强化模仿学习机器人导航方法[J] ●●●●。计算机工程与应用, 2024, 60(10): 341-352.

工具书类

[1] CHENG K P，MOHAN R E，NHAN N H K，等.基于多目标遗传算法的铰链式可重构铺砖机器人自主路径规划[J]。IEEE接入，2020，8:121267-121284。
[2] FERNANDES P B，OLIVEIRA R C L，NETO J V F.应用具有多样性峰值的粒子群优化算法的自主移动机器人轨迹规划[J]。应用软计算，2022，116:108108。
[3] 杨浩，齐杰，苗毅，等.基于双层蚂蚁算法和轨迹优化的机器人导航新算法[J]。IEEE工业电子学报，2018，66（11）：8557-8566。
[4] 王杰，池伟，李聪，等.神经网络RRT*：基于学习的最优路径规划[J]。IEEE自动化科学与工程学报，2020，17（4）：1748-1758。
[5] 袁千贺, 魏国亮, 田昕, 等.改进A~*和DWA融合的移动机器人导航算法[J] ●●●●。小型微型计算机系统, 2023, 44(2): 334-339.
袁庆华，魏国伦，田晓霞，等.基于改进A*算法和动态窗口方法融合的移动机器人导航方法[J]。《中国计算机系统杂志》，2023，44（2）：334-339。
[6] 李国进, 陈武, 易丐.基于改进人工势场法的移动机器人导航控制[J] ●●●●。计算技术与自动化, 2017, 36(1): 52-56.
李国杰，陈伟，易庚.基于改进人工势场法的移动机器人导航控制[J]。计算技术与自动化，2017，36（1）：52-56。
[7] ZHU Y，WANG Z，CHEN C，et al.基于规则的强化学习用于空间缩减的高效机器人导航[J]。IEEE/ASME机电一体化汇刊，2021，27（2）：846-857。
[8] KAMIL F，HONG T S，KHAKSAR W，等.基于未来预测和优先行为的机器人任意未知动态环境导航新算法[J]。专家系统与应用，2017，86:274-291。
[9] 袁杰，王华，张华，等.基于深度强化学习的AUV避障规划[J]。海洋科学与工程杂志，2021，9（11）：1166。
[10] KRELL E，SHETA A，BALASUBRAMANIAN A P R，等.利用粒子群优化算法进行未知环境下的无碰撞自主机器人导航[J]。《人工智能与软计算研究杂志》，2019，9（4）：267-282。
[11] 克？STNER L，ZHAO X，SHEN Z，等。用于远程制导的障碍物感知航路点生成？学习？基于导航的方法[J]。arXiv：2021年9月2101639日。
[12] KIM Y H，JANG J I，YUN S.移动机器人自主导航的端到端深度学习[C]//2018 IEEE消费电子国际会议论文集，2018:1-6。
[13] 沃金斯？VALLS D，XU J，WAYTOWICH N，et al.在没有地图或指南针的情况下学习：全景目标驱动视觉导航[C]//2020 IEEE/RSJ智能机器人和系统国际会议论文集，2020：5816-5823。
[14] MULLER U，BEN J，COSATTO E，et al.通过端到端学习进行非正面障碍回避[C]//神经信息处理系统进展，第18页，2005年。
[15] LONG P，LIU W，PAN J.分布式多智能体导航的深度学习碰撞避免策略[J]。IEEE Robotics and Automation Letters，2017，2（2）：656-663。
[16] TAI L，ZHANG J，LIU M，et al.通过原始深度输入和生成性对抗性模拟学习实现社会兼容导航[C]//2018 IEEE机器人与自动化国际会议论文集，2018:1111-1117。
[17] MNIH V，KAVUKCUOGLU K，SILVER D，等.基于深度强化学习的人本控制[J]。《自然》，2015，518（7540）：529-533。
[18] 姜浩，万开伟，王浩，等.一种用于移动机器人导航的双延迟DDPG结构[C]//2022年第17届控制、自动化、机器人与视觉国际会议论文集，2022:193-197。
[19] 陈曦，苏力，戴宏.基于连续深度强化学习的无地图导航[C]//2021年中国自动化大会论文集，2021:6758-6763。
[20] 刘浚嘉, 付庄, 谢荣理, 等.模糊先验引导的高效强化学习移动机器人导航[J] 2021年，39（8）：72-76。
刘俊杰，付梓，谢瑞林，等.移动机器人导航的非显式先验引导高效强化学习[J]。机械与电子，2021，39（8）：72-76。
[21] 童小龙, 姚明海, 张灿淋.基于未知环境状态新定义及知识启发的机器人导航问题[J]。计算机系统应用, 2014, 23(1): 149-153.
TONG X L，YAO M H，ZHANG C L.基于未知环境状态新定义和知识启发式的机器人导航Q学习算法[J]。计算机系统应用，2014，23（1）：149-153。
[22]CHEN C，LIU Y，KREISS S，et al.群体-机器人交互：基于注意力的深度强化学习的群体感知机器人导航[C]//2019年机器人与自动化国际会议论文集，2019:6015-6022。
[23]胡H，张凯，谭阿赫，等.一种用于复杂不平地形下自主机器人导航的深度强化学习的简单-真实流水线[J]。IEEE Robotics and Automation Letters，2021，6（4）：6569-6576。
[24]PFEIFFER M，SHUKLA S，TURCHETTA M等。强化模仿：利用先前的演示，为无地图导航提供样本高效的深度强化学习[J]。IEEE Robotics and Automation Letters，2018，3（4）：4423-4430。
[25]好吗？STNER L，LI J，SHEN Z，等.利用基于语义的深度信息学习导航提高拥挤环境中的航行安全[J]。arXiv:2109.112882021。
[26]TAI L，PAOLO G，LIU M.虚拟到真实深度强化学习：移动机器人无地图导航的连续控制[C]//2017 IEEE/RSJ智能机器人与系统国际会议论文集，2017:31-36。
[27]LONG P，FAN T，LIAO X，et al.通过深度强化学习实现最优分散多机器人碰撞避免[C]//2018 IEEE机器人与自动化国际会议论文集，2018:6252-6259。
[28]LIU L，DUGAS D，CESARI G，et al.使用深度强化学习在拥挤环境中进行机器人导航[C]//2020 IEEE/RSJ智能机器人和系统国际会议论文集，2020：5671-5677。
[29]谢L，王S，ROSA S，等.使用训练轮学习：使用简单控制器加速深度强化学习训练[C]//2018 IEEE机器人与自动化国际会议论文集，2018:6276-6283。
[30]谢磊，缪毅，王S，等.机器人导航的随机引导学习[J]。IEEE神经网络和学习系统汇刊，2020，32（1）：166-176。
[31]樊T，LONG P，LIU W，等.复杂场景下基于深度强化学习的分布式多机器人避碰导航[J]。《国际机器人研究杂志》，2020，39（7）：856-892。
[32] 张俊友, 李鹏飞, 王树凤, 等.基于贝叶斯网络模型的车辆碰撞概率预测[J] .《英国报业报》，2018，43（6）：2332-2340。
张建业，李鹏飞，王世芳，等.基于贝叶斯网络的车辆碰撞概率预测[J]。广西大学学报（自然科学版），2018，43（6）：2332-2340。
[33]BAEK M，JEONG D，CHOI D，等.多传感器与无线车载通信融合的车辆轨迹预测与碰撞预警[J]。传感器，2020，20（1）：288。
[34]王X，刘J，邱T，等.智能交通系统中一种具有深度学习的实时碰撞预测机制[J]。IEEE车辆技术汇刊，2020，69（9）：9497-9508。
[35]熊X，陈L，梁J.基于SVM和HMM相结合的车辆碰撞预测新框架[J]。IEEE智能交通系统汇刊，2017，19（3）：699-710。
[36]HéBERT A，GUéDON T，GLATARD T，et al.蒙特利尔市高分辨率道路车辆碰撞预测[C]//2019年IEEE国际大数据会议论文集，2019:1804-1813。

基于碰撞预测的机器人导航强化仿真学习方法

基于碰撞预测的强化模仿学习机器人导航方法

PDF格式

知识

摘要

引用这篇文章

分享这篇文章

工具书类

相关文章0

推荐文章

韵律学