计算机科学>机器人
职务: 多车道场景下自动驾驶的分布式关键编码
摘要: 在本文中,我们提出了一种新的强化学习(RL)算法,称为编码分布式软actor-critic(E-DSAC),用于自主驾驶决策。 与现有的基于RL的决策方法不同,E-DSAC适用于周围车辆数量可变的情况,并且无需手动预先设计排序规则,从而提高了策略性能和通用性。 我们首先通过在分布式RL框架中嵌入一个置换不变量模块来开发一个编码分布式策略迭代(DPI)框架,该模块使用特征神经网络(NN)对每辆车的指标进行编码。 证明了所提出的DPI框架在收敛性和全局最优性方面具有重要的特性。 接下来,基于开发的编码DPI框架,我们提出了E-DSAC算法,将特征神经网络的基于梯度的更新规则添加到DSAC算法的策略评估过程中。 然后,设计了多车道驾驶任务和相应的奖励函数,验证了该算法的有效性。 结果表明,E-DSAC学习的策略可以在设计的场景中实现高效、平稳、相对安全的自主驾驶,并且E-DSAC最终学习的策略性能大约是DSAC的三倍。 此外,其有效性也在实车试验中得到了验证。