Encoding Distributional Soft Actor-Critic for Autonomous Driving in Multi-lane Scenarios

Duan, Jingliang; Ren, Yangang; Zhang, Fawang; Guan, Yang; Yu, Dongjie; Li, Shengbo Eben; Cheng, Bo; Zhao, Lin

计算机科学>机器人

arXiv:2109.05540（cs）

【于2021年9月12日提交】

职务：多车道场景下自动驾驶的分布式关键编码

作者：段靖良,Yangang Ren公司,张发旺（Fawang Zhang）,杨冠,余东杰,升波·伊本·李,薄成,林昭（Lin Zhao）

查看PDF

摘要：在本文中，我们提出了一种新的强化学习（RL）算法，称为编码分布式软actor-critic（E-DSAC），用于自主驾驶决策。与现有的基于RL的决策方法不同，E-DSAC适用于周围车辆数量可变的情况，并且无需手动预先设计排序规则，从而提高了策略性能和通用性。我们首先通过在分布式RL框架中嵌入一个置换不变量模块来开发一个编码分布式策略迭代（DPI）框架，该模块使用特征神经网络（NN）对每辆车的指标进行编码。证明了所提出的DPI框架在收敛性和全局最优性方面具有重要的特性。接下来，基于开发的编码DPI框架，我们提出了E-DSAC算法，将特征神经网络的基于梯度的更新规则添加到DSAC算法的策略评估过程中。然后，设计了多车道驾驶任务和相应的奖励函数，验证了该算法的有效性。结果表明，E-DSAC学习的策略可以在设计的场景中实现高效、平稳、相对安全的自主驾驶，并且E-DSAC最终学习的策略性能大约是DSAC的三倍。此外，其有效性也在实车试验中得到了验证。

学科：	机器人（cs.RO）; 系统与控制
引用为：	arXiv:2109.05540[cs.反渗透]
	（或 arXiv：2109.05540v1[cs.反渗透]对于此版本）
	https://doi.org/10.48550/arXiv.2109.05540

提交历史记录

发件人：段靖良[查看电子邮件]
[第1版]2021年9月12日星期日15:42:13 UTC（3550 KB）

计算机科学>机器人

职务：多车道场景下自动驾驶的分布式关键编码

提交历史记录

访问纸张：

参考文献和引文

DBLP公司-CS书目

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目

计算机科学>机器人

职务：多车道场景下自动驾驶的分布式关键编码

提交历史记录

访问纸张：

参考文献和引文

DBLP公司-CS书目

BibTeX格式的引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目