On the Convergence and Sample Complexity Analysis of Deep Q-Networks with $\epsilon$-Greedy Exploration

Zhang, Shuai; Li, Hongkang; Wang, Meng; Liu, Miao; Chen, Pin-Yu; Lu, Songtao; Liu, Sijia; Murugesan, Keerthiram; Chaudhury, Subhajit

计算机科学>机器学习

arXiv:2310.16173（cs）

【于2023年10月24日提交】

标题：基于$ε$-贪婪探索的深度Q网络的收敛性和样本复杂度分析

作者：张帅（Shuai Zhang）,李洪康,孟旺（Meng Wang）,苗柳,陈品玉（Pin-Yu Chen）,陆松涛,刘思佳,基尔西拉姆·穆鲁格桑,苏巴吉特·乔杜里

查看PDF

摘要：本文通过深度强化学习中的贪婪探索，对深度Q网络（DQN）进行了理论理解。尽管DQN在实证方面取得了巨大成就，但其理论特征仍有待探索。首先，在现有分析中，勘探策略要么不切实际，要么被忽视。其次，与传统的Q学习算法相比，DQN使用目标网络和经验重放来获得Q网络训练中使用的均方Bellman误差（MSBE）的无偏估计，现有的DQN理论分析缺乏收敛性分析，或者通过部署一个计算效率不高的显著超参数神经网络来绕过技术挑战。本文首次对具有$\epsilon$-贪婪策略的DQN的实际设置进行了理论收敛性和样本复杂性分析。我们证明了具有衰减$\epsilon$的迭代过程几何收敛于最优Q值函数。此外，较高水平的$\epsilon$值会扩大收敛区域，但会减慢收敛速度，而较低水平的$\ epsilon=值则相反。实验证明我们对DQN的既定理论见解是正确的。

学科：	机器学习（cs.LG）
引用为：	arXiv:2310.16173【cs.LG】
	（或 arXiv:2310.16173v1【cs.LG】对于此版本）
	https://doi.org/10.48550/arXiv.2310.16173
日志参考：	纽里普斯2023

提交历史记录

发件人：李洪康[查看电子邮件]
[第1版]2023年10月24日星期二20:37:02 UTC（820 KB）

计算机科学>机器学习

标题：基于$ε$-贪婪探索的深度Q网络的收敛性和样本复杂度分析

提交历史记录

访问纸张：

参考文献和引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目

计算机科学>机器学习

标题：基于$ε$-贪婪探索的深度Q网络的收敛性和样本复杂度分析

提交历史记录

访问纸张：

参考文献和引文

BibTeX格式的引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目