计算机科学>机器学习
标题: 基于$ε$-贪婪探索的深度Q网络的收敛性和样本复杂度分析
摘要: 本文通过深度强化学习中的贪婪探索,对深度Q网络(DQN)进行了理论理解。 尽管DQN在实证方面取得了巨大成就,但其理论特征仍有待探索。 首先,在现有分析中,勘探策略要么不切实际,要么被忽视。 其次,与传统的Q学习算法相比,DQN使用目标网络和经验重放来获得Q网络训练中使用的均方Bellman误差(MSBE)的无偏估计, 现有的DQN理论分析缺乏收敛性分析,或者通过部署一个计算效率不高的显著超参数神经网络来绕过技术挑战。 本文首次对具有$\epsilon$-贪婪策略的DQN的实际设置进行了理论收敛性和样本复杂性分析。 我们证明了具有衰减$\epsilon$的迭代过程几何收敛于最优Q值函数。 此外,较高水平的$\epsilon$值会扩大收敛区域,但会减慢收敛速度,而较低水平的$\ epsilon=值则相反。 实验证明我们对DQN的既定理论见解是正确的。