基于高维推理非凸损失的在线随机梯度下降

杰拉尔德·本·阿鲁斯(Gerard Ben Arous)、雷扎·盖萨里(Reza Gheisari)、奥科什·贾甘纳特(Aukosh Jagannath)。

年份:2021年,数量:22,版本:106,页码:1−51


摘要

随机梯度下降(SGD)是解决高维推理任务中出现的优化问题的一种流行算法。这里,通过迭代优化损失函数,从独立的数据样本中生成未知参数的估计量。该损失函数是随机的,通常是非凸的。我们从参数空间为高维的设置中的随机开始,研究了最简单版本的SGD(即在线SGD)的性能。随着维数的变化,我们为一致估计所需的样本数量制定了几乎尖锐的阈值。我们的阈值仅取决于人口损失的内在特性,我们称之为信息指数。特别是,我们的结果并没有假设损失本身受到一致控制,例如凸性或一致导数界。我们得到的阈值在维数上是多项式的,精确的指数明确地取决于信息指数。根据我们的结果,我们发现除了最简单的任务外,几乎所有的数据都在初始搜索阶段简单使用,以获得与基本事实的非平凡相关性。在获得非平凡相关后,下降速度很快,表现出大数型行为。我们通过将其应用于一系列推理任务来说明我们的方法,例如广义线性模型、在线PCA和尖峰张量模型的相位检索和参数估计,以及具有一般激活函数的单层网络的监督学习。

PDF格式 BibTeX公司