Online stochastic gradient descent on non-convex losses from high-dimensional inference

Gerard Ben Arous; Reza Gheissari; Aukosh Jagannath

随机梯度下降（SGD）是解决高维推理任务中出现的优化问题的一种流行算法。这里，通过迭代优化损失函数，从独立的数据样本中生成未知参数的估计量。该损失函数是随机的，通常是非凸的。我们从参数空间为高维的设置中的随机开始，研究了最简单版本的SGD（即在线SGD）的性能。随着维数的变化，我们为一致估计所需的样本数量制定了几乎尖锐的阈值。我们的阈值仅取决于人口损失的内在特性，我们称之为信息指数。特别是，我们的结果并没有假设损失本身受到一致控制，例如凸性或一致导数界。我们得到的阈值在维数上是多项式的，精确的指数明确地取决于信息指数。根据我们的结果，我们发现除了最简单的任务外，几乎所有的数据都在初始搜索阶段简单使用，以获得与基本事实的非平凡相关性。在获得非平凡相关后，下降速度很快，表现出大数型行为。我们通过将其应用于一系列推理任务来说明我们的方法，例如广义线性模型、在线PCA和尖峰张量模型的相位检索和参数估计，以及具有一般激活函数的单层网络的监督学习。

基于高维推理非凸损失的在线随机梯度下降

摘要