Adaptivity and Non-stationarity: Problem-dependent Dynamic Regret for Online Convex Optimization

Peng Zhao; Yu-Jie Zhang; Lijun Zhang; Zhi-Hua Zhou

我们研究了非平稳环境下的在线凸优化问题，并选择动态后悔作为性能度量，定义为在线算法和任何可行比较序列的累积损失之间的差异。假设$T$是时间范围，$P_T$是基本反映环境非平稳性的路径长度，最先进的动态遗憾是$\mathcal{O}（\sqrt{T（1+P_T）}）$。虽然这个界被证明是凸函数的极小极大最优，但在本文中，我们证明了对于一些简单的问题实例，特别是当在线函数是光滑的时，可以进一步增强保证。具体而言，我们引入了新的在线算法，该算法可以利用平滑性，并用问题相关量来取代动态遗憾中对$T$的依赖：损失函数梯度的变化、比较器序列的累积损失以及这两项的最小值。这些数量最多为$\mathcal{O}（T）$，而在良性环境中可能要小得多。因此，我们的结果与问题的固有困难相适应，因为对于简单问题，边界比现有结果更紧，同时在最坏情况下保持相同的速率。值得注意的是，我们提出的算法每次迭代只需一个梯度即可实现良好的动态遗憾，与静态遗憾最小化方法具有相同的梯度查询复杂度。为了实现这一点，我们引入了协作在线集成框架。该框架采用两层在线集成来处理非平稳性，并使用乐观的在线学习，进一步引入关键的校正项，以实现元数据库两层内的有效协作，从而获得自适应性。我们认为，该框架可以用于更广泛的问题。

自适应与非静态：在线凸优化的问题相关动态后悔

摘要