CCA座谈会：David Schwab

2021年3月19日星期五

标题：过参数神经网络中噪声训练的熵

摘要：随机梯度下降（SGD）是深度神经网络的核心优化方法。虽然在理论上取得了一些进展，但仍不清楚为什么SGD会将超参数网络中的学习动力学引入到通用性较好的解决方案中。这里我们表明，对于损失景观中具有退化山谷的超参数网络，SGD平均减少了损失的Hessian轨迹。我们还将这一结果推广到其他噪声结构，并表明Hessian非退化子空间中的各向同性噪声减少了其行列式。接下来，我们将讨论有监督学习的特征描述和最佳表示的发现问题。传统上，这个问题是使用信息瓶颈来解决的，该瓶颈以一种与解码器无关的方式压缩输入，同时保留有关目标的信息。我们提出了可解码信息瓶颈（DIB），该瓶颈从预期预测族的角度考虑信息保留和压缩。经验上，我们表明该框架可以用于在下游分类器上施加较小的泛化间隙，并预测神经网络的泛化能力。