CCA座谈会:David Schwab

日期和时间


标题:过参数神经网络中噪声训练的熵

摘要:随机梯度下降(SGD)是深度神经网络的核心优化方法。虽然在理论上取得了一些进展,但仍不清楚为什么SGD会将超参数网络中的学习动力学引入到通用性较好的解决方案中。这里我们表明,对于损失景观中具有退化山谷的超参数网络,SGD平均减少了损失的Hessian轨迹。我们还将这一结果推广到其他噪声结构,并表明Hessian非退化子空间中的各向同性噪声减少了其行列式。接下来,我们将讨论有监督学习的特征描述和最佳表示的发现问题。传统上,这个问题是使用信息瓶颈来解决的,该瓶颈以一种与解码器无关的方式压缩输入,同时保留有关目标的信息。我们提出了可解码信息瓶颈(DIB),该瓶颈从预期预测族的角度考虑信息保留和压缩。经验上,我们表明该框架可以用于在下游分类器上施加较小的泛化间隙,并预测神经网络的泛化能力。

缩放链接

2021年3月19日

大卫·施瓦布:噪音训练产生的熵

视频缩略图

单击观看此视频即表示您同意我们的隐私政策。

推进基础科学和数学研究订阅Flatiron Institute公告和其他基金会更新