一层神经网络优化景观中的虚假山谷

卢卡·文丘里、阿方索·S·班德拉、琼·布鲁纳。

年份:2019年,数量:20,版本:133,页码:1-34


摘要

神经网络提供了一类丰富的高维、非凸优化问题。尽管它们是非凸的,但梯度发光方法通常能成功地优化这些模型。这促使了最近一项研究的兴起,该研究试图描述其损耗表面的特性,这可能解释了这种成功。在本文中,我们通过研究损失的一个关键拓扑性质来解决这一现象:虚假谷的存在或不存在,虚假谷被定义为不包含全局最小值的子级集的连通分量。针对一类由光滑(但通常为非线性)激活函数定义的单隐层神经网络,我们确定了内禀维数的概念,并证明了它为不存在假谷提供了必要和充分的条件。更具体地说,有限的内在维度保证了对于充分超参数化的模型,不存在与数据分布无关的虚假谷。相反,无限的内在维度意味着某些数据分布确实存在虚假谷,与模型过度参数化无关。除了这些积极和消极的结果外,我们还表明,尽管假谷通常可能存在,但它们仅限于低风险水平,并且在过框架模型上很有可能避免。

PDF格式 BibTeX公司