计算机科学>机器学习
标题: 深层神经网络解决方案是否构成星域?
摘要: 最近有人推测,考虑到置换不变性,通过随机梯度下降(SGD)可到达的神经网络解集是凸的(Entezari等人,2022)。 这意味着,如果其中一个模型的权重进行了适当的排列,则线性路径可以以低损耗连接两个独立的解决方案。 然而,目前测试这一理论的方法通常需要非常广泛的网络才能成功。 在这项工作中,我们推测,更一般地说,SGD解集是一个“星域”,其中包含一个“星形模型”,该模型通过具有低损耗值的路径、模置换与所有其他解线性连接。 我们提出了星光算法,该算法可以找到给定学习任务的恒星模型。 我们通过证明这个恒星模型与其他独立发现的解线性相关来验证我们的说法。 作为我们研究的另一个好处,我们在获得的星域上证明了贝叶斯模型平均值的更好的不确定性估计。 此外,我们还演示了恒星模型作为模型系综的潜在替代品。 我们的代码位于 此https URL .