Classification with Deep Neural Networks and Logistic Loss

Zihan Zhang; Lei Shi; Ding-Xuan Zhou

用逻辑损失（也称为交叉熵损失）训练的深度神经网络（DNN）在各种二进制分类任务中取得了令人瞩目的进展。尽管在实践中取得了相当大的成功，但使用深度神经网络进行二元分类的泛化分析和逻辑损失仍然很少。的目标函数的无界性二值分类中的logistic损失是获得满意泛化界的主要障碍。本文旨在通过发展一种新的理论分析来填补这一空白，并利用它建立严格的泛化边界，以训练二进制分类中具有逻辑损失的全连通ReLU DNN。我们的泛化分析基于一个优雅的oracle-type不等式，该不等式使我们能够处理目标函数的有界约束。利用这个oracle-type不等式，我们建立了完全连通ReLU DNN分类器${f}^{text{FNN}}_n$的泛化界，该分类器是针对大小为$n$的i.i.d.样本，通过经验逻辑风险最小化训练得到的，其收敛速度快于$n到infty$。特别地，我们获得了只需要数据的条件类概率的Hölder光滑性的$hat{f}^{text{FNN}}_n$（直到某些对数因子）的最优收敛速度。此外，我们考虑了一个组合假设，该假设要求$\eta$是几个向量值多元函数的组合，其中每个分量函数要么是最大值函数，要么是仅依赖于少量输入变量的Hölder光滑函数。在这个假设下，我们甚至可以导出与数据的输入维数无关的$hat{f}^{text{FNN}}_n$的最优收敛速度（可达一些对数因子）。这一结果解释了为什么DNN分类器在实践中能够克服维数灾难，并在高维分类问题中表现良好。此外，我们还建立了在其他情况下的无量纲收敛速度，例如当决策边界是分段光滑的且输入数据有界远离它时，本文提出的快速收敛速度还归因于ReLU DNNs逼近接近零（无界）的自然对数函数的严格误差界。此外，我们通过证明相应的极小极大下界来证明我们对速率最优性的主张。所有这些结果在文献中都是新的，将加深我们对深度神经网络分类的理论理解。

基于深度神经网络和Logistic损失的分类

摘要