主页

论文

提交文件

新闻

编辑委员会

特殊问题

开源软件

程序(PMLR)

数据(DMLR)

交易(TMLR)

搜索

统计

登录

常见问题解答

联系我们



RSS源

基于深度神经网络和Logistic损失的分类

Zihan Zhang、Lei Shi、Ding Xuan Zhou; 25(125):1−117, 2024.

摘要

用逻辑损失(也称为交叉熵损失)训练的深度神经网络(DNN)在各种二进制分类任务中取得了令人瞩目的进展。尽管在实践中取得了相当大的成功,但使用深度神经网络进行二元分类的泛化分析和逻辑损失仍然很少。的目标函数的无界性二值分类中的logistic损失是获得满意泛化界的主要障碍。本文旨在通过发展一种新的理论分析来填补这一空白,并利用它建立严格的泛化边界,以训练二进制分类中具有逻辑损失的全连通ReLU DNN。我们的泛化分析基于一个优雅的oracle-type不等式,该不等式使我们能够处理目标函数的有界约束。利用这个oracle-type不等式,我们建立了完全连通ReLU DNN分类器${f}^{text{FNN}}_n$的泛化界,该分类器是针对大小为$n$的i.i.d.样本,通过经验逻辑风险最小化训练得到的,其收敛速度快于$n到infty$。特别地,我们获得了只需要数据的条件类概率的Hölder光滑性的$hat{f}^{text{FNN}}_n$(直到某些对数因子)的最优收敛速度。此外,我们考虑了一个组合假设,该假设要求$\eta$是几个向量值多元函数的组合,其中每个分量函数要么是最大值函数,要么是仅依赖于少量输入变量的Hölder光滑函数。在这个假设下,我们甚至可以导出与数据的输入维数无关的$hat{f}^{text{FNN}}_n$的最优收敛速度(可达一些对数因子)。这一结果解释了为什么DNN分类器在实践中能够克服维数灾难,并在高维分类问题中表现良好。此外,我们还建立了在其他情况下的无量纲收敛速度,例如当决策边界是分段光滑的且输入数据有界远离它时,本文提出的快速收敛速度还归因于ReLU DNNs逼近接近零(无界)的自然对数函数的严格误差界。此外,我们通过证明相应的极小极大下界来证明我们对速率最优性的主张。所有这些结果在文献中都是新的,将加深我们对深度神经网络分类的理论理解。

[腹肌][pdf格式][围兜]      
©JMLR公司2024(编辑,贝塔)

乳臭虫