×

无限宽极限下两层ReLU神经网络的相图。 (英语) Zbl 07370588号

摘要:神经网络在不同超参数选择的训练过程中的行为是神经网络研究中的一个重要问题。在这项工作中,受统计力学中相位图的启发,我们绘制了两层ReLU神经网络在无限宽度极限下的相位图,以完全表征其动力学状态及其对与初始化相关的超参数的依赖性。通过实验和理论方法,我们根据宽度接近无穷大时输入权重的相对变化确定了相图中的三种状态,即线性状态、临界状态和凝聚状态,这三种状态分别趋向于(0)、(O(1)和(+)。在线性范围内,神经网络训练动力学近似线性,类似于具有指数损失衰减的随机特征模型。在凝聚状态下,我们通过实验证明活动神经元在几个离散方向上凝聚。临界区是上述两个区之间的边界,以平均场模型为例,临界区表现出中间非线性行为。总的来说,我们的双层ReLU神经网络的相位图为未来的研究提供了一个地图,也是朝着更系统地研究不同结构的神经网络的训练行为和隐式正则化迈出的第一步。

理学硕士:

68T05型 人工智能中的学习和自适应系统
PDF格式BibTeX公司 XML格式引用
全文: arXiv公司 链接

参考文献:

[1] Sanjeev Arora、Simon S.Du、Wei Hu、Zhiyuan Li、Ruslan Salakhutdinov和Ruosong Wang。关于无限宽神经网络的精确计算。2019年、2019年InNeurIPS。
[2] 陈正道(Zhengdao Chen)、格兰特·罗斯科夫(Grant M.Rotskoff)、琼·布鲁纳(Joan Bruna)和埃里克·范登·伊恩登(Eric Vanden-Eijnden)。浅层神经网络的动态中心极限定理。InNeurIPS 2020年、2020年。
[3] 莱纳·奇扎特和弗朗西斯·巴赫。基于最优传输的超参数模型梯度下降的全局收敛性。2018年和2018年InNeurIPS。
[4] 莱纳·奇扎特、爱德华·奥亚伦和弗朗西斯·巴赫。关于微分编程中的懒惰训练。2019年、2019年InNeurIPS。
[5] Simon S.Du、Wei Hu和Jason D.Lee。深度齐次模型学习中的算法正则化:层自动平衡。2018年和2018年InNeurIPS。
[6] Simon S.Du、Xiyu Zhai、Barnab´as P´oczos和Aarti Singh。梯度下降可证明优化了过参数化神经网络。2019年、2019年国际劳工组织劳工研究所。
[7] 魏南娥、马朝伟、吴磊。梯度下降动力学下两层神经网络和随机特征模型的优化和泛化性能的比较分析。科学。中国数学。,63, 2020. ·Zbl 1453.68163号
[8] 马里奥·盖革(Mario Geiger)、斯特凡诺·斯皮格勒(Stefano Spigler)、亚瑟·杰科特(Arthur Jacot)和马蒂厄·怀亚特(Matthieu Wyart)。深度神经网络中的纠缠特征和懒惰训练。统计力学杂志:理论与实验,2020(11):1133012020·Zbl 1459.68184号
[9] 泽维尔·格洛洛特和约舒亚·本吉奥。了解训练深度前馈神经网络的困难。《第十三届人工智能与统计国际会议论文集》,第249-2562010页。
[10] 何开明、张湘玉、任少清、孙建军。深入研究整流器:在图像网络分类方面超越人类水平的性能。InICCV 2015年、2015年。
[11] 亚瑟·杰科特(Arthur Jacot)、克莱门·洪勒(Cl´ement Hongler)和弗兰克·加布里埃尔(Frank Gabriel)。神经切线核:神经网络中的收敛和泛化。2018年和2018年InNeurIPS。
[12] Yann A LeCun、L´eon Bottou、Genevieve B Orr和Klaus-Robert M¨uller。高效的后盾。《神经网络:交易技巧》,第9-48页。施普林格,2012年。
[13] Jaehoon Lee、Lechao Xiao、Samuel S.Schoenholz、Yasaman Bahri、Roman Novak、Jascha Sohl-Dickstein和Jeffrey Pennington。任意深度的宽神经网络在梯度下降下演化为线性模型。2019年、2019年InNeurIPS。
[14] Chao Ma、Lei Wu和Weinan E.双层神经网络模型梯度下降动力学的淬火激活行为。arXiv预印本arXiv:2006.144502020。
[15] 哈特穆特·梅内尔(Hartmut Maennel)、奥利维尔·布斯克特(Olivier Bousquet)和西尔万·盖利(Sylvain Gelly)。梯度下降量化了relu网络特征。arXiv预印arXiv:1803.083672018。
[16] 宋梅(Song Mei)、安德烈亚·蒙塔纳里(Andrea Montanari)和潘敏·阮(Phan Minh Nguyen)。两层神经网络景观的平均场视图。《美国国家科学院院刊》,115(33):E7665-E76712018·Zbl 1416.92014号
[17] 宋梅,西奥多·米西亚凯维奇,安德烈亚·蒙塔纳里。双层神经网络的平均场理论:无量纲界限和核极限。2019年、2019年InCOLT。
[18] Edward Moroshko、Suriya Gunasekar、Blake Woodworth、Jason Lee、Nati Srebro和Daniel Soudry。深度线性分类中的内隐偏见:初始化量表与训练准确性。InNeurIPS 2020年、2020年。
[19] Grant M.Rotskoff和Eric Vanden-Eijnden。作为相互作用粒子的参数:神经网络的长时间收敛和渐近误差缩放。2018年和2018年InNeurIPS。
[20] 贾斯汀·西里尼亚诺(Justin Sirignano)和康斯坦蒂诺斯·斯皮利奥普洛斯(Konstantinos Spiliopoulos)。神经网络的平均场分析:中心极限定理。随机过程及其应用,130(3):1820-18522020·Zbl 1441.60022号
[21] 罗曼·弗什宁。高维概率:数据科学应用简介,第47卷。剑桥大学出版社,2018年·Zbl 1430.60005号
[22] Francis Williams、Matthew Trager、Daniele Panozzo、Cl´audio T.Silva、Denis Zorin和Joan Bruna。浅层单变量relu网络的梯度动力学。2019年、2019年InNeurIPS。
[23] Blake E.Woodworth、Suriya Gunasekar、Jason D.Lee、Edward Moroshko、Pedro Savarese、Itay Golan、Daniel Soudry和Nathan Srebro。超参数化模型中的核心和丰富状态。InCOLT 2020、2020。
[24] 张耀宇,徐志琴,罗涛,马郑。深度神经网络初始化引起的一种泛化错误。InMSML 2020年、2020年。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。