×

最大相关性和最佳学习机器。 (英语) Zbl 1504.82004号

摘要:我们探讨了学习机器提取最大相关性表示的假设,其中相关性定义为内部表示的能量分布熵。我们表明,学习机的内部表示与从数据中提取的特征之间的互信息从下到下受相关性的限制。这促使我们研究具有最大相关性的模型——我们称之为最优学习机器——作为信息量最大化表示的候选。我们分析了在实际情况下,相关性的最大化是如何受到所使用模型的架构和可用数据的约束的。我们发现,不影响模型热力学的次广泛特征可能会显著影响学习性能,临界性会提高学习性能,但临界点的存在不是必要条件。在具体的学习任务中,我们发现:(i)可能性的最大值是通过具有最大相关性的模型实现的,(ii)内部表征接近有限数据集中可以实现的最大相关性,(iii)学习与内部表征的能级谱的拓宽有关,符合最大关联假设。

理学硕士:

82B10型 量子平衡统计力学(通用)
62B10型 信息理论主题的统计方面
62层30 约束条件下的参数化推理
68T07型 人工神经网络与深度学习
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] 霍普菲尔德J J 1982具有涌现集体计算能力的神经网络和物理系统。美国国家科学院。科学79 2554-8·Zbl 1369.92007号 ·doi:10.1073/pnas.79.8.2554
[2] Ackley D H、Hinton G E和Sejnowski T J 1985波尔兹曼机器的学习算法。科学9 147-69·doi:10.1207/s15516709cog0901_7
[3] Baity-Jesi M等人2019年比较动力学:深层神经网络与玻璃系统J.Stat.Mech。124013 ·Zbl 1459.82317号
[4] Tubiana J和Monasson R 2017在受限Boltzmann机器Phys中出现成分表示。修订稿118 138301·doi:10.1103/physrevlett.118.138301
[5] Decelle A、Fissoor G和Furtlehner C 2018受限Boltzmann机器的热力学和相关学习动力学J.Stat.Phys.172 1576-608·Zbl 1407.82041号 ·doi:10.1007/s10955-018-2105-y
[6] Baldassi C、Borgs C、Chayes J T、Ingrosso A、Lucibello C、Saglietti L和Zecchina R 2016学习神经网络的不合理有效性:从可访问状态和鲁棒集成到基本算法方案Proc。美国国家科学院。科学。美国113 E7655-62·doi:10.1073/pnas.1608103113
[7] 规则ME、Sorbaro M和Hennig M H 2018随机潜在变量模型中的最优编码(arXiv:1802.10361)
[8] Mézard M Feb 2017 Hopfield模型中的平均场消息传递方程及其推广Phys。版次:E 95 022117·doi:10.1103/physreve.95.022117
[9] Goldt S、Mézard M、Krzakala F和ZdeborováL 2019模拟数据结构对神经网络学习的影响(arXiv:1909.11500)
[10] Rotondo P、Lagomarsino M C和Gherardi M 2020计算几何结构数据物理的可学习函数。修订版2 023169·doi:10.1103/physrevresearch.2.023169
[11] ZdeborováL 2020理解深度学习也是物理学家Nat.Phys.16 602-4的工作·doi:10.1038/s41567-020-0929-2
[12] Song J、Marsili M和Jo J 2018深度学习J.Stat.Mech中的解决方案和相关性权衡。123406 ·兹比尔1456.68177 ·doi:10.1088/1742-5468/af10f
[13] Cubero R J、Jo J、Marsili M、Roudi Y和Song J 2019统计临界性出现在信息最丰富的表述中J.Stat.Mech。063402 ·Zbl 1456.62011年 ·doi:10.1088/1742-5468/ab16c8
[14] Mora T和Bialek W 2011生物系统处于临界状态吗?《统计物理学杂志》144 268-302·Zbl 1226.82005年 ·doi:10.1007/s10955-011-0229-4
[15] Cubero R、Marsili M和Roudi Y 2018最小描述长度代码至关重要Entropy20 755·doi:10.3390/e20100755
[16] Karakida R、Okada M和Amari S-i.2016对比发散学习的动态分析:带高斯可见单元的受限Boltzmann机器神经网络79 78-87·Zbl 1414.68062号 ·doi:10.1016/j.neunet.2016.03.013
[17] LeCun Y、Bottou L、Bengio Y和Haffner P 1998基于梯度的学习应用于文档识别过程。IEEE86 2278-324标准·数字对象标识代码:10.1109/5.726791
[18] Ansuni A、Laio A、Macke J H和Zoccolan D 2019深度神经网络数据表示的内在维度神经信息处理系统进展6111-22
[19] Ilyas A、Santurkar S、Tsipras D、Engstrom L、Tran B和Madry A 2019对手示例不是错误,它们是神经信息处理系统进步第125-36页的特征
[20] Cover T M和Thomas J A 2012信息理论要素(纽约:Wiley)
[21] Schwab D J、Nemenman I和Mehta P 2014在没有微调物理的情况下,多元数据中的Zipf定律和临界性。修订稿113 068102·doi:10.1103/physrevlett.113.068102
[22] Myung I J、Balasubramanian V和Pitt M A 2000计算概率分布:微分几何和模型选择程序。美国国家科学院。科学97 11170-5·Zbl 0997.62099号 ·doi:10.1073/pnas.170283897
[23] Cubero R J,Marsili M和Roudi Y 2020神经元棘突训练中的多尺度相关性和信息编码J.Comput。神经科学48 85-102·Zbl 1431.92018年 ·doi:10.1007/s10827-020-00740-x
[24] Jonhson S、Domínguez-Garcia V和Muñoz M a 2013决定复杂网络嵌套性的因素PLoS One8 e74025·doi:10.1371/journal.pone.0074025
[25] Lee E D、Broedersz C P和Bialek W 2015美国最高法院统计力学J.Stat.Phys.160 275-301·Zbl 1360.82025号 ·doi:10.1007/s10955-015-1253-6
[26] Marsili M、Mastromateo I和Roudi Y,2013年,《复杂系统采样和建模》,《统计力学杂志》。P09003号·兹比尔1456.92060 ·doi:10.1088/1742-5468/2013/09/09003
[27] Haimovici A和Marsili M 2015大多数信息样本的关键性:贝叶斯模型选择方法J.Stat.Mech。第10013页·Zbl 1456.62043号 ·doi:10.1088/1742-5468/2015/10/p10013
[28] Tieleman T 2008培训使用近似似然梯度Proc来限制Boltzmann机器。第25届国际机器学习大会1064-71·数字对象标识代码:10.1145/1390156.1390290
[29] Hinton G E 2012训练受限Boltzmann机器的实用指南神经网络:交易技巧(柏林:施普林格出版社)第599-619页·doi:10.1007/978-3642-35289-8_32
[30] Shamir O、Sabato S和Tishby N 2010学习和概括信息瓶颈Theor。计算。科学411 2696-711·Zbl 1192.68395号 ·doi:10.1016/j.tcs.2010.04.006
[31] Schwarz G 1978估算模型Ann.Stat.6 461-4的尺寸·Zbl 0379.62005年 ·doi:10.1214/aos/1176344136
[32] Bialek W、Nemenman I和Tishby N 2001神经计算的可预测性、复杂性和学习。13 2409-63·Zbl 0993.68045号 ·doi:10.1162/089976601753195969
[33] Mastromateo I和Marsili M 2011关于推断模型的临界性J.Stat.Mech。第10012页·doi:10.1088/1742-5468/2011/10/p10012
[34] 穆尼奥斯MA 2018学术讨论会:生命系统中的临界性和动态尺度Rev.Mod。物理90 031001·doi:10.1103/revmodphys.90.031001
此参考列表基于出版商或数字数学图书馆提供的信息。它的项目与zbMATH标识符启发式匹配,并且可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。