×

机器学习的数学基础。2021年3月21日至27日举行的研讨会(混合会议)摘要。 (英文) Zbl 1487.00029号

总结:机器学习在各种应用中取得了显著的成功,但人们普遍认为,缺少用于深度学习的数学理论。最近,在不同的领域,例如数理统计和统计学习,已经得到了一些最初的数学结果。任何机器学习的数学理论都必须结合不同领域的工具,如非参数统计、高维统计、经验过程理论和近似理论。研讨会的主要目标是汇集对机器学习数学做出贡献的主要研究人员。
研讨会的重点是深层神经网络的理论。从数学上讲,神经网络定义了具有丰富数学结构的函数类,这些函数类由于参数的非线性而极难分析。直到最近,大多数现有的理论结果还无法处理深层网络的许多独特特征,例如多层隐藏层或ReLU激活函数。研讨会的其他主题是量化机器学习方法的不确定性的程序和数据隐私的数学。

MSC公司:

00亿05 讲座摘要集
00B25型 杂项特定利益的会议记录
62-06 与统计有关的会议记录、会议记录、收集等
68-06 与计算机科学有关的会议记录、会议、收藏等
68T07型 人工神经网络与深度学习
62G05型 非参数估计
62G08号 非参数回归和分位数回归
6220国集团 非参数推理的渐近性质
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Allen-Zhu等人,2018年]Allen-Zhu,Z.,Li,Y.和Song,Z.通过超参数化实现深度学习的收敛理论。arXiv电子版(2018),arXiv:1811.03962。
[2] Anthony,M.和Bartlett,P.L.《神经网络学习:理论基础》。剑桥大学出版社,剑桥(1999)。
[3] 等人,2019]Bartlett,P.,Harvey,N.,Liaw,C.和Mehrabian,A.分段线性神经网络的几乎紧的VC维数和伪维数边界。《机器学习研究杂志》20(2019),1-17·Zbl 1489.62302号
[4] [Du等人,2018年]Du,S.S.,Lee,J.D.,Li,H.,Wang,L.和Zhai,X.梯度下降发现深度神经网络的全局极小值。arXiv电子打印(2018),arXiv:1811.03804。[Rosenblatt,1958]Rosenblat,F.感知器:大脑中信息存储和组织的概率模型。《心理学评论》65,6(1958),386-408。
[5] 参考文献[Baraud,2002]Baraud、Y.(2002)。信号检测中的非渐近最小最大测试率。伯努利,8(5):577-606·Zbl 1007.62042号
[6] Beran,1996]Beran,R.(1996)。高维Stein估计:回顾。Madan Puri Festschrift,E.Denker和M.Brunner编辑,91-110·Zbl 0874.62057号
[7] [Blanchard和Fermanian,2021]Blanchard,G.和Fermainian,J.-B.(2021)。高维非渐近信号检测和双样本测试(已提交)[Brown and Greenshtein,2009]Brown,L.和Greenshtedin,E.(2009)。估计高维正态均值向量的非参数经验贝叶斯和复合决策方法。Ann.Statist公司。37(4): 1685-1704 ·兹比尔1166.62005
[8] 【Feldman等人,2014年】Feldman,S.、Gupta,M.R.和Frigyik,B.A.(2014年)。重新审视斯坦的悖论:多任务平均。机器学习研究杂志,15(106):3621-3662·Zbl 1312.62013年
[9] 和斯坦因,1961]詹姆斯·W·和斯坦因·C·(1961)。二次损失估算。程序中。第四届伯克利数理统计与概率研讨会,第1卷,第361-379页。【Marienwald等人,2021年】Marienwald,H,Fermanian,J.-B.和Blanchard,G.(2021年)。高维多任务平均及其在核均值嵌入中的应用。程序。《人工智能与统计的对比》(AISTATS 2021)·Zbl 1281.62026号
[10] 等,2017年]Muandet,K.,Fukumizu,K.、Sriperumbudur,B.和Schölkopf,B.(2017年)。内核意味着嵌入发行版:回顾和超越。机器学习的基础和趋势,10(1-2):1-141。
[11] S.Bubeck,Y.Li,D.Nagaraj双层神经网络的鲁棒性定律,arXiv:2009.14444,(2020)。
[12] X.Bing,F.Bunea,S.Strimas-Mackey,M.Wegkamp在滞后因子回归下的预测:自适应PCR,内插预测因子及其以外,arXivhttps://arxiv.org/abs/2007.10050,2021年。工具书类
[13] S.Dereich和S.Kassing,Lojasiewicz景观随机梯度下降方案的收敛性,arXiv:2102.09385[cs.LG]。
[14] S.Lojasiewicz,部门问题研究。,数学研究生。18 (1959), 87-136. ·Zbl 0115.10203号
[15] S.Lojasiewicz,Une propriétét e拓扑des sous-ensemples analytiques réels,Le se Equations aux Dériveées Partielles(1963),87-89·Zbl 0234.57007号
[16] E.Abbe、J.Fan和K.Wang(2020)。主成分分析和谱聚类理论。https://arxiv.org/abs/2006.14062。
[17] Afonso S Bandeira,Nicolas Boumal和Amit Singer,角同步的最大似然半定松弛的紧性,数学规划163(2017),145-167·Zbl 1365.90188号
[18] 钟一桥和尼古拉斯·博马尔,相位同步的近最优界,SIAM优化杂志28(2018),989-1016·Zbl 1396.90068号
[19] C.Tosh、A.Krishnamurthy和D.Hsu。对比估计揭示了线性模型的主题后验信息。arXiv:2003.022342020年。
[20] C.Tosh、A.Krishnamurthy和D.Hsu。对比学习、多视图冗余和线性模型。在2021年国际算法学习理论会议上。工具书类
[21] 金俊杰,柯振中,罗三生,网络测试中符号多边形统计的最佳适应性,《统计年鉴》(2021年)·Zbl 1486.62168号
[22] B.Bauer和M.Kohler《深度学习作为非参数回归中维度诅咒的补救方法》,《统计年鉴》47,2261-2285·Zbl 1421.62036号
[23] Y.Kim,句子分类的卷积神经网络arXiv:1408.5882(2014)。
[24] M.Kohler和S.Langer关于使用ReLU激活函数的全连接极深神经网络回归估计的收敛速度,arXiv:1908.11133,发表于《统计年鉴》。
[25] A.Krizhevsky、I.Sutskever和G.E.Hinton,用深度卷积神经网络进行ImageNet分类In F.Pereira et al.(Eds.),神经信息处理系统进展25(2012),1097-1105。纽约州红钩市:Curran。
[26] 卢军,沈振中,杨浩,张绍,光滑函数的深度网络逼近arXiv:2001.03040(2020)。
[27] J.Schmidt-Hieber,使用具有ReLU激活功能的深度神经网络的非参数回归(讨论),《统计学年鉴》48(2020),1875-1897·Zbl 1459.62059号
[28] D.Silver、J.Schrittwieser、K.Simonyan、I.Antonoglou、A.Huang、A.Guez、T.Huber等人。在没有人类知识的情况下掌握围棋游戏。《自然》550(2017),354-359。
[29] Y.Wu,M.Schuster,Z.Chen,Q.Le,M.Norouzi,W.Macherey,M.Krikum等人。谷歌的神经机器翻译系统:跨越人类和机器翻译之间的鸿沟,arXiv:1609.08144。
[30] D.Yarotsky,超深ReLU网络对连续函数的最佳逼近,COLT 75(2018),639-649。
[31] D.Yarotsky和A.Zhevnerchuk,深度神经网络近似率相图,arXiv:1906.09477(2020)。
[32] R.Levie,W.Hang,L.Bucci,M.M.Bronstein和G.Kutyniok,谱图卷积神经网络的可传递性,arXiv:1907.12972[cs.LG],2019。
[33] R.Levie、E.Isufi和G.Kutyniok,《关于谱图滤波器的可传递性》,2019年第13届采样理论与应用国际会议(SampTA),2019。
[34] A.Nilsson和X.Bresson,谱图网络可传递性的实验研究,arXiv:2012.10258[cs.LG],2020。
[35] Richard Nickl,Sven Wang,《利用Langevin型算法进行高维后验测度的多项式时间计算》,arXiv:2009.05298
[36] M.Haas和S.Richter。Wasserstein GANs的统计分析及其在时间序列预测中的应用,2020年,arXiv 2011.03074
[37] N.Phandoidaen和S.Richter。用编解码神经网络预测时间序列,2020年,arXiv 2009.08848
[38] N.Phandoidaen和S.Richter。局部平稳过程的经验过程理论,2021,arXiv 2007.05737
[39] J.Schmidt-Hieber“使用具有ReLU激活功能的深度神经网络进行非参数回归”,《统计学年鉴》,《统计年鉴》。48(4),1875-1897,(2020年8月)Metropolis Hastings via Classification Veronica Rockova(与Tetsuya Kaji合作)参考文献·Zbl 1459.62059号
[40] Yair Carmon、John C Duchi、Oliver Hinder和Aaron Sidford。寻找驻点的下限i.数学规划,2019年1-50页·兹比尔1451.90128
[41] 池进、荣戈、普拉尼斯·内特拉帕利、沙姆·卡卡德和迈克尔·乔丹。如何有效地避开鞍点。第34届国际机器学习会议论文集——第70卷,第1724-1732页。JMLR公司。org,2017年。
[42] Jean-Michel Lasry和Pierre Louis Lions。关于hilbert空间正则化的一点注记。以色列数学杂志,55(3):257-2661986·Zbl 0631.49018号
[43] Arkadii Semenovich Nemirovsky和David Borisovich Yudin。优化中的问题复杂性和方法效率。威利,1983年·Zbl 0501.90062号
[44] 尤里·内斯特罗夫。如何使梯度变小。Optima公司。数学优化社会通讯,(88):10-112012。
[45] 张敬钊、林洪洲、苏夫里特·斯拉和阿里·贾巴比。关于寻找非光滑非凸函数驻点的复杂性。arXiv预打印arXiv:2002.041302020。工具书类
[46] G.Chinot、M.Löffler、M.和S.van de Geer,《关于最小范数间极性的稳健性》,arXiv:2012.00807(2020)。
[47] Y.Freund和R.M.Schapire,在线学习的决策理论推广及其在助推中的应用,55(1997),119-139·Zbl 0880.68103号
[48] S.Rosset、J.Zhu和T.Hastie,Boosting as a regulated path to a maximum margin classifier,Journal of Machine Learning Research 5(2004),120-140·Zbl 1222.68290号
[49] M.Telgarsky,《利润、收缩和提升》,国际机器学习会议(2013),307-315。
[50] 张涛,余碧,《提前停止提振:收敛与一致性》,《统计年鉴》第33期(2004),1538-1579页·Zbl 1078.62038号
[51] A.Belloni、V.Chernozhukov和C.Hansen,在高维对照中选择后对治疗效果的推断,《经济研究评论》81(2013),608-650·Zbl 1409.62142号
[52] P.Bühlmann和S.van de Geer,《高维数据统计:方法、理论和应用》,Springer(2011)·Zbl 1273.62015年
[53] 蔡涛,郭振中,高维线性回归的准确度评估,《统计学年鉴》46(2018),1807-1836·Zbl 1403.62131号
[54] D.Chetverikov、Z.Liao和V.Chernozhukov,《关于交叉验证的Lasso》,arXiv预印本(2016年)。
[55] M.Chichignoud、J.Lederer和M.Wainwright,一种实用的方案和快速算法,用于调整具有最优保证的套索,《机器学习研究杂志》17(2016),1-20·Zbl 1404.68096号
[56] S.van de Geer,P.Bühlmann,Y.Ritov&R.Dezeure,《关于高维模型的渐近最优置信区间和检验》,《统计学年鉴》42(2014),1166-1202·Zbl 1305.62259号
[57] C.Giraud,《高维统计学导论》,CRC出版社(2014)。
[58] D.Gold、J.Lederer和J.Tao,高维工具变量再表达的推断,《计量经济学杂志》217(2020),79-111·Zbl 1456.62149号
[59] T.Hastie,R.Tibshirani和M.Wainwright,稀疏性统计学习:套索和概括,CRC出版社(2015)·Zbl 1319.68003号
[60] A.Javanmard和A.Montanari,高维回归的置信区间和假设检验,《机器学习研究杂志》15(2014),2869-2909·Zbl 1319.62145号
[61] J.Lee,D.Sun,Y.Sun,J.Taylor,《精确后选择推理及其在套索中的应用》,《统计学年鉴》44(2016),907-927·兹比尔1341.62061
[62] R.Lockhart、J.Taylor、R.Tibshirani和R.Tibbhirani,套索的显著性检验,《统计年鉴》42(2014),413-468·Zbl 1305.62254号
[63] R.Nickl&S.van de Geer,稀疏回归中的置信集,《统计年鉴》41(2013),2852-2876·Zbl 1288.62108号
[64] R.Tibshirani,《通过套索进行回归收缩和选择》,《皇家统计学会杂志:B系列58》(1996),267-288·Zbl 0850.62538号
[65] R.Tibshirani、J.Taylor、R.Lockhart和R.Tibs hirani,序贯回归程序的精确后选择推断,美国统计协会期刊111(2016),600-620。
[66] C.-H.Zhang和S.Zhang,高维线性模型中低维参数的置信区间,英国皇家统计学会杂志:B系列76(2014),217-242。记者:Yann Issartel·Zbl 1411.62196号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。