×

delta方法在深度学习分类中的认知不确定性量化。 (英语) Zbl 1521.68196号

摘要:Delta方法是量化统计模型中认知不确定性的经典方法,但其直接应用于深层神经网络受到大量参数的阻碍。我们基于Fisher信息矩阵的顶(K)特征对,提出了适用于(L_2)正则化深度神经网络的Delta方法的低成本近似,梯度近似的逆外积和所谓的三明治估计器。此外,我们还为预测类概率的不确定性提供了近似误差的界。我们证明了当Fisher信息矩阵的最小计算特征值接近于(L_2)正则化率时,即使在(K_(ll)P)时,近似误差也接近于零。使用TensorFlow实现对该方法进行了演示,我们表明,对于两个基于LeNet和ResNet的神经网络,可以使用MNIST和CIFAR-10数据集根据预测不确定性获得有意义的图像排名。此外,我们观察到假阳性者的预测性认知不确定性平均高于真阳性者。这表明,不确定性度量中有补充信息,而这些信息并非仅由分类捕获。

理学硕士:

68T07型 人工神经网络与深度学习
62B10型 信息理论主题的统计方面
第62页第17页 统计分布的近似值(非共鸣)
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] 阿兰,G。;Roux,N.L。;Manzagol,P.-A.,深度神经网络中麻类的负特征值(2019),https://arxiv.org/abs/1902.02366,arXiv:1902.02366v1[cs.LG]
[2] 博图,L。;柯蒂斯,F.E。;Nocedal,J.,《大规模机器学习的优化方法》,SIAM Review,60,2,223-311(2018)·Zbl 1397.65085号
[3] Cardot,H。;Degras,D.,高维在线主成分分析:选择哪种算法?(2015), https://arxiv.org/abs/1511.03688arXiv:1511.03688[统计ML]
[4] Efron,B.,Bootstrap methods:Another look at the jacknifer,《统计年鉴》,7,1,1-26(1979)·Zbl 0406.62024号
[5] Freedman,D.A.,关于所谓的“Huber Sandwich估计量”和“稳健标准误差”,《美国统计学家》,60,4,299-302(2006),https://www.jstor.org/stable/27643806
[6] 加尔,Y。;Ghahramani,Z.,《作为近似值的辍学:在深度学习中表示模型不确定性》(2016),https://arxiv.org/pdf/1506.02142,arXiv:1506.02142v6[stat.ML]
[7] 戈尔巴尼,B。;Krishnan,S。;Xiao,Y.,基于hessian特征值密度的神经网络优化研究(2019),https://arxiv.org/abs/1901.10159,arXiv:1901.10159v1[cs.LG]
[8] 古德费罗,I。;Y.本吉奥。;A.Courville,《深度学习》(2016),麻省理工学院出版社,http://www.deeplearningbook.org ·Zbl 1373.68009号
[9] Granziol,D。;加里波夫,T。;Zohren,S。;Vetrov,D。;罗伯茨,S。;Wilson,A.G.,《深度学习极限:负神经网络特征值只是噪声吗?》?,(发表于2019年ICML深度学习理论物理研讨会(2019年))
[10] Grosse,R.,第二讲:泰勒近似(2020),https://www.cs.toronto.edu/rgrosse/courses/csc2541_2021/readings/L02_Taylor_approximations.pdf
[11] He,K.,Zhang,X.,Ren,S.,&Sun,J.(2015)。深入研究整流器:在图像网络分类方面超越人类水平的性能。IEEE计算机视觉国际会议论文集(第1026-1034页)。
[12] He,K.,Zhang,X.,Ren,S.,&Sun,J.(2016)。用于图像识别的深度残差学习。《IEEE计算机视觉和模式识别会议论文集》(第770-778页)。
[13] J.M.V.Hoef,谁发明了δ法?,《美国统计学家》,66,2,124-127(2012),https://www.researchgate.net/publication/254329376_Who_Invented_the_Delta_Method ·Zbl 07649009号
[14] Hüllermier,E。;Waegeman,W.,《机器学习中的任意性和认知不确定性:概念和方法介绍》(2020年),https://arxiv.org/abs/1910.09457,arXiv:1910.09457v2[cs.长]·Zbl 07432810号
[15] 洛夫,S。;Szegedy,C.,《批量规范化:通过减少内部协变量偏移来加速深层网络训练》,(机器学习国际会议(2015),PMLR),448-456
[16] 卡拉基达,R。;南卡罗来纳州阿卡霍。;Amari,S.-i.,深度神经网络中Fisher信息度量及其变体的病理谱(2019),arXiv预印本arXiv:1910.05992
[17] 肯德尔,A。;Gal,Y.,我们在计算机视觉的贝叶斯深度学习中需要哪些不确定性?(2017), https://arxiv.org/pdf/1703.04977,arXiv:1703.04977v2[cs.CV]
[18] Khosravi,A。;Creighton,D.,《基于神经网络的预测区间和新进展的综合评述》,IEEE神经网络汇刊,22,9(2011),https://www.researchgate.net/publication/51534965_综合审查_of_Neural_Network-Based_Prediction_Intervals_and_New_Advances
[19] Kingma,D.P.和Ba,J.L.(2014)。亚当:一种随机优化方法。程序中。第三次国际比较学习。陈述。
[20] LeCun,Y。;Simard,P.Y。;Pearlmutter,B.,通过在线估计Hessian特征向量实现自动学习率最大化,(神经信息处理系统进展(NIPS 1992)(1993)),http://yann.lecun.com/exdb/publis/pdf/lecun-simard-pearlmutter-93.pdf
[21] Lehmann,E.L。;Casella,G.,点估计理论,125(1998),Springer科学与商业媒体·Zbl 0916.62017号
[22] 利维,A。;Lindenbaum,M.,序列karhunen-loeve基提取及其在图像中的应用,IEEE图像处理汇刊,9,8(2000),网址:http://www.cs.technion.ac.il/麦克风/文档/skl-ip.pdf·Zbl 1001.68586号
[23] 林,L。;萨阿德,Y。;Yang,C.,大矩阵的近似光谱密度,SIAM Review,58,1,34-65(2016)·Zbl 1338.15026号
[24] Litjens,G。;Kooi,T。;Bejnordi,B.E。;塞提奥,A.A.A。;Ciompi,F。;Ghafoorian,M.,《医学图像分析深度学习调查》,医学图像分析,42,60-88(2017),http://www.sciencedirect.com/science/article/pii/S1361841517301135
[25] Loquercio,A。;Segu,M。;Scaramuzza,D.,《深度学习中不确定性评估的一般框架》(2020年),https://arxiv.org/pdf/1907.06890,arXiv:1907.06890v4[cs.CV]
[26] 麦凯,D.,《反向传播网络的实用贝叶斯框架》,神经计算,4,3,448-472(1992),http://www.inference.org.uk/mackay/PD.html#PhD
[27] Martens,J.,《自然梯度法的新见解和观点》(2020年),https://arxiv.org/abs/1412.1193,arXiv:1412.1193[cs.LG]·Zbl 07306852号
[28] Murfet博士。;Wei,S。;龚,M。;李,H。;Gell-Redman,J。;Quella,T.,深度学习是单数,这很好(2020年),https://arxiv.org/abs/2010.11560,arXiv:2010.11560[cs.LG]
[29] Nagarajan,P。;Warnell,G.,《深度强化学习中再现性的确定性实现》(2019年),https://arxiv.org/abs/1809.05676,arXiv:1809.05676[cs.AI]
[30] 纽伊,W.K。;McFadden,D.,《计量经济学手册》(1994),https://www.sciencedirect.com/science/article/pii/S1573441205800054 ·Zbl 0982.62503号
[31] 尼尔森,G.K。;Munthe-Kaas,A.Z。;Skaug,H.J。;Brun,M.,TensorFlow中Hessian矩阵的高效计算(2019),https://arxiv.org/abs/1905.05559,arXiv:1905.05559v1[cs.LG]
[32] 尼尔森,G.K。;Munthe-Kaas,A.Z。;Skaug,H.J。;Brun,M.,深度学习分类中delta方法和bootstrap的比较(2021),http://arxiv.org/abs/2107.01606,arXiv:2107.01606[cs.LG]
[33] Osband,I.,《深度学习中的风险与不确定性:贝叶斯、引导和辍学的危险》(NIPS贝叶斯深度学习研讨会(2016)),http://bayesiandeeplearning.org/2016/papers/BDL_4.pdf
[34] 奥斯本·I。;布伦德尔,C。;普里策尔,A。;Roy,B.V.,《通过自举DQN进行深度探索》,(神经信息处理系统会议(2016)),https://papers.nips.cc/paper/6501-depe-exploration-via-bootstrapped-dqn.pdf
[35] Pearlmutter,B.A.,黑森快速精确乘法,神经计算,6,1,147-160(1994),网址:http://www.bcl.hamilton.ie/巴拉克/论文/nc-hessian.pdf
[36] pyDeepDelta:在深度学习分类中实现Delta方法的TensorFlow模块,https://github.com/gknilsen/pydepdelta.git。
[37] 萨贡,L。;博图,L。;LeCun,Y.,《深度学习中黑森的特征值:奇点和超越》(2017),https://arxiv.org/abs/1611.07476,arXiv:1611.07476v2[cs.LG]
[38] 萨贡,L。;埃夫奇,美国。;Guney,V.U。;Dauphin,Y。;Bottou,L.,过度参数化神经网络的经验分析(2018),https://arxiv.org/abs/1706.04454,arXiv:1706.04454v3[cs.LG]
[39] 舒拉姆,P。;Saria,S.,你能相信这个预测吗?学习后审计点式可靠性(2019年),https://arxiv.org/abs/1901.00403,arXiv:1901.00403[stat.ML]
[40] 科学知识,https://scikit-learn.org/。
[41] 科学博士,http://www.scipy.org。
[42] 宋,H。;Kim,M。;帕克·D。;Lee,J.-G.,《利用深度神经网络从噪声标签中学习:一项调查》(2020年),https://arxiv.org/pdf/2007.08199,arXiv:2007.08199v2[cs.LG]
[43] Trefethen,L.N。;三、 D.B.,数值线性代数,243-284(1997),暹罗·Zbl 0874.65013号
[44] Watanabe,S.,几乎所有的学习机器都是单一的(2007年IEEE计算智能基础研讨会论文集(2007)),http://watanabewww.math.dis.titech.ac.jp/users/swatanab/foci2007.pdf
[45] 严,C。;龚,B。;魏毅。;Gao,Y.,用于图像检索的深度多视图增强散列,IEEE模式分析和机器智能汇刊,43,4,1445-1451(2020)
[46] Yao,Z。;戈洛米,A。;Keutzer,K。;Mahoney,M.W.,Pyhessian:通过hessian透镜的神经网络,(2020年IEEE大数据国际会议(2020年),IEEE),581-590
[47] 朱,L。;Laptev,N.,《uber对时间序列的深度和信心预测》(2017年IEEE数据挖掘研讨会国际会议(ICDMW)(2017年))
此参考列表基于出版商或数字数学图书馆提供的信息。它的项目与zbMATH标识符启发式匹配,并且可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不声称其完整性或完全匹配。