文件Zbl 1521.68196-zbMATH Open

盖尔·尼尔森。;蒙提·卡斯（Munthe-Kaas），安东内拉·Z。;汉斯·斯科（Hans J.Skaug）。;莫滕·布伦

delta方法在深度学习分类中的认知不确定性量化。（英语） Zbl 1521.68196号

神经网络。 145, 164-176 (2022).

摘要：Delta方法是量化统计模型中认知不确定性的经典方法，但其直接应用于深层神经网络受到大量参数的阻碍。我们基于Fisher信息矩阵的顶（K）特征对，提出了适用于（L_2）正则化深度神经网络的Delta方法的低成本近似，梯度近似的逆外积和所谓的三明治估计器。此外，我们还为预测类概率的不确定性提供了近似误差的界。我们证明了当Fisher信息矩阵的最小计算特征值接近于（L_2）正则化率时，即使在（K_（ll）P）时，近似误差也接近于零。使用TensorFlow实现对该方法进行了演示，我们表明，对于两个基于LeNet和ResNet的神经网络，可以使用MNIST和CIFAR-10数据集根据预测不确定性获得有意义的图像排名。此外，我们观察到假阳性者的预测性认知不确定性平均高于真阳性者。这表明，不确定性度量中有补充信息，而这些信息并非仅由分类捕获。

理学硕士：

68T07型	人工神经网络与深度学习
62B10型	信息理论主题的统计方面
第62页第17页	统计分布的近似值（非共鸣）

关键词：

不确定性量化;预测性认知不确定性;神经网络;深度学习;黑森（Hessian）;Fisher信息

软件：

TensorFlow公司;github;亚当

PDF格式 BibTeX公司 XML格式引用

全文：内政部 arXiv公司

OA许可证

参考文献：

[1]	阿兰，G。；Roux，N.L。；Manzagol，P.-A.，深度神经网络中麻类的负特征值（2019），https://arxiv.org/abs/1902.02366，arXiv:1902.02366v1[cs.LG]
[2]	博图，L。；柯蒂斯，F.E。；Nocedal，J.，《大规模机器学习的优化方法》，SIAM Review，60，2，223-311（2018）·Zbl 1397.65085号
[3]	Cardot，H。；Degras，D.，高维在线主成分分析：选择哪种算法？(2015), https://arxiv.org/abs/1511.03688arXiv:1511.03688[统计ML]
[4]	Efron，B.，Bootstrap methods:Another look at the jacknifer，《统计年鉴》，7，1，1-26（1979）·Zbl 0406.62024号
[5]	Freedman，D.A.，关于所谓的“Huber Sandwich估计量”和“稳健标准误差”，《美国统计学家》，60，4，299-302（2006），https://www.jstor.org/stable/27643806
[6]	加尔，Y。；Ghahramani，Z.，《作为近似值的辍学：在深度学习中表示模型不确定性》（2016），https://arxiv.org/pdf/1506.02142，arXiv:1506.02142v6[stat.ML]
[7]	戈尔巴尼，B。；Krishnan，S。；Xiao，Y.，基于hessian特征值密度的神经网络优化研究（2019），https://arxiv.org/abs/1901.10159，arXiv:1901.10159v1[cs.LG]
[8]	古德费罗，I。；Y.本吉奥。；A.Courville，《深度学习》（2016），麻省理工学院出版社，http://www.deeplearningbook.org ·Zbl 1373.68009号
[9]	Granziol，D。；加里波夫，T。；Zohren，S。；Vetrov，D。；罗伯茨，S。；Wilson，A.G.，《深度学习极限：负神经网络特征值只是噪声吗？》？，（发表于2019年ICML深度学习理论物理研讨会（2019年））
[10]	Grosse，R.，第二讲：泰勒近似（2020），https://www.cs.toronto.edu/rgrosse/courses/csc2541_2021/readings/L02_Taylor_approximations.pdf
[11]	He，K.，Zhang，X.，Ren，S.，&Sun，J.（2015）。深入研究整流器：在图像网络分类方面超越人类水平的性能。IEEE计算机视觉国际会议论文集（第1026-1034页）。
[12]	He，K.，Zhang，X.，Ren，S.，&Sun，J.（2016）。用于图像识别的深度残差学习。《IEEE计算机视觉和模式识别会议论文集》（第770-778页）。
[13]	J.M.V.Hoef，谁发明了δ法？，《美国统计学家》，66，2，124-127（2012），https://www.researchgate.net/publication/254329376_Who_Invented_the_Delta_Method ·Zbl 07649009号
[14]	Hüllermier，E。；Waegeman，W.，《机器学习中的任意性和认知不确定性：概念和方法介绍》（2020年），https://arxiv.org/abs/1910.09457，arXiv:1910.09457v2[cs.长]·Zbl 07432810号
[15]	洛夫，S。；Szegedy，C.，《批量规范化：通过减少内部协变量偏移来加速深层网络训练》，（机器学习国际会议（2015），PMLR），448-456
[16]	卡拉基达，R。；南卡罗来纳州阿卡霍。；Amari，S.-i.，深度神经网络中Fisher信息度量及其变体的病理谱（2019），arXiv预印本arXiv:1910.05992
[17]	肯德尔，A。；Gal，Y.，我们在计算机视觉的贝叶斯深度学习中需要哪些不确定性？(2017), https://arxiv.org/pdf/1703.04977，arXiv:1703.04977v2[cs.CV]
[18]	Khosravi，A。；Creighton，D.，《基于神经网络的预测区间和新进展的综合评述》，IEEE神经网络汇刊，22，9（2011），https://www.researchgate.net/publication/51534965_综合审查_of_Neural_Network-Based_Prediction_Intervals_and_New_Advances
[19]	Kingma，D.P.和Ba，J.L.（2014）。亚当：一种随机优化方法。程序中。第三次国际比较学习。陈述。
[20]	LeCun，Y。；Simard，P.Y。；Pearlmutter，B.，通过在线估计Hessian特征向量实现自动学习率最大化，（神经信息处理系统进展（NIPS 1992）（1993）），http://yann.lecun.com/exdb/publis/pdf/lecun-simard-pearlmutter-93.pdf
[21]	Lehmann，E.L。；Casella，G.，点估计理论，125（1998），Springer科学与商业媒体·Zbl 0916.62017号
[22]	利维，A。；Lindenbaum，M.，序列karhunen-loeve基提取及其在图像中的应用，IEEE图像处理汇刊，9，8（2000），网址：http://www.cs.technion.ac.il/麦克风/文档/skl-ip.pdf·Zbl 1001.68586号
[23]	林，L。；萨阿德，Y。；Yang，C.，大矩阵的近似光谱密度，SIAM Review，58，1，34-65（2016）·Zbl 1338.15026号
[24]	Litjens，G。；Kooi，T。；Bejnordi，B.E。；塞提奥，A.A.A。；Ciompi，F。；Ghafoorian，M.，《医学图像分析深度学习调查》，医学图像分析，42，60-88（2017），http://www.sciencedirect.com/science/article/pii/S1361841517301135
[25]	Loquercio，A。；Segu，M。；Scaramuzza，D.，《深度学习中不确定性评估的一般框架》（2020年），https://arxiv.org/pdf/1907.06890，arXiv:1907.06890v4[cs.CV]
[26]	麦凯，D.，《反向传播网络的实用贝叶斯框架》，神经计算，4，3，448-472（1992），http://www.inference.org.uk/mackay/PD.html#PhD
[27]	Martens，J.，《自然梯度法的新见解和观点》（2020年），https://arxiv.org/abs/1412.1193，arXiv:1412.1193[cs.LG]·Zbl 07306852号
[28]	Murfet博士。；Wei，S。；龚，M。；李，H。；Gell-Redman，J。；Quella，T.，深度学习是单数，这很好（2020年），https://arxiv.org/abs/2010.11560，arXiv:2010.11560[cs.LG]
[29]	Nagarajan，P。；Warnell，G.，《深度强化学习中再现性的确定性实现》（2019年），https://arxiv.org/abs/1809.05676，arXiv:1809.05676[cs.AI]
[30]	纽伊，W.K。；McFadden，D.，《计量经济学手册》（1994），https://www.sciencedirect.com/science/article/pii/S1573441205800054 ·Zbl 0982.62503号
[31]	尼尔森，G.K。；Munthe-Kaas，A.Z。；Skaug，H.J。；Brun，M.，TensorFlow中Hessian矩阵的高效计算（2019），https://arxiv.org/abs/1905.05559，arXiv:1905.05559v1[cs.LG]
[32]	尼尔森，G.K。；Munthe-Kaas，A.Z。；Skaug，H.J。；Brun，M.，深度学习分类中delta方法和bootstrap的比较（2021），http://arxiv.org/abs/2107.01606，arXiv:2107.01606[cs.LG]
[33]	Osband，I.，《深度学习中的风险与不确定性：贝叶斯、引导和辍学的危险》（NIPS贝叶斯深度学习研讨会（2016）），http://bayesiandeeplearning.org/2016/papers/BDL_4.pdf
[34]	奥斯本·I。；布伦德尔，C。；普里策尔，A。；Roy，B.V.，《通过自举DQN进行深度探索》，（神经信息处理系统会议（2016）），https://papers.nips.cc/paper/6501-depe-exploration-via-bootstrapped-dqn.pdf
[35]	Pearlmutter，B.A.，黑森快速精确乘法，神经计算，6，1，147-160（1994），网址：http://www.bcl.hamilton.ie/巴拉克/论文/nc-hessian.pdf
[36]	pyDeepDelta：在深度学习分类中实现Delta方法的TensorFlow模块，https://github.com/gknilsen/pydepdelta.git。
[37]	萨贡，L。；博图，L。；LeCun，Y.，《深度学习中黑森的特征值：奇点和超越》（2017），https://arxiv.org/abs/1611.07476，arXiv:1611.07476v2[cs.LG]
[38]	萨贡，L。；埃夫奇，美国。；Guney，V.U。；Dauphin，Y。；Bottou，L.，过度参数化神经网络的经验分析（2018），https://arxiv.org/abs/1706.04454，arXiv:1706.04454v3[cs.LG]
[39]	舒拉姆，P。；Saria，S.，你能相信这个预测吗？学习后审计点式可靠性（2019年），https://arxiv.org/abs/1901.00403，arXiv:1901.00403[stat.ML]
[40]	科学知识，https://scikit-learn.org/。
[41]	科学博士，http://www.scipy.org。
[42]	宋，H。；Kim，M。；帕克·D。；Lee，J.-G.，《利用深度神经网络从噪声标签中学习：一项调查》（2020年），https://arxiv.org/pdf/2007.08199，arXiv:2007.08199v2[cs.LG]
[43]	Trefethen，L.N。；三、 D.B.，数值线性代数，243-284（1997），暹罗·Zbl 0874.65013号
[44]	Watanabe，S.，几乎所有的学习机器都是单一的（2007年IEEE计算智能基础研讨会论文集（2007）），http://watanabewww.math.dis.titech.ac.jp/users/swatanab/foci2007.pdf
[45]	严，C。；龚，B。；魏毅。；Gao，Y.，用于图像检索的深度多视图增强散列，IEEE模式分析和机器智能汇刊，43，4，1445-1451（2020）
[46]	Yao，Z。；戈洛米，A。；Keutzer，K。；Mahoney，M.W.，Pyhessian:通过hessian透镜的神经网络，（2020年IEEE大数据国际会议（2020年），IEEE），581-590
[47]	朱，L。；Laptev，N.，《uber对时间序列的深度和信心预测》（2017年IEEE数据挖掘研讨会国际会议（ICDMW）（2017年））

此参考列表基于出版商或数字数学图书馆提供的信息。它的项目与zbMATH标识符启发式匹配，并且可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不声称其完整性或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
ab公司	回顾，摘要
第页	出版年份
右心室	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文件类型(j个：期刊文章；b条：book；一：图书文章）

一&b条	逻辑和
一\|b条	逻辑或
!ab公司	逻辑不
美国广播公司*	右通配符
”ab c公司”	短语
(ab c公司)	圆括号

示例

领域

操作员

delta方法在深度学习分类中的认知不确定性量化。（英语） Zbl 1521.68196号

理学硕士：

关键词：

软件：

参考文献：

示例

领域

操作员

delta方法在深度学习分类中的认知不确定性量化。 （英语） Zbl 1521.68196号

理学硕士：

关键词：

软件：

参考文献：

delta方法在深度学习分类中的认知不确定性量化。（英语） Zbl 1521.68196号