×

基于GAN的先验知识,用于量化监督学习中的不确定性。 (英语) Zbl 1473.62092号

概要:机器学习和深度学习算法经常用于关键任务,其输出用于高风险下游应用程序。在这些情况下,量化这些算法预测中的不确定性非常重要。基于此,我们提出了一种新的基于学习的贝叶斯推理方法,用于量化预测中的不确定性。我们的方法使用从测量和预测的联合分布中提取的样本来训练生成性对抗网络(GAN)。此后,在给定噪声测量的情况下,我们使用GAN的生成器组件作为贝叶斯更新的先验。通过将产生的高维后验采样问题重新转换为GAN的低维潜在空间,我们能够执行高效的马尔可夫链蒙特卡罗(MCMC)更新。我们将这种方法应用于计算机视觉中的图像分类和图像修复问题,以及计算物理中出现的正向和反向不确定性量化任务,并演示了如何使用量化不确定性的能力来(a)检测位于训练样本分布之外的样本,(b)量化预测的可信度,(c)确定主动学习策略中的后续测量。

MSC公司:

2015年1月62日 贝叶斯推断
68层37 人工智能背景下的不确定性推理
2017年10月68日 人工神经网络与深度学习
2004年6月62日 统计相关问题的软件、源代码等
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] A.Esteva、B.Kuprel、R.A.Novoa、J.Ko、S.M.Swetter、H.M.Blau和S.Thrun,《皮肤癌与深层神经网络的皮肤病学分级》,《自然》,542(2017),第115-118页。
[2] A.Y.Hannun、P.Rajpurkar、M.Haghpanahi、G.H.Tison、C.Bourn、M.P.Turakhia和A.Y.Ng,《使用深度神经网络对动态心电图进行心脏病学级心律失常检测和分类》,《国家医学》,25(2019),第65-69页。
[3] D.Patel、R.Tibrewala、A.Vega、L.Dong、N.Hugenberg和A.A.Oberai,通过深度学习规避力学逆问题的解决:弹性成像应用,计算。方法应用。机械。工程,353(2019),第448-466页·Zbl 1441.74084号
[4] P.R.Gent、G.Danabasoglu、L.J.Donner、M.M.Holland、E.C.Hunke、S.R.Jayne、D.M.Lawrence、R.B.Neale、P.J.Rasch、M.Vertenstein、P.H.Worley、Z.-L.Yang和M.Zhang,《社区气候系统模型版本4》,J.Clim。,24(2011),第4973-4991页。
[5] T.Schneider、S.Lan、A.Stuart和J.Teixeira,地球系统建模2.0:从观测和有针对性的高分辨率模拟中学习的模型蓝图,地球物理。Res.Lett.公司。,44(2017),第12396-12417页。
[6] S.Grigorescu、B.Trasnea、T.Cocias和G.Macesanu,《自动驾驶深度学习技术调查》,J.Field Robot。,37(2019),第362-386页。
[7] V.Rausch、A.Hansen、E.Solowjow、C.Liu、E.Kreuzer和J.K.Hedrick,《学习自动车辆端到端控制的深层神经网络策略》,《美国控制会议论文集》,电气与电子工程师协会,2017年,第4914-4919页。
[8] J.B.Heaton、N.G.Polson和J.H.Witte,金融深度学习:深度投资组合,Appl。斯托克。模型总线。印度,33(2017),第3-12页·Zbl 1420.91415号
[9] J.De Spiegleer、D.B.Madan、S.Reyners和W.Schoutens,《定量金融的机器学习:快速衍生品定价、套期保值和拟合》,Quant。财务。,18(2018),第1635-1643页·Zbl 1406.91439号
[10] M.Bojarski、D.Del Testa、D.Dworakowski、B.Firner、B.Flepp、P.Goyal、L.D.Jackel、M.Monfort、U.Muller、J.Zhang、X.Zhang,J.Zhao和K.Zieba,《自驾汽车的端到端学习》,预印本,https://arxiv.org/abs/1604.07316, 2016.
[11] Y.Gal,深度学习中的不确定性,博士论文,英国剑桥大学,2016年。
[12] M.H.DeGroot,《不确定性、信息和序贯实验》,《数学年鉴》。统计人员。,33(1962年),第404-419页·Zbl 0151.22803号
[13] N.Tishby、E.Levin和S.A.Solla,《分层网络中概率的一致推断:预测和推广》,《1989年国际神经网络联合会议论文集》,IEEE,1989年,第403-409页。
[14] D.J.C.MacKay,反向传播网络的实用贝叶斯框架,神经计算。,4(1992),第448-472页。
[15] R.M.Neal,通过随机动力学进行贝叶斯学习,摘自《NIPS神经信息处理系统进展会议论文集》,Morgan Kaufmann,旧金山,1992年,第475-482页。
[16] M.Welling和Y.W.Teh,《通过随机梯度朗之万动力学进行贝叶斯学习》,载于《第28届国际机器学习会议论文集》,ICML'11,威斯康星州麦迪逊,Omnipress,2011年,第681-688页。
[17] A.Koratikara、V.Rathod、K.Murphy和M.Welling,贝叶斯暗知识,摘自《第28届神经信息处理系统国际会议论文集》第2卷,NIPS’15,马萨诸塞州剑桥,麻省理工学院出版社,2015年,第3438-3446页。
[18] G.E.Hinton和D.van Camp,《通过最小化权重的描述长度保持神经网络的简单性》,载于《第六届计算学习理论年会论文集》,COLT’93,纽约,计算机械协会,1993年,第5-13页。
[19] D.G.Barber和C.M.Bishop,贝叶斯神经网络中的集成学习,《神经网络和机器学习》,Springer-Verlag出版社,1998年,第215-237页·Zbl 0936.68082号
[20] D.P.Kingma和M.Welling,自动编码可变贝叶斯,预印本,https://arxiv.org/abs/1312.6114, 2014.
[21] A.Graves,神经网络的实用变分推理,《第24届神经信息处理系统国际会议论文集》,NIPS’11,Curran Associates,Red Hook,NY,2011年,第2348-2356页。
[22] C.Blundell、J.Cornebise、K.Kavukcuoglu和D.Wierstra,神经网络中的权重不确定性,第32届国际机器学习会议论文集-第37卷,ICML’15,JMLR,2015年,第1613-1622页。
[23] C.Louizos和M.Welling,《使用矩阵高斯后验的结构化和有效变分深度学习》,载于《第33届机器学习国际会议论文集》,M.F.Balcan和K.Q.Weinberger主编,《机器学习研究论文集》第48卷,纽约,PMLR,2016年,第1708-1716页。
[24] C.Louizos和M.Welling,变分贝叶斯神经网络的乘法归一化流,第34届国际机器学习会议论文集-第70卷,ICML’17,JMLR,2017年,第2218-2227页。
[25] Y.Gal和Z.Ghahramani,《作为贝叶斯近似的辍学:在深度学习中表示模型不确定性》,《机器学习国际会议论文集》,2016年,第1050-1059页。
[26] A.Kendall和Y.Gal,《计算机视觉的贝叶斯深度学习需要哪些不确定性?》?,预印本,https://arxiv.org/abs/1703.04977,2017年。
[27] P.-Y.Huang、W.-T.Hsu、C.-Y.Chiu、T.-F.Wu和M.Sun,视频语义分割的有效不确定性估计,《欧洲计算机视觉会议论文集》,《计算机课堂讲稿》。科学。11205,施普林格,查姆,2018,第536-552页,https://doi.org/10.1007/978-3-030-01246-5_32。
[28] B.Lakshminarayanan、A.Pritzel和C.Blundell,《使用深度集成进行简单且可扩展的预测不确定性估计》,摘自《第31届神经信息处理系统国际会议论文集》,NIPS’17,2017年,纽约州红钩市Curran Associates,第6405-6416页。
[29] C.Riquelme、G.Tucker和J.Snoek,《深度贝叶斯土匪决战:汤普森抽样的贝叶斯深度网络的实证比较》,载于《第六届学习表征国际会议论文集》,ICLR 2018-《会议记录》,2018。
[30] A.A.Alemi、I.S.Fischer和J.V.Dillon,《变化信息瓶颈中的不确定性》,预印本,https://arxiv.org/abs/1807.00906, 2018.
[31] J.Behrmann、W.Grathwohl、R.T.Q.Chen、D.Duvenaud和J.-H.Jacobsen,可逆剩余网络,《第36届国际机器学习会议论文集》,K.Chaudhuri和R.Salakhutdinov编辑,《机器学习研究论文集》第97卷,加州长滩,PMLR,2019年,第573-582页。
[32] E.Nalisnick、A.Matsukawa、Y.W.Teh、D.Gorur和B.Lakshminarayanan,《具有深层和可逆特征的混合模型》,载于第36届国际机器学习会议论文集,2019年国际机器学习学会,第8295-8304页。
[33] R.T.Q.Chen、J.Behrmann、D.Duvenaud和J.-H.Jacobsen,《可逆生成模型的剩余流》,预印本,https://arxiv.org/abs/1906.02735, 2019.
[34] A.Bora、A.Jalal、E.Price和A.G.Dimakis,使用生成模型的压缩感知,第34届机器学习国际会议论文集,第70卷,JMLR,2017年,第537-546页。
[35] V.Shah和C.Hegde,《使用gan先验解线性反问题:一种具有可证明保证的算法》,载于2018年IEEE声学、语音和信号处理国际会议(ICASSP),IEEE,2018年,第4609-4613页。
[36] L.Yang、D.Zhang和G.Em Karniadakis,《随机微分方程的物理信息生成对抗网络》,SIAM J.Sci。计算。,42(2020年),第A292-A317页,https://doi.org/10.1137/18M1225409。 ·Zbl 1440.60065号
[37] L.Ardizzone、J.Kruse、C.Rother和U.Koáthe,用可逆神经网络分析逆问题,《学习表征国际会议论文集》,2019年。
[38] J.Adler和O.Oéktem,深度贝叶斯反演,预印本,https://arxiv.org/abs/1811.05910, 2018.
[39] S.Arridge、P.Maas、O.Oõktem和C.-B.Schoõnlieb,《使用数据驱动模型求解逆问题》,数字学报。,28(2019),第1-174页·Zbl 1429.65116号
[40] N.Kovachki、R.Baptista、B.Hosseini和Y.Marzouk,用单色GAN进行条件采样,预印本https://arxiv.org/abs/2006.06755, 2020.
[41] M.Belghazi、M.Oquab和D.Lopez-Paz,学习指数数量的条件分布,《神经信息处理系统进展》,2019年,第13703-13714页。
[42] E.M.Lindgren、J.Whang和A.G.Dimakis,编写反问题的归一化流,预印本,https://arxiv.org/abs/2002.11743, 2020.
[43] C.Winkler、D.Worrall、E.Hoogeboom和M.Welling,条件规范化流的学习可能性,预印本,https://arxiv.org/abs/1912.00042, 2019.
[44] M.Vauhkonen、J.P.Kaipio、E.Somersalo和P.A.Karjalainen,《基本约束的电阻抗断层成像》,《反问题》,13(1997),第523-530页·Zbl 0872.35130号
[45] D.Calvetti和E.Somersalo,线性系统的先决条件,反问题,21(2005),第1397-1418页·Zbl 1087.65044号
[46] R.Martin和S.G.Walker,数据驱动的先验及其后验浓度率,电子。《美国统计杂志》,第13卷(2019年),第3049-3081页·Zbl 1429.62148号
[47] I.Goodfellow、J.Pouget-Abadie、M.Mirza、B.Xu、D.Warde-Farley、S.Ozair、A.Courville和Y.Bengio,《生成对抗网》,《神经信息处理系统进展》,2014年,第2672-2680页。
[48] S.Nowozin、B.Cseke和R.Tomioka,f-gan:使用变分散度最小化训练生成性神经采样器,《神经信息处理系统进展》,2016年,第271-279页。
[49] M.Arjovsky,S.Chintala和L.Bottou,Wasserstein GAN,预印本,https://arxiv.org/abs/1701.07875, 2017.
[50] I.Gulrajani、F.Ahmed、M.Arjovsky、V.Dumoulin和A.C.Courville,《Wasserstein GANs的改进训练》,《神经信息处理系统进展》,2017年,第5767-5777页。
[51] C.维拉尼,《最佳交通:新旧》,格兰德伦数学。威斯。338,Springer,Cham,2008年·Zbl 1156.53003号
[52] S.Arora、A.Risteski和Y.Zhang,GANs学会分销了吗?《一些理论和经验》,载于2018年学习表征国际会议论文集。
[53] A.Uppal、S.Singh和B.Poíczos,Besov IPM损失下gans的非参数密度估计和收敛速度,《神经信息处理系统进展》,2019年,第9089-9100页。
[54] H.Narayanan和S.Mitter,测试流形假设的样本复杂性,摘自《神经信息处理系统进展》23,J.Lafferty,C.Williams,J.Shawe-Tylor,R.Zemel和A.Culotta,eds.,Curran Associates,Red Hook,NY,2010年,第1786-1794页。
[55] H.Sagan,《填充曲线》,施普林格,查姆,2012年·Zbl 0806.01019号
[56] H.Owhadi和C.Scovel,贝叶斯推理中的定性稳健性,ESAIM Probab。《统计》,21(2017),第251-274页·Zbl 1395.62059号
[57] H.Owhadi、C.Scovel和T.Sullivan,《贝叶斯推断的脆性》,SIAM Rev.,57(2015),第566-582页,https://doi.org/10.1137/10938633。 ·Zbl 1341.62094号
[58] S.Brooks、A.Gelman、G.Jones、X.-L.Meng和R.M.Neal,MCMC使用哈密顿动力学,预印本,https://arxiv.org/abs/1206.1901, 2012.
[59] J.V.Dillon、I.Langmore、D.Tran、E.Brevdo、S.Vasudevan、D.Moore、B.Patton、A.Alemi、M.Hoffman和R.A.Saurous,TensorFlow Distributions,预印本,https://arxiv.org/abs/1711.10604, 2017.
[60] C.Andrieu和J.Thoms,自适应MCMC教程,统计计算。,18(2008),第343-373页。
[61] G.Kahn、A.Villaflor、V.Pong、P.Abbeel和S.Levine,《避免碰撞的不确定性强化学习》,预印本,https://arxiv.org/abs/1702.01182, 2017.
[62] B.Lakshminarayanan、A.Pritzel和C.Blundell,使用深度集成进行简单且可扩展的预测不确定性估计,《神经信息处理系统进展》,2016年,第6403-6414页。
[63] D.Amodei、C.Olah、J.Steinhardt、P.Christiano、J.Schulman和D.Maneá,《人工智能安全中的具体问题》,预印本,https://arxiv.org/abs/1606.06565, 2016.
[64] Y.LeCun、C.Cortes和C.J.Burges,Mnist手写数字数据库,ATT实验室[在线],2010年,在线阅读http://yann.lecun.com/exdb/mnist。
[65] J.Yu、Z.Lin、J.Yang、X.Shen、X.Lu和T.S.Huang,上下文关注下的生成图像修复,《IEEE计算机视觉和模式识别会议论文集》,2018年。
[66] R.A.Yeh、C.Chen、T.Y.Lim、A.G.Schwing、M.Hasegawa-Johnson和M.N.Do,《深度生成模型的语义图像修复》,《2017年IEEE计算机视觉和模式识别会议论文集》,2017年,第6882-6890页。
[67] 严振中、李晓丽、李明明、左文蔚、珊珊,《移位网络:通过深度特征重排的图像内画》,预印本,https://arxiv.org/abs/1801.09392, 2018.
[68] A.Kendall、V.Badrinarayanan和R.Cipolla,《贝叶斯SegNet:用于场景理解的深度卷积编码器-解码器架构中的模型不确定性》,英国机器视觉协会和模式识别学会,2019年。
[69] S.A.A.Kohl、B.Romera Paredes、C.Meyer、J.De Fauw、J.R.Ledsam、K.H.Maier Hein、S.M.Ali Eslami、D.J.Rezende和O.Ronneberger,用于模糊图像分割的概率U-net,2018,57。
[70] Z.Liu、P.Luo、X.Wang和X.Tang,《野外深度学习面部特征》,《2015年计算机视觉国际会议论文集》,2015年,第3730-3738页。
[71] H.N.Najm,计算流体动力学中的不确定性量化和多项式混沌技术,年。流体力学版次。41,《年度评论》,加利福尼亚州帕洛阿尔托,2009年,第35-52页·Zbl 1168.76041号
[72] D.Cacuci,灵敏度和不确定性分析,体积\纹理I:理论,Chapman&Hall/CRC,佛罗里达州博卡拉顿,2003年·Zbl 1030.60001号
[73] A.Saltelli、K.Chan和E.M.Scott,《敏感性分析》,John Wiley&Sons,纽约,2009年·Zbl 1152.62071号
[74] M.Dashti和A.M.Stuart,逆向问题的贝叶斯方法,《不确定性量化手册》,第卷。1、2、3,施普林格,查姆,2017年,第311-428页。
[75] S.Rojas和J.Koplik,多孔介质中的非线性流动,物理。E版,58(1998),第4776-4782页。
[76] Y.Zhu、N.Zabaras、P.-S.Koutsourelakis和P.Perdikaris,《无标记数据的高维代理建模和不确定性量化的物理约束深度学习》,J.Compute。物理。,394(2019),第56-81页·Zbl 1452.68172号
[77] M.S.Alnaes、J.Blechta、J.Hake、A.Johansson、B.Kehlet、A.Logg、C.Richardson、J.Ring、M.E.Rognes和G.N.Wells,FEniCS项目版本1.5,数字软件档案,3(2015)。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。