×

契约:深度证据医生。 (英语) Zbl 1531.68112号

摘要:随着深度神经网络(DNN)进入安全关键决策过程,必须对其分布内和分布外(OOD)示例的预测进行稳健可靠的不确定性估计。这在现实生活中的高风险环境中尤其重要,例如医疗保健,在这些环境中,OOD案例(例如,具有以前未见过或罕见标签的患者,即诊断)经常发生,不正确的临床决策可能会危及人的生命,此外还会带来严重的道德和经济成本。虽然已经针对多类问题研究了深度学习的证据不确定性估计,但在多标签环境中的研究仍有待开发。在本文中,我们提出了一种DEep证据医生(DEED),这是一种新的确定性方法,用于估计带有不确定性的多标签目标。我们通过将证据先验置于原始似然函数之上,并使用新的损失函数直接估计证据分布的参数来实现这一点。此外,我们构建了一个冗余层(特别是对于高不确定性和OOD示例),以最小化基于可疑预测的错误决策相关的风险。我们通过递归解码器学习证据空间和连续语义标签嵌入空间之间的映射来实现这一点。因此,即使在OOD示例的情况下,也可以推断出合理接近的预测,以避免灾难性后果。我们证明了DEED在基于修改后的多标签MNIST数据集的数字分类任务中的有效性,并在实际电子健康记录数据集的诊断预测任务中对其进行了进一步评估。我们强调指出,就预测分数而言,我们的方法与现有的最新技术不相上下,具有明显的优势,可以生成可靠、内存和时间效率高的不确定性估计,而对任何多标签DNN分类器的更改都是最小的。

MSC公司:

68T07型 人工神经网络与深度学习
62页第10页 统计学在生物学和医学中的应用;元分析
92 C50 医疗应用(通用)
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] LeCun,Y。;Y.本吉奥。;Hinton,G.,《深度学习》。《自然》,436-444(2015)
[2] Krizhevsky,A。;Sutskever,I。;Hinton,G.E.,用深度卷积神经网络进行Imagenet分类。高级神经信息处理。系统。,1097-1105 (2012)
[3] 德夫林,J。;Chang,M.-W。;Lee,K。;Toutanova,K.,Bert:语言理解深度双向变换器预培训(2018),arXiv预印本
[4] Silver,D.,精通深度神经网络和树搜索的围棋游戏。《自然》,484-489(2016)
[5] 科尔蒂纳尔,T。;Tzelepis,G。;Aksoy,E.E.,Salsanext:激光雷达点云的快速、不确定性语义分割,207-222
[6] Lai,K。;奥利维拉,H.C。;侯,M。;Yanushkevich,S.N。;Shmerko,V.,《评估认知决策支持系统中偏见的风险》,840-844
[7] Kompa,B.公司。;斯诺克,J。;Beam,A.L.,需要的第二个意见:医学机器学习中的交流不确定性。npj数字。医学,1-6(2021年)
[8] Lakshminarayanan,B。;Pritzel,A。;Blundell,C.,《使用深度集合进行简单且可扩展的预测不确定性估计》(2016年),arXiv预印本
[9] Malinin,A。;Gales,M.,《通过先验网络进行预测不确定性估计》。高级神经信息处理。系统。(2018)
[10] Obermeyer,Z。;Emanuel,E.J.,《预测未来大数据、机器学习和临床医学》。北英格兰。《医学杂志》,1216(2016)
[11] 穆勒,H。;Mayrhofer,M.T。;Van Veen,E.-B。;Holzinger,A.,《医学伦理学十条戒律》,计算机,119-123(2021)
[12] Ashfaq,A。;Nowaczyk,S.,《医疗保健中的机器学习——系统的观点》(2019年),arXiv预印本
[13] 《电子健康记录的二次分析》(2016),Springer Nature
[14] Sensoy,M。;卡普兰,L。;Kandimer,M.,量化分类不确定性的证据性深度学习
[15] 世界卫生组织,《国际疾病和相关健康问题分类》,第10次修订(2007年)
[16] LeCun,Y。;博图,L。;Y.本吉奥。;Haffner,P.,基于梯度的学习应用于文档识别。程序。IEEE,2278-2324(1998)
[17] Ashfaq,A.,《数据资源概要:瑞典哈兰德地区医疗信息平台》,医疗研究专用环境。国际流行病学杂志。(2020)
[18] Schwarz,G.,估算模型的维数。Ann.Stat.,461-464(1978)·Zbl 0379.62005年
[19] 古德费罗,I。;Y.本吉奥。;A.Courville,《深度学习》(2016),麻省理工学院出版社·兹比尔1373.68009
[20] Hüllermier,E。;Waegeman,W.,《机器学习中的任意和认知不确定性:概念和方法简介》。机器。学习。,457-506 (2021) ·兹比尔07432810
[21] Krishnan,R。;Subedar,M。;Tickoo,O.,贝叶斯深度神经网络中可伸缩变分推理的有效先验
[22] Gal,Y。;Ghahramani,Z.,具有伯努利近似变分推理的贝叶斯卷积神经网络(2015),arXiv预印本
[23] 肯德尔,A。;Gal,Y.,我们在计算机视觉的贝叶斯深度学习中需要哪些不确定性?(2017),arXiv预印本
[24] Kwon,Y。;J.-H.Won。;Kim,B.J。;Paik,M.C.,分类中使用贝叶斯神经网络的不确定性量化:应用于缺血性中风病变分割
[25] Holzinger,A。;马勒,B。;Saranti,A。;Pfeifer,B.,《利用图形神经网络实现信息融合以实现可解释人工智能融合的多模因果性》,28-37(2021)
[26] 阿米尼,A。;施瓦廷,W。;Soleimany,A。;Rus,D.,深度证据回归,14927-14937
[27] Chen,L。;詹伟(Zhan,W.)。;田伟。;何毅。;邹强,《深度集成:用于道路场景识别的多标签体系结构》。IEEE传输。图像处理。,4883-4898 (2019) ·Zbl 07123022号
[28] Pourpanah,F.,《广义零快照学习方法综述》(2020),arXiv预印本
[29] Frome,A.,Devise:一个深层的视觉-语义嵌入模型。高级神经信息处理。系统。(2013)
[30] Mikolov,T。;Chen,K。;科拉多,G。;Dean,J.,向量空间中单词表示的有效估计(2013),arXiv预印本
[31] 奥古纳。;莫尔,A。;班纳吉,B。;Chaudhuri,S.,使用开放集识别的广义零快照学习,213
[32] Yang,Z.,文档分类的层次注意网络,1480-1489
[33] Mikolov,T。;Sutskever,I。;Chen,K。;Corrado,G.S。;Dean,J.,单词和短语的分布式表示及其组合,3111-3119
[34] Berger,J.O.,《统计决策理论和贝叶斯分析》(2013),施普林格科学与商业媒体
[35] Trohidis,K。;Tsoumakas,G。;Kalliris,G。;Vlahavas,I.P.,《音乐情感的多标签分类》,325-330
[36] 里德·J。;普法林格,B。;福尔摩斯,G。;Frank,E.,多标签分类的分类器链。机器。学习。,333-359 (2011)
[37] 刘S.M。;Chen,J.-H.,一种基于多标签分类的情感分类方法。专家系统。申请。,1083-1093 (2015)
[38] 刘杰。;Chang,W.C。;Wu,Y。;Yang,Y.,极端多标签文本分类的深度学习,115-124
[39] Wang,X.,医院级胸部X光数据库和常见胸部疾病弱监督分类和定位基准,46
[40] 杜兰德,T。;梅赫拉萨,N。;Mori,G.,学习带部分标签的多标签分类的深度转换网络,647-657
[41] Wang,H。;刘伟。;Bocchieri,A。;Li,Y.,多标签分类网络能知道他们不知道的东西吗?。高级神经信息处理。系统。,29074-29087 (2021)
[42] 赵,C。;杜,D。;Hoogs,A。;Funk,C.,通过多标签证据学习的开放集动作识别(2023),arXiv预印本
[43] Vaswani,A.,注意力就是你所需要的。高级神经信息处理。系统。(2017)
[44] Muller,T.,《不确定性和熵之间不可预见的等价性》,57-72
[45] Ashfaq,A。;Lingman,M。;Nowaczyk,S.,Kafe:知识和频率自适应嵌入,132-146
[46] 范德马滕,L。;Hinton,G.,使用t-sne可视化数据。J.马赫。学习。研究(2008)·Zbl 1225.68219号
[47] Hu,D.,自然语言处理问题中注意机制的初步调查,432-448
[48] LeCun,Y.,Lenet-5,卷积神经网络,14(2015)
[49] 郭,C。;普莱斯,G。;孙,Y。;温伯格,K.Q.,《关于现代神经网络的校准》,1321-1330
[50] Küppers,F。;Kronenberger,J。;Shantia,A。;Haselhoff,A.,用于物体检测的多变量置信度校准
[51] Dvoretzky,A。;基弗,J。;Wolfowitz,J.,样本分布函数和经典多项式估计量的渐近极小极大特征。安。数学。Stat.,642-669(1956年)·兹伯利0073.14603
[52] Carrington,A.M.,机器学习算法评估中不平衡数据的新协调部分auc和部分c统计量。BMC医疗通知。Decis公司。制造商。,1-12 (2020)
[53] Chen,P.,通过基于注意力的神经网络进行可解释的临床预测。BMC Med.Inform。Decis公司。制造商。,1-9 (2020)
[54] Choi,E.,Retain:使用逆向时间注意机制的医疗保健可解释预测模型(2016),arXiv预印本
[55] 塞拉诺,S。;N.A.史密斯,注意力可以理解吗?(2019),arXiv预印本
[56] Bai,B.,为什么关注可能无法解释?,25-34
[57] Jain,S。;Wallace,B.C.,注意不是解释(2019),arXiv预印本
[58] 威格列夫,S。;Pinter,Y.,注意不是解释(2019),arXiv预印本
[59] Lee,J.,Biobert:用于生物医学文本挖掘的预训练生物医学语言表示模型。生物信息学,1234-1240(2020)
[60] Radovanovic,M。;Nanopoulos,A。;Ivanovic,M.,《空间中心:高维数据中流行的近邻》。J.马赫。学习。研究,2487-2531(2010)·Zbl 1242.62056号
[61] Feldman,R.,《情绪分析的技术和应用》。Commun公司。ACM,82-89(2013)
[62] Han,K.,视觉变换器研究综述。IEEE传输。模式分析。机器。智力。,87-110 (2022)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。