×

基于网络的稀疏贝叶斯分类。 (英语) Zbl 1213.68528号

摘要:在一些分类问题中,存在关于特征组联合相关性的先验信息。这种知识可以在一个网络中进行编码,该网络的节点对应于特征,其边缘连接应排除或包含在预测模型中的特征。本文介绍了一种新的基于网络的稀疏贝叶斯分类器(NBSBC),该分类器利用网络中编码的特征相关性信息来提高其预测精度,特别是在高维特征空间和有限训练数据的情况下。该模型利用期望传播有效地实现了近似贝叶斯推理。NBSBC方法在四个不同应用领域的实际分类问题上进行了验证:音素、手写数字、降水记录和基因表达测量。与最先进的方法(支持向量机、基于网络的支持向量机和图套索)的比较表明,NBSBC具有优异的预测性能。它在所分析的四个问题中的三个问题中具有最佳精度,在降水数据建模中排名第二。NBSBC还根据单个特征与所考虑的分类问题解决方案的相关性,对其进行准确可靠的排名。这些估计的准确性和稳定性是该方法整体性能良好的一个重要因素。

MSC公司:

68吨10 模式识别、语音识别
PDF格式BibTeX公司 XML格式引用
全文: DOI程序

参考文献:

[1] S.Dudoit,J.Fridlyand,微阵列实验分类,in:基因表达微阵列数据的统计分析,Chapman&Hall/CRC,2003年,第93-158页。;S.Dudoit,J.Fridlyand,微阵列实验中的分类,收录于:基因表达微阵列数据的统计分析,Chapman&Hall/CRC,2003年,第93-158页。
[2] Seeger,M。;Nickisch,H。;Schlkopf,B.,通过贝叶斯实验设计优化压缩传感的(k)空间轨迹,医学中的磁共振,63,1,116-126(2010)
[3] 约翰斯通,I.M。;Titterington,D.M.,《高维数据的统计挑战》,《皇家学会哲学学报A:数学物理与工程科学》,367,1906,4237-4253(2009)·Zbl 1185.62007号
[4] 佩雷拉,F。;米切尔,T。;Botvinick,M.,《机器学习分类器和功能磁共振成像:教程概述》,《神经影像》,45,199-209(2009)
[5] Tibshirani,R.,《通过套索进行回归收缩和选择》,英国皇家统计学会期刊B,58,1,267-288(1996)·Zbl 0850.62538号
[6] 朱,J。;Rosset,S。;哈斯蒂,T。;Tibshirani,R.,1-范数支持向量机,(NIPS(2004),麻省理工学院出版社),49-56
[7] 邹,H。;Hastie,T.,《通过弹性网进行正则化和变量选择》,英国皇家统计学会期刊B,67,301-320(2005)·Zbl 1069.62054号
[8] Seeger,M.W.,稀疏线性模型的贝叶斯推理和优化设计,机器学习研究杂志,9759-813(2008)·Zbl 1225.68213号
[9] E.I.George,R.E.McCulloch,《贝叶斯变量选择方法》,《中国统计》7(2)(1997)339-373;E.I.George,R.E.McCulloch,《贝叶斯变量选择方法》,《中国统计》7(2)(1997)339-373·Zbl 0884.62031号
[10] Nickisch,H。;Seeger,M.W.,大型广义线性模型的凸变分贝叶斯推断,(ICML(2009),ACM),761-768
[11] T.Sandler、J.Blitzer、P.P.Talukdar、L.H.Ungar和J.Blitzer,《特征网络的正规化学习》,收录于:NIPS,麻省理工学院出版社,2008年,第1401-1408页。;T.Sandler、J.Blitzer、P.P.Talukdar、L.H.Ungar和J.Blitzer,《特征网络的正规化学习》,收录于:NIPS,麻省理工学院出版社,2008年,第1401-1408页。
[12] 李,C。;Li,H.,用于基因组数据分析的网络约束正则化和变量选择,生物信息学,24,9,1175-1182(2008)
[13] M.Slawski,W.zu Castell,G.Tutz,结构信息指导下的特征选择,技术报告51,慕尼黑大学统计系,LMU,2009年。;M.Slawski,W.zu Castell,G.Tutz,结构信息指导下的特征选择,技术报告51,慕尼黑大学统计系,LMU,2009年·Zbl 1194.62092号
[14] Zhu,Y。;沈,X。;Pan,W.,用于微阵列样本分类的基于网络的支持向量机,BMC生物信息学,10,Suppl 1,S21(2009)
[15] 雅各布·L。;Obozinski,G。;Vert,J.P.,《带重叠的群套索和图形套索》,(ICML(2009),ACM),433-440
[16] van Gerven,医学硕士。;Cseke,B。;de Lange,F.P。;Heskes,T.,使用稀疏时空先验的高效贝叶斯多元fMRI分析,NeuroImage,50,1,150-161(2010)
[17] Herbrich,R。;格雷佩尔,T。;坎贝尔,C.,贝叶斯点机器,机器学习研究杂志,1245-279(2001)·Zbl 1008.68104号
[18] T.Minka,近似贝叶斯推理算法家族,麻省理工大学博士论文,2001。;T.Minka,近似贝叶斯推理的一系列算法,麻省理工学院博士论文,2001年。
[19] 埃尔南德斯·洛巴托博士。;Hernández-Lobato,J.M.,用于二进制分类的贝叶斯机器,模式识别字母,29,10,1466-1473(2008)
[20] Bishop,C.M.,模式识别和机器学习(2006),Springer·Zbl 1107.68072号
[21] 魏,Z。;Li,H.,基因组数据网络分析的马尔可夫随机场模型,生物信息学,231537-1544(2007)
[22] 哈斯蒂,T。;Buja,A。;Tibshirani,R.,惩罚判别分析,统计年鉴,23,73-102(1995)·兹比尔0821.62031
[23] 哈斯蒂,T。;Tibshirani,R。;Friedman,J.,《统计学习的要素:数据挖掘、推断和预测》(2001),施普林格出版社·Zbl 0973.62007号
[24] Lecun,Y。;博图,L。;Y.本吉奥。;Haffner,P.,《基于梯度的学习应用于文档识别》,IEEE会议记录,86,11,2278-2324(1998)
[25] V.N.Razuvaev、E.B.Apasova、R.A.Martuganov,223个前苏联台站的每日温度和降水数据,二氧化碳信息分析中心,美国能源部橡树岭国家实验室,田纳西州ORNL/CDIAC-562008;V.N.Razuvaev、E.B.Apasova、R.A.Martuganov,223个前苏联台站的每日温度和降水数据,二氧化碳信息分析中心,美国能源部橡树岭国家实验室,田纳西州橡树岭ORNL/CDIAC-562008
[26] Bos,P.D。;张,X.H.F。;Nadal,C.,《介导乳腺癌脑转移的基因》,《自然》,459,1005-1009(2009)
[27] Vapnik,V.N.,《统计学习理论的本质》(1995),斯普林格出版社·Zbl 0833.62008号
[28] 邹浩,袁美英,《(F_\infty\text{-norm})》;H.Zou,M.Yuan,《(F_\infty\text{-norm}》·Zbl 1416.62370号
[29] 袁,M。;Lin,Y.,分组变量回归中的模型选择和估计,《皇家统计学会杂志》,B辑,68,49-67(2006)·Zbl 1141.62030号
[30] Kim,Y。;Kim,J。;Kim,Y.,分块稀疏回归,《中国统计》,16,375-390(2006)·Zbl 1096.62076号
[31] 罗斯,V。;Fischer,B.,《广义线性模型的群法:解的唯一性和有效算法》,(ICML(2008),ACM),848-855
[32] 麦凯,D.J.C.,贝叶斯插值,神经计算,4,3,415-447(1992)
[33] 朱,H。;Rohwer,R.,泛化的贝叶斯不变度量,《神经处理快报》,2,6,28-31(1995)
[34] T.Heskes,O.Zoeter,动态贝叶斯网络中近似推理的期望传播,收录于:UAI,2002年,第216-223页。;T.Heskes,O.Zoeter,动态贝叶斯网络中近似推理的期望传播,收录于:UAI,2002年,第216-223页。
[35] 盖恩,I。;Janson,B。;斯蒂芬,B。;Vapnik,V.,使用支持向量机进行癌症分类的基因选择,机器学习,46,1-3,389-422(2002)·Zbl 0998.68111号
[36] Kuncheva,L.I.,《特征选择的稳定性指数》(Devedzic,V.,《人工智能与应用》(2007),IASTED/ACTA出版社),421-427
[37] Renka,R.J.,《算法772:条纹:球面上的Delaunay三角剖分和voronoi图》,ACM数学软件汇刊,23,3,416-434(1997)·Zbl 0903.65111号
[38] Sen,Z.,《地球科学中的空间建模原则》(2009),施普林格出版社
[39] 埃德加·R。;多姆拉乔夫,M。;Lash,A.E.,《基因表达综合:NCBI基因表达和杂交阵列数据存储库》,核酸研究,1207-210(2002)
[40] P.A.Futreal等人,《人类癌症基因普查》,《自然评论癌症》4(3)(2004)177-183;P.A.Futreal等人,《人类癌症基因普查》,《自然评论癌症4(3)》(2004)177-183
[41] Pathway Commons,\(\语言\)http://www.pathwaycommons.org\(\范围\);Pathway Commons,\(\语言\)http://www.pathwaycommons.org\(\rangle\)
[42] L.D.Miller等人,《人类乳腺癌中p53状态的表达特征预测突变状态、转录效应和患者生存率》,《美国国家科学院院刊》102(38)(2005)13550-13555;L.D.Miller等人,《人类乳腺癌中p53状态的表达特征预测突变状态、转录效应和患者生存率》,《美国国家科学院院刊》102(38)(2005)13550-13555
[43] Gautier,L。;科普,L。;Bolstad,B.M。;Irizarry,R.A.,探针水平上affymetrix基因芯片数据的affy分析,生物信息学,20,307-315(2004)
[44] L.Yu,C.Ding,S.Loscalzo,通过稠密特征群进行稳定特征选择,收录于:KDD’08:第14届ACM SIGKDD国际知识发现和数据挖掘会议,2008年,第803-811页。;L.Yu,C.Ding,S.Loscalzo,通过密集特征组进行稳定特征选择,收录于:KDD’08:第14届ACM SIGKDD国际知识发现和数据挖掘会议,2008年,第803-811页。
[45] A.C.Haury,L.Jacob,J.P.Vert,增加基因表达签名的稳定性和可解释性,ArXiv电子指纹
[46] S.Loscalzo,L.Yu,C.Ding,共识组稳定特征选择,收录于:KDD’09:第15届ACM SIGKDD知识发现和数据挖掘国际会议论文集,2009年,第567-576页。;S.Loscalzo,L.Yu,C.Ding,共识组稳定特征选择,收录于:KDD’09:第15届ACM SIGKDD知识发现和数据挖掘国际会议论文集,2009年,第567-576页。
[47] Kalousis,A。;Prados,J。;Hilario,M.,《特征选择算法的稳定性:高维空间研究》,《知识与信息系统》,12,1,95-116(2007)
[48] Geman,S。;Geman,D。;阿本德,K。;哈利·T·J。;Kanal,L.N.,《随机松弛、吉布斯分布和图像的贝叶斯恢复》,应用统计杂志,20,5,25-62(1993)
[49] R.G.Cowell,A.P.Dawid,P.Sebastiani,不完全数据顺序学习方法的比较,见:贝叶斯统计学,牛津大学出版社,1996年第5卷,第533-541页。;R.G.Cowell,A.P.Dawid,P.Sebastiani,《不完全数据顺序学习方法的比较》,载《贝叶斯统计学》,牛津大学出版社,1996年第5卷,第533-541页。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。