×

高维函数数据的变量选择非平稳高斯过程判别分析。 (英语) Zbl 07747460号

摘要:随着数据采集技术的发展,高维分类和特征选择任务随处可见。在生物学、基因组学和蛋白质组学等几个应用领域中,数据的性质通常是功能性的,并且表现出一定程度的粗糙性和非平稳性。这些结构对主要依靠两阶段方法分别进行变量选择和分类的常用方法提出了额外的挑战。在这项工作中,我们提出了一种新的高斯过程鉴别分析(GPDA),将这些步骤结合在一个统一的框架中。我们的模型是一个两层非平稳高斯过程,在识别差异分布位置之前与Ising耦合。可扩展推理是通过开发一个变分方案来实现的,该变分方案利用了稀疏逆协方差矩阵的先进应用。我们在模拟数据集和两个蛋白质组数据集(乳腺癌和SARS-CoV-2)上演示了我们的方法学的性能。我们的方法通过提供可解释性和不确定性量化以及低计算成本而与众不同,这对于提高数据驱动工具的信任度和社会接受度至关重要。本文的补充材料可在网上获得。

MSC公司:

62至XX 统计
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] 艾伦,G.I。;彼得森,C。;Vannucci,M。;Maletić-Savatić,M.,“正则偏最小二乘及其在核磁共振波谱、统计分析和数据挖掘中的应用:ASA数据科学期刊,60302-314(2013)·Zbl 07260370号 ·doi:10.1002/sam.1169
[2] M.贝当古(2017)
[3] 比克尔,P.J。;Levina,E.,“Fisher线性判别函数的一些理论,‘朴素贝叶斯’,以及变量多于观测值时的一些替代方法,Bernoulli,19989-2010(2004)·Zbl 1064.62073号 ·doi:10.3150/bj/1106314847
[4] 毕格罗,J.L。;Dunson,D.B.,“功能预测的贝叶斯半参数联合模型”,《美国统计协会杂志》,104,26-36(2009)·Zbl 1388.62181号 ·doi:10.1198/jasa.2009.0001
[5] Brown,P.J。;Fearn,T。;Vannucci,M.,“曲线上的贝叶斯小波回归及其在光谱校准问题中的应用,美国统计协会杂志,96,398-408(2001)·Zbl 1022.62027 ·doi:10.19198/0162114501753168118
[6] Cardot,H。;费拉蒂,F。;Sarda,P.,“函数线性模型的样条估计,统计Sinica,13,571-591(2003)·Zbl 1050.62041号
[7] 卡塞拉,G。;戈什,M。;吉尔·J。;Kyung,M.,“惩罚回归、标准误差和贝叶斯拉索,贝叶斯分析,5369-411(2010)·Zbl 1330.62289号 ·doi:10.1214/10-BA607
[8] 克莱门森,L。;哈斯蒂,T。;维滕,D。;Ersboll,B.,“稀疏判别分析,技术计量学,53,406-413(2011)·doi:10.1198/TECH.2011.08118
[9] 科尔特斯,C。;Vapnik,V.,“支持向量网络,机器学习,20273-297(1995)·Zbl 0831.68098号 ·doi:10.1007/BF00994018
[10] 克鲁兹·马塞洛,A。;格拉,R。;Vannucci,M。;李毅。;Lau,C.C。;Man,T.-K.,“SELDI-TOF质谱数据预处理算法的比较,生物信息学,242129-2136(2008)·doi:10.1093/生物信息学/btn398
[11] 崔,H。;李,R。;Zhong,W.,“超高维判别分析的无模型特征筛选,美国统计协会杂志,110,630-641(2015)·Zbl 1373.62305号 ·doi:10.1080/01621459.2014.920256
[12] 唐纳,C。;Opper,M.,《连续时间的逆Ising问题:潜在变量方法》,《物理评论》E,96,062104(2017)·doi:10.1103/PhysRevE.96.062104
[13] Duarte Silva,P.A.,“高维相关数据的两组分类:因子模型方法,计算统计和数据分析,552975-2990(2011)·Zbl 1218.62064号
[14] 邓洛普,M.M。;Girolma,医学硕士。;Stuart,A.M。;Teckentrup,A.L.,“深度高斯过程有多深?”,机器学习研究杂志,192100-2145(2018)·Zbl 1469.60107号
[15] 北卡罗来纳州杜兰德。;V·亚当。;波尔多,L。;Eleftheriadis,S。;Hensman,J.,“自动微分时代高斯-马尔可夫模型的带状矩阵算子”,第22届国际人工智能与统计会议论文集,89(2019)
[16] 范,J。;Fan,Y.,“使用特征退火独立规则的高维分类,统计年鉴,362605-2637(2008)·Zbl 1360.62327号
[17] 风机,R.-E。;Chang,K.-W。;谢长杰。;王,X.-R。;Lin,C.-J.,“Liblinear:大型线性分类库”,《机器学习研究杂志》,91871-1874(2008)·Zbl 1225.68175号
[18] 费拉蒂,F。;Vieu,P.,“曲线识别:非参数函数方法,计算统计与数据分析,44,161-173(2003)·Zbl 1429.62241号
[19] 费雷,L。;Villa,N.,“具有功能输入的多层感知器:反向回归方法”,《斯堪的纳维亚统计杂志》,33807-823(2006)·兹比尔1164.62339 ·网址:10.1111/j.1467-9469.2006.00496.x
[20] Geoga,C.J。;Anitescu,M。;Stein,M.L.,使用层次矩阵的可缩放高斯过程计算,计算与图形统计杂志,29,227-237(2020)·Zbl 07499251号 ·doi:10.1080/10618600.2019.1652616
[21] Glauber,R.J.,“伊辛模型的时间依赖统计,数学物理杂志,4294-307(1963)·Zbl 0145.24003号 ·doi:10.1063/1.1703954
[22] 戈德史密斯,J。;黄,L。;Crainiceanu,C.M.,“通过空间贝叶斯变量选择实现平滑标量图像回归,计算与图形统计杂志,23,46-64(2014)·数字对象标识代码:10.1080/10618600.2012.743437
[23] 格里戈里耶夫斯基,A。;劳伦斯,N。;Särkkä,S.,“可并行稀疏反公式高斯过程(SpInGP)”,2017年IEEE第27届信号处理机器学习国际研讨会(MLSP),1-6(2017)·doi:10.1109/MLSP.2017.8168130
[24] Grollemund,P.-M。;亚伯拉罕,C。;巴拉加蒂,M。;Pudlo,P.,“具有稀疏阶跃函数的贝叶斯函数线性回归,贝叶斯分析,14,111-135(2019)·Zbl 1409.62060号 ·doi:10.1214/18-BA1095
[25] 古铁雷斯,L。;古铁雷斯-佩尼亚,E。;Mena,R.H.,“光谱数据的贝叶斯非参数分类,计算统计与数据分析,78,56-68(2014)·Zbl 1506.62073号
[26] 霍尔,P。;Poskitt,D.S。;Presnell,B.,《信号辨别的功能数据分析方法》,Technometrics,43,1-9(2001)·Zbl 1072.62686号 ·doi:10.1198/00401700152404273
[27] 哈斯蒂,T。;Buja,A。;Tibshirani,R.,“惩罚歧视分析,统计年鉴,23,73-102(1995)·Zbl 0821.62031号
[28] 亨斯曼,J。;福斯,N。;Lawrence,N.D.,“大数据的高斯过程”,《第二十届人工智能不确定性会议论文集》,282-290(2013)
[29] Higham,N.J.,《数值算法的准确性和稳定性》(2002),宾夕法尼亚州费城:工业和应用数学学会,宾夕法尼亚州,费城·Zbl 1011.65010号
[30] James,G.M.,“带函数预测的广义线性模型”,《皇家统计学会杂志》,B辑,64,411-432(2002)·Zbl 1090.62070号 ·数字对象标识代码:10.1111/1467-9868.00342
[31] 詹姆斯·G·M。;Hastie,T.J.,“不规则采样曲线的函数线性判别分析”,《皇家统计学会杂志》,B辑,63,533-550(2001)·Zbl 0989.62036号 ·doi:10.1111/1467-9868.00297
[32] Kang,J。;Reich,B.J。;Staicu,A.-M.,“通过软阈值高斯过程进行的标量图像回归,生物统计学,105,165-184(2018)·兹伯利07072406 ·doi:10.1093/biomet/asx075
[33] Krizhevsky,A。;Sutskever,I。;Hinton,G.E.,“基于深度卷积神经网络的Imagenet分类”,《神经信息处理系统的进展》,25(2012)
[34] 库马尔,S。;莫赫里,M。;Talwalkar,A.,“集成Nyström方法,神经信息处理系统的进展,22(2009)
[35] 冷,X。;Müller,H.-G.,“利用功能数据分析对时间基因表达数据进行分类,生物信息学,22,68-76(2006)·doi:10.1093/bioinformatics/bti742
[36] 李,F。;Zhang,N.R.,“结构化高维协变量空间中的贝叶斯变量选择及其在基因组学中的应用,美国统计协会杂志,105,1202-1214(2010)·Zbl 1390.62027号 ·doi:10.1198/jasa.2010.tm08177
[37] 李,F。;张,T。;王,Q。;冈萨雷斯,M.Z。;Maresh,E.L。;Coan,J.A.,“高维标量图像回归的空间贝叶斯变量选择和分组,应用统计年鉴,9687-713(2015)·Zbl 1397.62458号
[38] 李,X。;Ghosal,S.,“多类功能数据的贝叶斯分类,电子统计学杂志,124669-4696(2018)·Zbl 1409.62063号 ·doi:10.1214/18-EJS1522
[39] 林格伦,F。;H街。;Lindström,J.,“高斯场和高斯马尔可夫随机场之间的显式联系:随机偏微分方程方法”,《皇家统计学会杂志》,B辑,73423-498(2011)·Zbl 1274.62360号 ·文件编号:10.1111/j.1467-9868.2011.00777.x
[40] 刘,Q。;Sung,A.H。;乔,M。;陈,Z。;Yang,J.Y。;Yang,M.Q。;黄,X。;Deng,Y.,“MALDI-MS数据的特征选择和分类比较,BMC基因组学,10,1-11(2009)·doi:10.1186/1471-2164-10-S1-S3
[41] 蒙特鲁比奥·戈麦斯,K。;罗伊宁,L。;韦德,S。;Damoulas,T。;Girolma,M.,“稀疏层次非静态模型的后验推断,计算统计与数据分析,148106954(2020)·Zbl 1510.62068号
[42] 墨菲,T.B。;N.院长。;Raftery,A.E.,“食品真实性应用高维数据基于模型的判别分析中的变量选择和更新,应用统计学年鉴,4396-421(2010)·Zbl 1189.62105号
[43] Nachtigall,F.M。;佩雷拉,A。;特罗夫姆丘克,O.S。;Santos,L.S.,“使用MALDI-MS检测鼻拭子中的SARS-CoV-2,自然生物技术,38,1168-1173(2020)·doi:10.1038/s41587-020-0644-7
[44] Ormerod,J.T。;Wand,M.P.,“解释变分近似”,美国统计学家,64140-153(2010)·Zbl 1200.65007号 ·doi:10.1198/tast.2010.09058
[45] Paciorek,C.J。;Schervish,M.J.,“高斯过程回归的非平稳协方差函数”,《神经信息处理系统的进展》(2003)
[46] 莱斯,P.T。;戈德史密斯,J。;Shang,H.L。;Ogden,R.T.,“标量-函数回归方法,国际统计评论,85,228-249(2017)·Zbl 07763546号 ·doi:10.1111/insr.12163
[47] 罗马人,S.E。;Ormerod,J.T。;Yang,J.Y.H.,“高维数据特征选择的对角判别分析,计算与图形统计杂志,29,114-127(2020)·Zbl 07499276号 ·doi:10.1080/10618600.2019.1637748
[48] 萨利姆贝尼,H。;Deisenroth,M.,“深高斯过程的双随机变分推断,神经信息处理系统的进展,4588-4599(2017)
[49] Salinas,S.,《统计物理学导论》(2001),纽约:斯普林格出版社,纽约·Zbl 0983.82001号
[50] 石青(Shi,Q.)。;哈里斯,L.N。;卢,X。;李,X。;黄,J。;R先生。;Iglehart,J.D。;Miron,A.,“血浆纤维蛋白原α片段下降可识别HER2阳性乳腺癌患者并在手术后恢复正常水平,蛋白质组研究杂志,5,2947-2955(2006)·doi:10.1021/pr060099u
[51] 宋,Q。;Cheng,G.,“通过t-收缩进行贝叶斯融合估计,Sankhya A,82,353-385(2019)·兹比尔1451.62030 ·doi:10.1007/s13171-019-00177-0
[52] Stingo,F.C。;Vannucci,M.,“利用马尔可夫随机场先验进行微阵列数据分析的判别分析的变量选择,生物信息学,27495-501(2011)·doi:10.1093/bioinformatics/btq690
[53] Stingo,F.C。;Vannucci,M。;Downey,G.,“利用马尔可夫随机树先验进行判别分析的基于贝叶斯小波的曲线分类,统计研究,22,465-488(2012)·Zbl 1238.62075号 ·doi:10.5705/ss.2010.141
[54] Takahashi,K.,稀疏母线阻抗矩阵的形成及其在短路研究中的应用,PICA会议论文集(1973)
[55] Tibshirani,R。;桑德斯,M。;Rosset,S。;朱,J。;K.奈特(K.K.Knight),“通过融合套索实现的稀疏与平滑”,《皇家统计学会杂志》,B辑,67,91-108(2005)·兹比尔1060.62049 ·文件编号:10.1111/j.1467-9868.2005.00490.x
[56] Witten,D.M。;Tibshirani,R.,“使用Fisher线性判别法进行惩罚分类”,《皇家统计学会期刊》,B辑,73753-772(2011)·兹比尔1228.62079 ·doi:10.1111/j.1467-9868.2011.00783.x
[57] 于伟(Yu,W.)。;阿齐兹,L。;Ormerod,J.T.,“变分非参数判别分析,计算统计与数据分析,142106817(2020)·Zbl 1507.62199号 ·doi:10.1016/j.csda.2019.106817
[58] 于伟(Yu,W.)。;Ormerod,J.T。;Stewart,M.,“变量选择、统计和计算的变分判别分析,30933-951(2020)·Zbl 1447.62077号 ·doi:10.1007/s11222-020-09928-8
[59] Zhao,Y。;奥格登,R.T。;Reiss,P.T.,“函数线性回归中基于小波的Lasso,计算与图形统计杂志,21,600-617(2012)·doi:10.1080/10618600.2012.679241
[60] 赵,Z。;埃姆齐尔,M。;Särkkä,S.,“深状态空间高斯过程、统计与计算,31,75(2021)·Zbl 1475.62068号 ·doi:10.1007/s11222-021-10050-6
[61] 朱,H。;Vannucci,M。;Cox,D.D.,“选择功能预测因子进行分类的贝叶斯层次模型”,《生物统计学》,66463-473(2010)·Zbl 1192.62095号 ·文件编号:10.1111/j.1541-0420.2009.01283.x
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。