×

预测器中网络结构的非参数判别分析。 (英语) Zbl 07660118号

摘要:多分类,即多标签响应的分类,一直是监督学习中的一个重要问题,引起了我们的关注。判别分析是处理多分类问题的一种常用方法。随着复杂数据可用性的增加,分析这些数据变得更具挑战性。复杂数据的一个重要特征是网络结构,由于变量之间的强相关性或弱相关性,网络结构在高维数据中普遍存在。此外,在DA的框架中,对预测因子施加了正态分布假设,但在应用中通常是无效的。为了放松正态性假设,我们提出了一个非参数判别函数来处理多重分类。此外,为了融入网络结构并提高分类的准确性,我们开发了三种不同的基于网络的替代预测因子来取代传统预测因子。该方法的主要特点包括将网络结构纳入预测因子,并允许预测因子遵循指数族分布。最后,进行了数值研究,包括模拟和实际数据分析,以评估该方法的性能。

MSC公司:

62至XX 统计
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] 巴吉洛夫,AM;弗格森,B。;Ivkovic,S.,利用肿瘤基因表达特征进行多类癌症诊断的新算法,生物信息学,19,1800-1807(2003)
[2] 比奇亚托,S。;Luchini,A。;Bello,CD,使用基因表达数据进行多类癌症分析的PCA不相交模型,生物信息学,19571-578(2003)
[3] 刘,JJ;卡特勒,G。;Li,W.,使用基于遗传算法的多类癌症分类和生物标记物发现,生物信息学,212691-2697(2005)
[4] 克莱门森,L。;哈斯蒂,T。;Witten,D.,稀疏判别分析,技术计量学,53,406-413(2011)
[5] 威滕,DM;Tibshirani,R.,使用Fisher线性判别法进行惩罚分类,J R Stat Soc系列B,73,753-772(2011)·Zbl 1228.62079号
[6] Ramey,JA,Stein,CK,Young,PD等。高维正则化判别分析。2017年,arXiv:1602.01182。
[7] Bouveyron,C。;Girard,S。;Schmid,C.,高维判别分析,公共统计理论方法,362607-2623(2007)·Zbl 1128.62072号
[8] 科拉尔,M。;Liu,H.,高维判别分析中的最优特征选择,IEEE Trans-Inf理论,611063-1083(2015)·Zbl 1359.62250号
[9] Mai,Q。;邹,H。;Yuan,M.,超高维稀疏判别分析的直接方法,Biometrika,99,29-42(2012)·Zbl 1437.62550号
[10] 蔡,TT;Zhang,L.,高维线性判别分析:优化、自适应算法和缺失数据,J R Stat Soc系列B,81,675-705(2019)·Zbl 1428.62267号
[11] Sifaou,H。;Kammoun,A。;Alouini,M-S.,尖峰协方差模型的高维线性判别分析分类器,J Mach Learn Res,21,1-24(2020)·Zbl 1508.62160号
[12] 范,J。;Li,R。;Zhang,C-H,《数据科学统计基础》(2021),纽约:CRC出版社,纽约
[13] Ye,J。;季S。;Chen,J.,通过凸规划进行多类判别核学习,J Mach Learn Res,9719-758(2008)·Zbl 1225.68223号
[14] Hidaka,A,Kurita,T.基于高斯混合模型概率估计的非线性判别分析。在:Frnti P.,Brown G.,Loog M.,Escolano F.,Pelillo M.编辑结构,句法和统计模式识别。2014年S+SSPR;柏林,海德堡:施普林格;2014年,第133-142页。(计算机科学讲义;第8621卷)。
[15] 乔治,CM;日本奇杰科。,混合非正态变量的判别分析,公共统计理论方法(2021)·Zbl 07649547号 ·doi:10.1080/03610926.2021.1908563
[16] Chen,L-P.,具有一些复杂特征的基因表达数据的多重分类,Biostat Biom Open Access J,9(2018)
[17] 蔡伟(Cai,W.)。;关,G。;Pan,R.,网络线性判别分析,《计算统计数据分析》,117,32-44(2018)·Zbl 1469.62028号
[18] 陈,L-P;Yi,GY;张强,利用网络结构协变量进行多类分析和预测,J Stat Distrib Appl,6,6(2019)·Zbl 1478.62160号 ·doi:10.1186/s40488-019-0094-2
[19] He,W。;Yi,GY;Chen,L-P.(2019)
[20] Chen,L-P.,基于网络的多分类判别分析,J Classif,即将出版,1-22(2022)·Zbl 07646902号 ·doi:10.1007/s00357-022-09414-y
[21] 比尔扎,C。;李·G。;Larrañaga,P.,用贝叶斯网络进行多维分类,《国际近似理性杂志》,52,705-727(2011)·Zbl 1226.68078号
[22] Miguel Hernández-Lobato,J。;埃尔南德斯·洛巴托(Hernández-Lobato),D。;Suárez,A.,基于网络的稀疏贝叶斯分类,模式识别,44886-900(2011)·Zbl 1213.68528号
[23] 巴拉丹达尤萨帕尼,V。;Talluri,R。;Ji,Y.,贝叶斯稀疏图形模型在蛋白质表达数据分类中的应用,Ann Appl Stat,81443-1468(2014)·Zbl 1303.62057号
[24] 彼得森,CB;Stingo,FC;Vannucci,M.,带网络结构预测因子回归模型的联合贝叶斯变量和图选择,Stat Med,35,1017-1031(2015)
[25] 哈斯蒂,T。;蒂布希拉尼,R。;Friedman,J.,《统计学习的要素:数据挖掘、推理和预测》(2008),纽约:施普林格,纽约
[26] 詹姆斯·G。;维滕,D。;Hastie,T.,《统计学习导论:R精装本应用》(2017),纽约:Springer,纽约
[27] 瓦尔波尔,R。;迈尔斯,R。;Myers,S.,《工程师和科学家的概率与统计》(2016),纽约:皮尔逊,纽约
[28] Yang,E。;拉维库马尔,P。;Allen,GI,通过单变量指数族分布的图形模型,J Mach Learn Res,16,3813-3847(2015)·Zbl 1351.62111号
[29] 哈斯蒂,T。;蒂布希拉尼,R。;Wainwright,M.,《稀疏的统计学习:套索和归纳》(2015),纽约:CRC出版社,纽约·Zbl 1319.68003号
[30] 拉维库马尔,P。;温赖特,MJ;Lafferty,J.,使用(####)正则化逻辑回归的高维Ising模型选择,Ann Stat,38,1287-1319(2010)·Zbl 1189.62115号
[31] 明绍森,N。;Bühlmann,P.,高维图和套索变量选择,Ann Stat,341436-1462(2006)·兹比尔1113.62082
[32] Zou,H.,《自适应套索及其预言属性》,美国统计协会,1011418-1429(2006)·Zbl 1171.62326号
[33] 范,J。;Li,R.,《基于非一致惩罚似然的变量选择及其预言属性》,美国统计协会,96,1348-1360(2001)·Zbl 1073.62547号
[34] Tibshirani,R.,通过套索进行回归收缩和选择,J R Stat Soc系列B,58267-288(1996)·Zbl 0850.62538号
[35] Zhao,T。;刘,H。;Roeder,K.,《R中高维无向图估计的庞大软件包》,J Mach Learn Res,第13期,1059-1062页(2012年)·Zbl 1283.68311号
[36] Wan,Y-W;艾伦,GI;Baker,Y.,XMRF:将马尔可夫网络拟合到高通量遗传学数据的R包,BMC系统生物学,10,Suppl 3(2016)
[37] Wang,H。;Li,R。;Tsai,C.,平滑剪裁绝对偏差方法的调整参数选择器,Biometrika,94,553-568(2007)·Zbl 1135.62058号
[38] 陈,L-P;Yi,GY.,用图形比例风险测量误差模型分析噪声生存数据,生物计量学,77,956-969(2021)·Zbl 1520.62162号
[39] Schwarz,G.,估算模型的维数,Ann Stat,6461-464(1978)·Zbl 0379.62005年
[40] 休伯特,L。;Arabie,P.,比较分区,J Classif,2193-218(1985)
[41] Chen,L-P.,研究局部多项式回归模型中带宽选择的影响及其应用,模型辅助统计应用,14,31-45(2019)
[42] Chatterjee,S。;Diaconis,P.,估计和理解指数随机图模型,Ann Stat,41,2428-2461(2013)·Zbl 1293.62046号
[43] Chatterjee,S。;Diaconis,P。;Sly,A.,具有给定度序列的随机图,Ann Appl Probab,21,1400-1435(2011)·Zbl 1234.05206号
[44] Yan,T。;Xu,J.,具有发散顶点数的无向随机图的β模型中的中心极限定理,Biometrika,100519-524(2013)·Zbl 1452.62214号
[45] Snijders,TAB.,指数随机图模型的马尔可夫链蒙特卡罗估计,《Soc结构杂志》,3(2),1-40(2002)
[46] Handcock,MS。评估社交网络统计模型中的退化。华盛顿大学统计与社会科学中心第39号工作文件;2003年。在线阅读:https://csss.uw.edu/Papers/wp39.pdf。
[47] 亨特博士;Handcock,MS.,《网络弯曲指数族模型的推断》,《计算图形统计杂志》,第15期,第565-583页(2006年)
[48] Yan,T。;冷,C。;Zhu,J.,具有递增双向序列的有向指数随机图模型的渐近性,Ann Stat,44,31-57(2016)·Zbl 1331.62110号
[49] Hillar,C,Wibisono,A.图上的最大熵分布。2013年,arXiv预印本arXiv:1301.3321。
[50] Yan,T。;Zhao,Y。;Qin,H.,参数数量不断增加的图上最大熵分布的渐近正态性,J Multivar Anal,133,61-76(2015)·Zbl 1304.62038号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。