×

利用网络结构协变量进行多类分析和预测。 (英语) Zbl 1478.62160号

概要:与数据采集相关的技术进步导致了复杂结构化数据集的产生。最近在多类反应分类方面的发展使得纳入预测因子的依赖结构成为可能。然而,现有方法受到限制性要求的阻碍。这些方法基本上假设所有受试者的预测者都有一个共同的网络结构,而没有考虑到不同类别中存在的异质性。此外,这些方法主要关注预测因子分布正常的情况。在本文中,我们提出了解决这些局限性的分类方法。我们的方法在处理可能与类相关的变量网络结构方面具有灵活性,并允许预测因子遵循指数族中的分布,其中包括作为特殊情况的正态分布。我们的方法在计算上很容易实现。数值研究表明,所提方法具有令人满意的性能。

MSC公司:

62H30型 分类和区分;聚类分析(统计方面)
第62页第10页 统计学在生物学和医学中的应用;元分析
62J12型 广义线性模型(逻辑模型)
68T05型 人工智能中的学习和自适应系统
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Agresti,A.:分类数据分析简介。Wiley,纽约(2007年)·Zbl 1266.62008号 ·doi:10.1002/0470114754
[2] Agresti,A.:分类数据分析。Wiley,纽约(2012)·Zbl 0716.62001号
[3] Bagirov,A.M.、Ferguson,B.、Ivkovic,S.、Saunders,G.、Yearwood,J.:使用肿瘤基因表达特征进行多类癌症诊断的新算法。生物信息学。19, 1800-1807 (2003). ·doi:10.1093/bioinformatics/btg238
[4] Baladandayuthapani,V.,Talluri,R.,Ji,Y.,Coombes,K.R.,Lu,Y..,Hennessy,B.T.,Davies,M.A.,Mallick,B.K.:用于分类的贝叶斯稀疏图形模型,应用于蛋白质表达数据。Ann.应用。《统计》第8卷,第1443-1468页(2014年)·Zbl 1303.62057号 ·doi:10.1214/14-AOAS722
[5] Bicciato,S.,Luchini,A.,Bello,C.D.:使用基因表达数据进行多类癌症分析的Pca不相交模型。生物信息学。19, 571-578 (2003). ·doi:10.1093/bioinformatics/btg051
[6] Bielza,C.,Li,G.,Larrañaga,P.:用贝叶斯网络进行多维分类。国际期刊近似原因。52, 705-727 (2011). ·Zbl 1226.68078号 ·doi:10.1016/j.ijar.2011.01.007
[7] Bielza,C.,Larrañaga,P.:离散贝叶斯网络分类器:一项调查。ACM计算。Surv公司。47, 1-43 (2014). ·Zbl 1322.68147号 ·数字对象标识代码:10.1145/2576868
[8] 蔡伟、关庚、潘瑞、朱旭、王浩:网络线性判别分析。计算。统计数据分析。117, 32-44 (2018). ·Zbl 1469.62028号 ·doi:10.1016/j.csda.2017.07.007
[9] Cetiner,M.、Akgul,Y.S.:《信息科学与系统》,2014年。In:In:T.,C.,E.,G.,R.,L.(编辑)第2期,第53-76页。施普林格,纽约(2014)。
[10] Chen,T。;Guestrin,C.,Xgboost:一个可扩展的树木提升系统(2016),旧金山
[11] Cristianini,N.,Shawe-Taylor,J.:支持向量机和其他基于内核的学习方法简介。剑桥大学出版社,剑桥(2000)。 ·doi:10.1017/CBO9780511801389
[12] Fan,J.,Li,R.:通过非冲突惩罚似然及其预言属性进行变量选择。《美国统计协会期刊》96,1348-1360(2001)·Zbl 1073.62547号 ·doi:10.1198/016214501753382273
[13] Friedman,J.、Hastie,T.、Tibshirani,R.:用图形套索进行稀疏逆协方差估计。生物统计学。9, 432-441 (2008). ·兹比尔1143.62076 ·doi:10.1093/biostatistics/kxm045
[14] Geiger,D.,Heckerman,D.:相似网络和贝叶斯多网中的知识表示和推理。Artif公司。智力。82, 45-74 (1996). ·Zbl 1517.68360号 ·doi:10.1016/0004-3702(95)00014-3
[15] Guo,Y.,Hastie,T.,Tibshirani,R.:正则化线性判别分析及其在微阵列中的应用。生物统计学。8, 86-100 (2007). ·Zbl 1170.62382号 ·doi:10.1093/biostatistics/kxj035
[16] Hastie,T.、Tibshirani,R.、Friedman,J.:统计学习的要素:数据挖掘、推断和预测。施普林格,纽约(2008)·Zbl 1273.62005年
[17] Hastie,T.、Tibshirani,R.、Wainwright,M.:《稀疏的统计学习:套索和泛化》。CRC出版社,纽约(2015)·Zbl 1319.68003号 ·doi:10.1201/b18401
[18] Hsu,C.-W.,Lin,C.-J.:多类支持向量机方法的比较。IEEE传输。神经网络。13, 415-425 (2002). ·doi:10.1109/TNN.2002.1000139
[19] Huttenhower,C.,Flamholz,A.I.,Landis,J.N.,Sahi,S.,Myers,C.L.,Olszewski,K.L.,Hibbs,M.A.,Siemers,N.O.,Troyanskaya,O.G.,Coller,H.A.:最近邻网络:基于基因邻域的聚类表达数据。BMC生物信息学。8, 1-13 (2007). ·doi:10.1186/1471-2105-8-250
[20] James,G.,Witten,D.,Hastie,T.,Tibshirani,R.:《统计学习导论:R.Springer的应用》,纽约(2017)·Zbl 1281.62147号
[21] Knerr,S。;Personnaz,L。;Dreyfus,G。;In:F.F.,S.(编辑);J.,H.(编辑),《重新审视单层学习:构建和训练神经网络的逐步程序》(1990年),柏林
[22] Lee,Y.,Lee,C.-K.:使用基因表达数据通过多类别支持向量机对多种癌症类型进行分类。生物信息学。19, 1132-1139 (2003). ·doi:10.1093/bioinformatics/btg102
[23] Lee,J.,Hastie,T.J.:学习混合图形模型的结构。J.计算。图表。Stat.24,230-253(2015)。 ·doi:10.1080/10618600.2014.900500
[24] Liu,J.J.,Cutler,G.,Li,W.,Pan,Z.,Peng,S.,Hoey,T.,Chen,L.,Ling,X.B.:使用基于遗传算法的多类癌症分类和生物标记物发现。生物信息学。21, 2691-2697 (2005). ·doi:10.1093/生物信息系统/bti419
[25] Meinshausen,N.,Bühlmann,P.:高维图和套索变量选择。Ann.Stat.341436-1462(2006年)·Zbl 1113.62082号 ·doi:10.1214/09053606000000281
[26] Miguel Hernández-Lobato,J.,Hernandez-Labato,D.,Suárez,A.:基于网络的稀疏贝叶斯分类。模式识别。44, 886-900 (2011). ·Zbl 1213.68528号 ·doi:10.1016/j.patcog.2010.10.016
[27] Parambath,S.A.P.,Usunier,N.,Grandvalet,Y.:优化伪线性性能度量:应用于f度量(2018)。arXiv:1505.00199v4。2018年1月1日访问。
[28] Pérez,A.,Larrañaga,P.,Inza,I.:条件高斯网络监督分类:从朴素贝叶斯增加结构复杂性。国际期刊近似原因。43, 1-25 (2006). ·兹比尔1097.62057 ·doi:10.1016/j.ijar.2006.01.002
[29] Peterson,C.B.、Stingo,F.C.、Vannucci,M.:具有网络结构预测因子的回归模型的联合贝叶斯变量和图选择。《Stat.Med.351017-1031》(2015年)。 ·数字对象标识代码:10.1002/sim.6792
[30] Ravikumar,P.,Wainwright,M.J.,Lafferty,J.:使用Ş1-正则logistic回归。《美国年鉴》第38卷,第1287-1319页(2010年)·Zbl 1189.62115号 ·doi:10.1214/09-AOS691
[31] Safo,S.E.,Ahn,J.:通用稀疏多类线性判别分析。计算。统计数据分析。99, 81-90 (2016). ·Zbl 1468.62170号 ·doi:10.1016/j.csda.2016.01.011
[32] Sokolova,M.,Japkowicz,N.,Szpakowicz,S.:AI 2006:人工智能进展。收录于:A.、S.、B.、K.(编辑)第1版,第53-76页。施普林格,柏林(2006)·Zbl 1134.68308号
[33] Tibshirani,R.:通过套索进行回归收缩和选择。皇家统计学会期刊。B.58,267-288(1996年)·Zbl 0850.62538号
[34] Wang,H.,Li,R.,Tsai,C.:调整平滑剪裁绝对偏差方法的参数选择器。生物特征。94, 553-568 (2007). ·Zbl 1135.62058号 ·doi:10.1093/biomet/asm053
[35] Yang,E.,Ravikumar,P.,Allen,G.I.,Liu,Z.:通过单变量指数族分布的图形模型。J.马赫。学习。第16号决议,3813-3847(2015)·Zbl 1351.62111号
[36] Yi,G.Y.:复合似然/伪似然。威利统计参考:在线统计参考(2017年)。https://doi.org/10.1002/9781118445112.stat07855。
[37] Yi,G.Y.,He,W.,Li,H.:一类用于分析复杂结构相关数据的灵活模型,并应用于聚类纵向数据。《法律总汇》第6卷第448-461页(2017年)。 ·doi:10.1002/sta4.159
[38] Zhu,S.X.Y.,Pan,W.:用于微阵列样本分类的基于网络的支持向量机。BMC生物信息学。10, 1-11 (2009).
[39] Zi,X.,Liu,Y.,Gao,P.:基于互信息网络的支持向量机,用于识别类风湿关节炎相关基因。国际临床杂志。实验。Med.9,11764-11771(2016)。
[40] Zou,H.:自适应套索及其预言属性。《美国统计协会期刊》第101期,第1418-1429页(2006年)·Zbl 1171.62326号 ·doi:10.1198/016214500000735
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。