×

使用PCOUT算法对高维数据进行偏最小二乘分类。 (英语) Zbl 1305.65080号

摘要:将样品分为两类或多类是几乎每个领域的科学家都感兴趣的。当变量(p)多于样本(n)时,传统的分类统计方法无法很好地进行分类,并且对外围观测值高度敏感。在本研究中,提出了一种稳健的基于偏最小二乘的分类方法来处理包含离群值的数据,其中\(n\ll p \)。将该方法应用于著名的基准数据集,并通过广泛的仿真研究探索其特性。

MSC公司:

62-08 统计问题的计算方法
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Alon U、Barkai N、Notterman DA、Gish K、Ybara S、Mack D、Levine A(1999)通过寡核苷酸阵列探测的肿瘤和正常结肠组织的聚类分析揭示了广泛的基因表达模式。国家科学院院刊96:6745-6750·doi:10.1073/pnas.96.12.6745
[2] Barker M,Rayens W(2003)偏最小二乘判别法。化学杂志17:166-173·doi:10.1002/cem.785
[3] Boulesteix AL(2004)利用微阵列数据进行分类的PLS降维。统计应用基因分子生物学3:第33条·Zbl 1086.62119号
[4] Brys G、Hubert M、Struyf A(2004)《偏度的稳健度量》。计算图统计杂志13:996-1017·doi:10.1198/106186004X12632
[5] Culhane AC、Perriere G、Considine E、Gotter T、Higgins D(2002)微阵列数据的组间分析。生物信息学18:1600-1608·Zbl 1116.80318号 ·doi:10.1093/bioinformatics/18.12.1600
[6] De Jong S(1993)SIMPLS:偏最小二乘回归的替代方法。化学智能实验室系统18:251-263·doi:10.1016/0169-7439(93)85002-X
[7] Dai JJ,Lieu L,Roke D(2006)基因表达微阵列数据的分类降维。统计应用基因分子生物学5:第6条·Zbl 1166.62337号
[8] Dennis RC,Lee H(1999)二元响应回归中的降维。美国统计协会杂志94:1187-1200·Zbl 1072.62619号 ·doi:10.1080/01621459.1999.10473873
[9] 丁B,Gentleman R(2004)使用广义偏最小二乘法进行分类。生物导体项目工作文件5
[10] Dudoit S,Fridland J,Speed TP(2002)使用基因表达数据进行肿瘤分类的鉴别方法比较。美国统计学会杂志97:77-87·Zbl 1073.62576号 ·doi:10.1198/016214502753479248
[11] Filzmoser P、Maronna R、Werner M(2008)《高维异常识别》。计算统计数据分析52:1694-1711·Zbl 1452.62370号 ·doi:10.1016/j.csda.2007.05.018
[12] Firth D(1993)最大似然估计的偏差减少。生物特征80:27-38·Zbl 0769.62021号 ·doi:10.1093/biomet/80.1.27
[13] Fort G,Lambert-Lacroix S(2005)使用偏最小二乘法和惩罚逻辑回归进行分类。生物信息学21:1104-1111·doi:10.1093/生物信息系统/bti114
[14] Ghosh D(2002)微阵列实验肿瘤分类的奇异值分解回归模型。Proc Pac Symp生物计算机98:11462-11467·Zbl 1452.62074号
[15] Hennig C(2004)分类的非对称线性降维。J计算图表统计13:930-945·doi:10.1198/106186004X12740
[16] Hubert M,Engelen S(2004)《生物科学中的稳健PCA和分类》。生物信息学20:1728-1736·doi:10.1093/bioinformatics/bth158
[17] Hubert M,Rousseeuw PJ,Vanden Branden K(2005)《ROBPCA:稳健主成分分析的新方法》。技术计量学47:64-79·doi:10.1198/00401700400000563
[18] Hubert M,Vanden Branden K(2003)偏最小二乘回归的稳健方法。化学杂志17:537-549·doi:10.1002/cem.822
[19] Hubert M,Van Driessen K(2004)快速稳健的判别分析。计算统计数据分析45:301-320·Zbl 1429.62247号 ·doi:10.1016/S0167-9473(02)00299-2
[20] Hubert M,Vandervieren E(2008):倾斜分布的调整箱线图。计算统计数据分析52:5186-5201·Zbl 1452.62074号 ·doi:10.1016/j.csda.2007.11.008
[21] Kondylis A,Hadi AS(2006),使用BACON算法的衍生成分回归。计算统计数据分析51:556-569·Zbl 1157.62427号 ·doi:10.1016/j.csda.2005.11.004
[22] Maronna R,Zamar V(2002)高维数据集位置和离散度的稳健估计。技术计量学44:307-317·doi:10.1198/004017002188618509
[23] Marx BD(1996)广义线性回归的迭代加权偏最小二乘估计。技术计量38:74-381·Zbl 0902.62081号 ·doi:10.1080/00401706.1996.10484549
[24] Nguyen DV,Rocke DM(2002)使用微阵列基因表达数据通过偏最小二乘法进行肿瘤分类。生物信息学18:39-50·doi:10.1093/bioinformatics/18.1.39
[25] Nguyen DV,Rocke DM(2002)使用基因表达谱通过偏最小二乘法进行多类癌症分类。生物信息学18:1216-1226·doi:10.1093/bioinformatics/18.9.1216
[26] Rocke DM(1996)高维多元位置和形状S-估计的稳健性。Ann统计24:1327-1345·Zbl 0862.62049号 ·doi:10.1214/aos/1032526972
[27] Rousseeuw PJ,Van Driessen K(1999)最小协方差行列式估计的快速算法。技术计量41:212-223·doi:10.1080/00401706.1999.10485670
[28] Serneels S,Croux C,Filzmoser P,Van Espen PJ(2005),部分稳健M-回归。化学智能实验室系统79:55-64·doi:10.1016/j.chemolab.2005.04.007
[29] Shieh AD,Hung YS(2009)检测微阵列数据中的异常样本。统计应用基因分子生物学8:第13条·兹比尔1276.62092
[30] Vanden Branden K,Hubert M(2005)基于SIMCA方法的高维稳健分类。化学智能实验室系统79:10-21·doi:10.1016/j.chemolab.2005.03.002
[31] Verboven S,Hubert M(2005)LIBRA:稳健分析的MATLAB库。化学智能实验室系统75:127-136·doi:10.1016/j.chemolab.2004.06.003
[32] Wold H(1975)带潜在变量的路径模型:NIPALS方法。在:定量社会学关于数学和统计模型构建的国际视角。学术出版社,第307-357页·Zbl 0336.68040号
[33] Wold S(1976)通过不相交的主成分模型进行模式识别。图案识别8:127-139·Zbl 0336.68040号 ·doi:10.1016/0031-3203(76)90014-5
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。