×

使用稀疏主成分分析进行聚类和特征选择。 (英语) Zbl 1273.92038号

摘要:在本文中,我们研究了稀疏主成分分析(PCA)在聚类和特征选择问题中的应用。稀疏主成分分析(Sparse PCA)寻求稀疏因子或数据变量的线性组合,以解释数据中的最大方差,同时只有有限数量的非零系数。主成分分析通常被用作一种简单的聚类技术,稀疏因子允许我们在这里用一组简化的变量来解释聚类。我们首先简要介绍了稀疏PCA的原理和动机,并详细介绍了算法在[A.d’Aspremont公司等,SIAM Rev.49,No.3,434–448(2007;邮编1128.90050)]. 然后,我们将这些结果应用于生物学中出现的一些经典聚类和特征选择问题。

MSC公司:

92D10型 遗传学和表观遗传学
65K10码 数值优化和变分技术
90立方厘米22 半定规划
62H25个 因子分析和主成分;对应分析
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Alizadeh A,Eisen M,Davis R,Ma C,Lossos I,Rosenwald A(2000)通过基因表达谱确定的弥漫性大b细胞淋巴瘤的不同类型。自然403:503–511·doi:10.1038/35000501
[2] Alon A、Barkai N、Notterman DA、Gish K、Ybara S、Mack D、Levine AJ(1999)通过寡核苷酸阵列探测的肿瘤和正常结肠组织的聚类分析揭示了广泛的基因表达模式。细胞生物学96:6745–6750
[3] Cadima J,Jolliffe IT(1995)《主成分解释中的荷载和相关性》。J应用统计22:203–214·数字对象标识代码:10.1080/757584614
[4] Candès EJ,Tao T(2005)《线性规划解码》。IEEE Trans-Inf理论51(12):4203–4215·Zbl 1264.94121号 ·doi:10.1109/TIT.2005.858979
[5] d'Aspremont A(2005)使用近似梯度进行平滑优化。ArXiv:数学。OC/0512344号
[6] d'Aspremont A,El Ghaoui L,Jordan MI,Lanckriet GRG(2007)使用半定规划的稀疏PCA直接公式。SIAM版本49(3):434–448·邮编1128.90050 ·doi:10.1137/050645506
[7] Donoho DL,Tanner J(2005)通过线性规划求解欠定线性方程的稀疏非负解。国家科学院院刊102(27):9446–9451·Zbl 1135.90368号 ·doi:10.1073/pnas.0502269102
[8] Guyon I,Weston J,Barnhill S,Vapnik V(2002)使用支持向量机进行癌症分类的基因选择。马赫学习46:389–422·Zbl 0998.68111号 ·doi:10.1023/A:1012487302797
[9] Huang TM,Kecman V(2005)支持向量机用于癌症诊断的基因提取——一项改进。Artif Intell Med艺术智能医学35:185–194·Zbl 05390770号 ·doi:10.1016/j.artmed.2005.01.006
[10] Jolliffe IT、Trendafilov NT、Uddin M(2003)基于LASSO的改进主成分技术。J计算图表统计12:531–547·doi:10.1198/1061860032148
[11] Moler C,Van Loan C(2003)二十五年后,计算矩阵指数的十九种可疑方法。SIAM修订版45(1):3–49·Zbl 1030.65029号 ·doi:10.1137/S00361445024180
[12] Moghaddam B,Weiss Y,Avidan S(2006a)稀疏LDA的广义谱界。参加:机器学习国际会议
[13] Moghaddam B,Weiss Y,Avidan S(2006b)稀疏PCA的谱界:精确和贪婪算法。Adv Neural Inf过程系统,18
[14] Nesterov Y(1983)求解收敛速度为O(1/k 2)的凸规划问题的一种方法。苏联数学博士27(2):372–376·Zbl 0535.90071号
[15] Nesterov Y(2005)非光滑函数的平滑最小化。数学课程103(1):127–152·兹比尔1079.90102 ·doi:10.1007/s10107-004-0552-5
[16] Pataki G(1998)关于半定规划中极值矩阵的秩和最优特征值的多重性。数学运算研究23(2):339–358·Zbl 0977.90051号 ·doi:10.1287/门23.2.339
[17] Su Y,Murali TM,Pavlovic V,Schaffer M,Kasif S(2003)Rankgene:基于表达数据的诊断基因识别。生物信息学19:1578–1579·doi:10.1093/bioinformatics/btg179
[18] Srebro N,Shakhnarovich G,Roweis S(2006)高斯混合聚类中计算和信息极限的研究。摘自:第23届机器学习国际会议论文集,第865-872页
[19] Sturm J(1999)使用SEDUMI 1.0x,一个用于对称锥体优化的MATLAB工具箱。Optim Methods Softw 11:625–653最佳方法软件·Zbl 0973.90526号 ·doi:10.1080/10556789908805766
[20] Tibshirani R(1996)通过LASSO回归收缩和选择。J R Stat Soc Ser B 58(1):267–288·Zbl 0850.62538号
[21] Vapnik V(1995)统计学习理论的本质。柏林施普林格·Zbl 0833.62008号
[22] 邹H,Hastie T(2005)通过弹性网的正则化和变量选择。J R Stat Soc Ser B Stat方法67(2):301–320·Zbl 1069.62054号 ·文件编号:10.1111/j.1467-9868.2005.005.x
[23] Zou H,Hastie T,Tibshirani R(2006)稀疏主成分分析。J计算图表统计15(2):265–286·doi:10.1198/106186006X113430
[24] Zhang Z,Zha H,Simon H(2002)稀疏因子低秩近似I:基本算法和误差分析。SIAM J矩阵分析应用23(3):706–727·Zbl 1003.65041号 ·doi:10.1137/S0895479899359631
[25] Zhang Z,Zha H,Simon H(2004)具有稀疏因子的低阶近似II:具有离散类牛顿迭代的惩罚方法。SIAM矩阵分析应用25(4):901-920·Zbl 1069.6500号 ·网址:10.1137/S0895479801394477
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。