×

高维数据中CDPCA的两种方法的实证比较。 (英语) Zbl 1480.62116号

摘要:改进的主成分分析技术,特别是那些产生稀疏解的技术,由于其在解释目的上的有用性,特别是在高维数据集中,具有吸引力。聚类和不相交主成分分析(CDPCA)是一种有约束的PCA,它促进了加载矩阵的稀疏性。特别是,CDPCA寻求用不相交(可能稀疏)的成分来描述数据,同时具有识别对象簇的特殊性。基于变量数大于对象数的模拟和实际基因表达数据集,我们实证比较了两种不同启发式迭代程序的性能,即ALS和专门文献中提出的执行CDPCA的两步SDP算法。为了避免原始变量之间不同方差值的可能影响,所有数据都进行了标准化。虽然这两个程序都表现良好,但数值测试突出了两个区别其性能的主要特征,特别是与两步SDP算法相关的特征:它比ALS提供更快的结果,并且由于它对变量使用了聚类程序(k-means),在恢复生成的数据集所揭示的真实变量划分方面优于ALS算法。总的来说,这两个过程在求解精度方面都产生了令人满意的结果,其中ALS表现更好,在恢复真实对象簇方面,对于样本量较小且结构复杂(即CDPCA模型中的错误级别)的数据集,两步SDP优于ALS方法。两种算法估计的分量解释方差的比例受数据结构复杂性(误差水平越高,方差越低)的影响,这两种算法的值相似,但两步SDP方法产生较高方差的两个对象簇数据集除外。此外,实验测试表明,一般来说,两步SDP方法具有更大的恢复对象簇真实数量的能力,而ALS算法在对象聚类质量方面更好,在CDPCA组件的缩小空间中具有更均匀、紧凑和分离良好的簇。

MSC公司:

62H25个 因子分析和主成分;对应分析
62-08 统计问题的计算方法
62H30型 分类和区分;聚类分析(统计方面)
PDF格式BibTeX公司 XML格式引用
全文: 内政部 链接

参考文献:

[1] 阿达奇,K。;Trendafilov,NT,根据预先规定的荷载基数进行稀疏主成分分析,计算统计,31,4,1403-1427(2016)·Zbl 1348.65014号 ·doi:10.1007/s00180-015-0608-4
[2] Boulesteix AL、Durif G、Lambert-Lacroix S、Peyre J、Strimmer K(2015)《基因组学的PLS分析》,R包版本1.3-1https://CRAN.R-project.org/package=plsgenomics公司
[3] Calinski,T。;Harabasz,J.,《用于聚类分析的枝晶方法》,Commun Stat,3,1-27(1974)·Zbl 0273.62010
[4] Cavicchia C,Vichi M,Zaccaria G(2020)用于建模分层潜在概念的超度量相关矩阵,Adv Data Anal Classif。doi:10.1007/s11634-020-00400-z·Zbl 1459.62097号
[5] 夏拉德,M。;北加扎利。;波伊托,V。;Niknafs,A.,NbClust:用于确定数据集中相关簇数的R包,J Stat Softw,61,6,1-36(2014)·doi:10.18637/jss.v061.i06
[6] Chung D,Chun H,Keles S(2013)spls:稀疏偏最小二乘(spls)回归和分类。R软件包版本2.2-1。https://CRAN.R-project.org/package=spls
[7] d'Aspremont,A。;El Ghaoui,L。;密歇根州约旦;Lanckriet,GRG,使用半定规划的稀疏PCA直接公式,SIAM,49,3,434-448(2007)·邮编1128.90050 ·doi:10.1137/050645506
[8] 德萨博,WS;杰迪迪,K。;酷,K。;Schendel,D.,《同时多维展开和聚类分析:战略集团的调查》,Mark Lett,2129-146(1990)·doi:10.1007/BF00436033
[9] Enki,DG;Trendafilov,NT;Jolliffe,IT,《可解释主成分的聚类方法》,《应用统计杂志》,40,3,583-599(2013)·Zbl 1514.62544号 ·doi:10.1080/02664763.2012.749846
[10] Erichson NB,Zheng P,Aravkin S(2018)Sparepca:稀疏主成分分析(SPCA),R包版本0.1.2。https://CRAN.R-project.org/package=sparepca
[11] Erichson NB,Zheng P,Manohar K,Brunton S,Kutz JN,Aravkin AY(2018),通过变量投影进行稀疏主成分分析。IEEE J Sel Top Signal Process(可从arXiv 1804.00341获得)·Zbl 1440.62231号
[12] Hennig C(2015)fpc:集群灵活程序.R包版本2.1-10。https://CRAN.R-project.org/package=fpc
[13] 马萨诸塞州亨特;Takane,Y.,《约束主成分分析:各种应用》,《教育与行为统计杂志》,27,41-81(2002)·数字对象标识代码:10.3102/10769986027002105
[14] Jolliffe,IT,主成分分析(2002),纽约:Springer,纽约·Zbl 1011.62064号
[15] IT部Jolliffe;Trendafilov,NT;Uddin,M.,一种基于套索的改进主成分技术,《计算机图形学统计》,12,3,531-547(2003)·doi:10.1198/1061860032148
[16] Ma,Z.,稀疏主成分分析和迭代阈值,Ann Stat,41,2,772-801(2013)·兹比尔1267.62074 ·doi:10.1214/13-AOS1097
[17] Macedo,E.,聚类和降维的两步SDP方法,Stat Optim Inf Compute,3,3,294-311(2015)·doi:10.139/145
[18] Macedo E,Freitas A(2015)CDPCA的交替最小二乘算法。收录于:Plakhov A等人(编辑)《自然科学优化、计算机通信和信息科学》(CCIS)第499卷。施普林格,第173-191页
[19] Nieto-Librero AB、Galindo-Villardón MP、Freitas A(2019)biplotbootGUI:经典Biplot和群集不相交Biplot的引导,R包版本1.2。http://www.R-project.org/package=biplotbootGUI
[20] Nieto-Librero,AB;塞拉,C。;议员文森特·加林多;俄勒冈州Ruíz-Barzola。;Galindo-Villardón,MP,《聚类不相交HJ-Biplot:识别地球化学研究中污染模式的新工具》,Chemosphere,176389-396(2017)·doi:10.1016/j.chemosphere.2017.02.125
[21] 奥弗顿,ML;Womersley,RS,最小化对称矩阵最大特征值和的最优性条件和对偶理论,数学程序,62321-357(1993)·Zbl 0806.90114号 ·doi:10.1007/BF01585173
[22] 彭杰。;Wei,Y.,通过半定规划逼近k均值型聚类,SIAM J Optim,18,1186-205(2007)·Zbl 1146.90046号 ·doi:10.1137/050641983年
[23] Peng J,Xia Y(2005)k-means型聚类的新理论框架。In:Chu W et al(eds)Foundations and advancess In data mining studies In fuzziness and soft computing,vol 180。施普林格,第79-96页·Zbl 1085.68132号
[24] R开发核心团队(2019)R:统计计算的语言和环境。网址:http://www.R-project.org/
[25] Rocci,R。;Vichi,M.,《双模多分区》,《计算统计数据分析》,第52期,1984-2003年(2008年)·Zbl 1452.62463号 ·doi:10.1016/j.csda.2007.06.025
[26] Takane,Y。;马萨诸塞州亨特,《约束主成分分析:综合理论》,《应用代数-工程-公共计算》,第12期,第391-419页(2001年)·Zbl 1040.62050 ·doi:10.1007/s002000100081
[27] Vichi,M.,《交叉加载的不相交因子分析》,《高级数据分析分类》,11,3,563-591(2017)·Zbl 1414.62222号 ·doi:10.1007/s11634-016-0263-9
[28] 维希,M。;Saporta,G.,聚类和不相交主成分分析,《计算统计数据分析》,533194-3208(2009)·Zbl 1453.62230号 ·doi:10.1016/j.csda.2008.05.028
[29] Vines,S.,简单主成分,应用统计,49,441-451(2000)·Zbl 0965.62052号
[30] Xu,R。;Wunsch,D.,聚类算法综述,IEEE跨神经网络,16445-648(2005)·doi:10.1109/TNN.2005.845141
[31] 邹,H。;哈斯蒂,T。;Tibshirani,R.,稀疏主成分分析,计算机图形统计杂志,15,2,262-286(2006)·doi:10.1198/106186006X113430
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。