×

稀疏主成分分析的快速、可证明准确的近似算法揭示了世界各地人类的遗传变异。 (英语) 兹比尔1496.92049

Peer,Itsik(编辑),《计算分子生物学研究》。第26届国际年会,RECOMB 2022,美国加利福尼亚州圣地亚哥,2022年5月22日至25日。诉讼程序。查姆:斯普林格。莱克特。注释计算。科学。13278, 86-106 (2022).
摘要:主成分分析(PCA)是机器学习和多元统计中广泛使用的降维技术。为了提高主成分分析的可解释性,人们提出了各种获得稀疏主方向载荷的方法,称为稀疏主成分分析(SPCA)。在本文中,我们提出三重PCA,一种基于奇异值分解阈值的SPCA问题可证明准确的算法,不需要对输入协方差矩阵施加任何限制性假设;比目前最先进的技术快得多;并在实践中表现良好。当应用于1000基因组项目的基因型数据时,三重PCA它比以前的基准更快,至少也同样准确,并导致了一系列可解释的生物标记,揭示了世界各地的遗传多样性。
关于整个系列,请参见[兹比尔1493.92001].

理学硕士:

92D10型 遗传学和表观遗传学
68周25 近似算法
62H25个 因子分析和主成分;对应分析
PDF格式BibTeX公司 XML格式引用
全文: 内政部 链接

参考文献:

[1] Asteris,M.,Papailiopoulos,D.,Karystinos,G.N.:秩亏矩阵的稀疏主成分。摘自:2011年IEEE信息理论会议论文集国际研讨会,第673-677页(2011)·Zbl 1360.94059号
[2] Asteris,M.,Papailiopoulos,D.,Kyrillidis,A.,Dimakis,A.G.:通过二元匹配的稀疏PCA。摘自:神经信息处理系统进展,第766-774页(2015)
[3] 贝克,A。;Vaisbourd,Y.,《稀疏主成分分析问题:最优性条件和算法》,J.Optim。理论应用。,170, 1, 119-143 (2016) ·Zbl 1376.90061号 ·doi:10.1007/s10957-016-0934-x
[4] Bose,A.,Burch,M.C.,Chowdhury,A.,Paschou,P.,Drineas,P.:Clustrat:一种基于结构的人口分层聚类策略。bioRxiv(2020年)
[5] Bose,A。;卡兰齐斯,V。;EM Kontopoulou;埃尔卡迪,M。;Paschou,P。;Drineas,P.,TeraPCA:一个快速可扩展的软件包,用于研究太尺度基因型的遗传变异,生物信息学,35,19,3679-3683(2019)·doi:10.1093/bioinformatics/btz157
[6] Buniello,A.,2019年发表的全基因组关联研究、靶向阵列和汇总统计的NHGRI-EBI GWAS目录,核酸研究,47,D1,D1005-D1012(2019)·doi:10.1093/nar/gky1120
[7] Cadima,J。;Jolliffe,IT,《主成分解释中的载荷和相关性》,J.Appl。统计,22,2,203-214(1995)·数字对象标识代码:10.1080/757584614
[8] Chan,S.O.,Papailliopoulos,D.,Rubinstein,A.:关于稀疏PCA的近似性。摘自:第29届学习理论会议记录,第623-646页(2016年)
[9] Chang,CC;Chow,抄送;柜员,LC;Vattikuti,S。;Purcell,SM;Lee,JJ,《第二代普林克:迎接更大、更丰富数据集的挑战》,《Gigascience》,第4期,第1期,第13742-015页(2015年)·doi:10.1186/s13742-015-0047-8
[10] Consortium,G.P.等人:人类遗传变异的全球参考。《自然》526(7571),68(2015)
[11] d'Aspremont,A。;LE Ghaoui;密歇根州约旦;Lanckriet,GRG,使用半定规划的稀疏PCA直接公式,SIAM Rev.,49,3,434-448(2007)·邮编1128.90050 ·doi:10.1137/050645506
[12] 比利时恩格哈特;Stephens,M.,《人口结构分析:基于稀疏因子分析的统一框架和新方法》,《公共科学图书馆·遗传学》。,6, 9 (2010) ·doi:10.1371/journal.pgen.1001117
[13] Hsu,YL;黄,PY;Chen,DT,癌症研究中的稀疏主成分分析,Transl。癌症研究,3,3,182(2014)
[14] Jolliffe,IT,主要组件的旋转:规范化约束的选择,J.Appl。Stat.,22,1,29-35(1995)·doi:10.1080/757584395
[15] Jolliffe,信息技术;特伦达菲洛夫,NT;Uddin,M.,基于LASSO,J.Compute的改进主成分技术。图表。《统计》,第12、3、531-547页(2003年)·doi:10.1198/1061860032148
[16] Lee,S.,在全基因组关联研究中识别祖先信息标记的稀疏主成分分析,Genet。流行病。,36, 4, 293-302 (2012) ·doi:10.1002/gepi.21621
[17] Li,JZ,《从全基因组变异模式推断的全球人类关系》,《科学》,319,5866,1100-1104(2008)·doi:10.1126/科学.1153717
[18] 马奥尼,MW;Drineas,P.,用于改进数据分析的CUR矩阵分解,Proc。国家。阿卡德。科学。,106, 3, 697-702 (2009) ·Zbl 1202.68480号 ·doi:10.1073/pnas.0803205106
[19] McLaren,W.,《群体变异效应预测因子》,《基因组生物学》。,17, 1, 1-14 (2016) ·doi:10.1186/s13059-016-0974-4
[20] Moghaddam,B.,Weiss,Y.,Avidan,S.:稀疏LDA的广义谱界。摘自:第23届国际机器学习会议记录,第641-648页(2006)
[21] 马斯科,C.,马斯科,C.:用于更强更快近似奇异值分解的随机块krylov方法。In:Advances In Neural Information Processing Systems 28:神经信息处理系统年会,第1396-1404页(2015)
[22] Papailiopoulos,D.,Dimakis,A.,Korokithatakis,S.:通过低阶近似的稀疏主成分分析。摘自:《第三十届机器学习国际会议论文集》,第747-755页(2013)
[23] Patterson,N.,Price,A.L.,Reich,D.:人口结构和特征分析。《公共科学图书馆·遗传学》。2(12),e190(2006)
[24] 价格,AL;新泽西州帕特森;普伦奇,RM;缅因州温布拉特;夏迪克,NA;Reich,D.,《主成分分析修正全基因组关联研究中的分层》,《自然遗传学》。,38, 8, 904-909 (2006) ·doi:10.1038/ng1847
[25] 普里查德,JK;斯蒂芬斯,M。;Donnelly,P.,利用多点基因型数据推断人口结构,遗传学,155,2945-959(2000)·doi:10.1093/genetics/155.2.945
[26] Sohail,M.,《由于全基因组关联研究中未修正的分层,高度的多基因适应被高估》,Elife,8(2019)·doi:10.7554/寿命.39702
[27] Yu,G.,Wang,L.G.,Han,Y.,He,Q.Y.:clusterProfiler:用于比较基因簇间生物主题的R包。OMICS J.集成。生物学16(5),284-287(2012)
[28] 邹,H。;Hastie,T.,《通过弹性网进行正则化和变量选择》,J.Roy。Stat.Soc.B,67,2,301-320(2005)·Zbl 1069.62054号 ·数字对象标识代码:10.1111/j.1467-9868.2005.0050.x
此参考列表基于出版商或数字数学图书馆提供的信息。它的项目与zbMATH标识符启发式匹配,并且可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。