×

海量数据的自适应随机降维。 (英语) Zbl 1442.62153号

摘要:统计估计器的可扩展性在现代应用中越来越重要。实现可伸缩算法的一种方法是使用降维方法将数据压缩到低维潜在空间。在本文中,我们开发了一种降维方法,该方法利用了高维数据中的低秩结构假设,以获得计算和统计优势。我们采用最新的随机低秩近似算法来提供主成分分析(PCA)的有效解决方案,并使用该高效求解器改进统计基因组学关联映射的大规模线性混合模型(LMM)中的估计。本文的一个关键观察结果是,随机化具有双重作用,通过隐式正则化LMM中随机效应的协方差矩阵估计,提高了计算和统计性能。这些统计和计算优势在我们关于模拟数据和大规模基因组研究。

MSC公司:

62J05型 线性回归;混合模型
62甲12 多元分析中的估计
62兰特 大数据和数据科学的统计方面
62页第10页 统计学在生物学和医学中的应用;元分析
92D10型 遗传学和表观遗传学
PDF格式BibTeX公司 XML格式引用
全文: arXiv公司 链接

参考文献:

[1] D.阿奇利奥普塔斯。数据库友好型随机投影。《第二十届数据库系统原理研讨会论文集》,PODS'01,274-281页,美国纽约州纽约市,2001年。ACM公司。国际标准图书编号1-58113-361-8。
[2] R.J.Adcock。最小二乘法问题。《分析家》,5:53-541878。
[3] J.Baglama和L.Reichel。重新启动块Lanczos双对角化方法。数值算法,43(3):251-2722006·Zbl 1110.65027号
[4] C.M.主教。噪声训练等价于Tikhonov正则化。神经计算。,7(1):108-1161995年1月。ISSN 0899-7667。doi:10.1162/neco.1995.7.1.108。网址:http://dx.doi.org/10.1162/neco.1995.7.1.108。
[5] C.Boutsidis、M.W.Mahoney和P.Drineas。列子集选择问题的一种改进近似算法。第二十届ACM-SIAM离散算法年会论文集,SODA'09,968-977页。工业和应用数学学会,2009年·Zbl 1420.68235号
[6] 威康信托案例控制联盟。对7种常见疾病的14000例病例和3000例共享对照进行全基因组关联研究。《自然》,447(7145):661-6782007。
[7] R.D.库克。费希尔讲座:回归中的降维。统计科学,22(1):1-262007·兹比尔1246.62148
[8] R.D.Cook和S.Weisberg。《李的讨论》(1991)。J.Amer。统计师。协会,86:328-3321991年·Zbl 1353.62037号
[9] S.Dasgupta和A.Gupta。约翰逊和林登斯特劳斯定理的初等证明。随机结构与算法,22(1):60-652003·Zbl 1018.51010号
[10] P.Drineas和M.W.Mahoney。改进的基于核的学习中近似Gram矩阵的Nystrom方法。J.马赫。学习。Res.,6:2153-21752005年12月·Zbl 1222.68186号
[11] P.Drineas、R.Kannan和M.W.Mahoney。矩阵的快速蒙特卡罗算法II:计算矩阵的低秩近似。SIAM J.计算。,2006年7月36:158-183·Zbl 1111.68148号
[12] P.Drineas、M.Magdon-Ismail、M.W.Mahoney和D.P.Woodruff。矩阵一致性和统计杠杆的快速近似。机器学习研究杂志,13(1):3475-35062012·Zbl 1437.65030号
[13] F.Y.Edegworth。关于减少观测值。《哲学杂志》,第135-141页,1884页。
[14] R.A.Fisher。理论统计学的数学基础。皇家统计学会哲学学报A,222:309-3681922·JFM 48.1280.02型
[15] R.A.Fisher。分类问题中多重测量的使用。优生学年鉴,7(2):179-1881936。
[16] A.Franke、D.P.B.McGovern、J.C Barrett、K.Wang、G.L.Radford-Smith、T.Ahmad、C.W.Lees、T.Balschun、J.Lee、R.Roberts等。全基因组荟萃分析增加到71个已确认的克罗恩病易感位点。《自然遗传学》,42(12):1118-11252010。25
[17] P.Frankl和H.Maehara。Johnson-Lindenstraus引理与一些图的球形性。J.库姆。理论Ser。A、 1987年6月,44:355-362·Zbl 0675.05049号
[18] K.R.加布里埃尔。Le biplot-outil d’exploration de don’ees多维连体。《社会与统计杂志》,143(3-4):5-552002年。
[19] L.L.Gerfo、L.Rosasco、F.Odone、E.De Vito和A.Verri。监督学习的谱算法。神经计算,20(7):1873-18972008·Zbl 1147.68643号
[20] A.R.Gilmour、R.Thompson和B.R Cullis。平均信息reml:线性混合模型中方差参数估计的有效算法。生物统计学,第1440-1450页,1995年·Zbl 0875.62314号
[21] A.Gittens和M.W.Mahoney。重温用于改进大规模机器学习的Nystrom方法。arXiv预印arXiv:1303.18492013·Zbl 1367.68223号
[22] G.H.戈卢布。矩阵分解和统计计算。在统计计算中,第365-397页。纽约:学术出版社,1969年。
[23] G.H.Golub和C.F.Van Loan。矩阵计算。约翰·霍普金斯大学出版社,马里兰州巴尔的摩,第3版,1996年。国际标准图书编号0-8018-5413-X·Zbl 0865.65009号
[24] G.H.Golub、K.Slóna和P.Van Dooren。计算一般矩阵乘积/商的奇异值分解。SIAM J.矩阵分析。申请,22:1-192000年·兹伯利0969.65032
[25] 子空间迭代随机化与奇异值问题。SIAM科学计算杂志,37(3):A1139-A11732015·Zbl 1328.65088号
[26] M.Gu和S.C.Eisenstat。计算强秩揭示QR分解的高效算法。SIAM J.科学。计算。,17(4):848-8691996年7月·Zbl 0858.65044号
[27] N.Halko、P-G.Martinsson和J.A.Tropp。寻找随机结构:构造近似矩阵分解的概率算法。SIAM评论,53(2):217–2882011·Zbl 1269.65043号
[28] R.Hecht-Nielsen和V˘er´a K˚urkov´a。欧氏空间的拟正交维数。技术报告系列,INC-92051992年。
[29] C.R.亨德森。线性模型在动物育种中的应用。圭尔夫大学,1984年。
[30] A.E.Hoerl和R.W.Kennard。岭回归:非正交问题的有偏估计。技术计量学,12:55-671970·Zbl 0202.17205号
[31] H.霍特林。分析主成分中的复杂统计变量。《教育心理学杂志》,24:417-4411933·JFM 59.1183.01号文件
[32] P.Indyk和R.Motwani。近似最近邻:消除维度诅咒。1998年,美国纽约州纽约市,STOC’98,第604-613页,第三十届ACM计算理论研讨会论文集。ACM公司。国际标准图书编号0-89791-962-9·Zbl 1029.68541号
[33] D.L.Johnson和R.Thompson。使用稀疏矩阵技术和平均信息的单变量动物模型方差分量的限制最大似然估计。《乳品科学杂志》,78(2):449-4561995。26
[34] W.Johnson和J.Lindenstrauss。Lipschitz映射到Hilbert空间的扩张。《现代分析与概率会议》(康涅狄格州纽黑文,1982年),《当代数学》第26卷,第189-206页。美国数学学会,1984年·Zbl 0539.46017号
[35] P.C.Kainen和V.K˚urkov´a。欧氏空间的拟正交维数。应用数学函件,6(3):7-101993·Zbl 0783.05030号
[36] H.M.Kang,N.A.Zaitlen,C.M.Wade,A.Kirby,D.Heckerman,MJ。Daly和E.Eskin。模型生物关联映射中种群结构的有效控制。遗传学,178(3):1709–17232008。
[37] H.M.Kang、J.H.Sul、S.K.Service、N.A.Zaitlen、S.Kong、N.B.Freimer、C.Sabatti和E.Eskin。解释全基因组关联研究中样本结构的方差分量模型。《自然遗传学》,42(4):348-3542010年。
[38] B.W.Kennedy、M.Quinton和J.A.Van Arendonk。估算单基因对数量性状的影响。动物科学杂志,70(7):2000-2012,1992。
[39] A.Krote、B.J.Vilhj´almsson、V.Segura、A.Platt、Q.Long和M.Nordburg。结构化群体相关性状全基因组关联研究的混合模型方法。《自然遗传学》,44(9):1066107112012。
[40] R.R.B.Lehoucq、D.D.C.Sorensen和C-C.Yang。Arpack用户指南:用隐式恢复Arnoldi方法解决大尺度特征值问题,第6卷。SIAM,1998年·Zbl 0901.65021号
[41] B.Li、H.Zha和F.Chiaromonte。轮廓回归:降维的一般方法。《统计年鉴》,33(4):1580-16162005年·Zbl 1078.62033号
[42] K.C.Li。用于降维的分段逆回归(含讨论)。J.Amer。统计师。协会,86:316-3421991年·Zbl 0742.62044号
[43] K.C.Li。关于数据可视化和降维的主要Hessian方向:Stein引理的另一个应用。J.Amer。统计师。协会,87:1025-10391992年·Zbl 0765.62003年
[44] E.Liberty、F.Woolfe、P-G.Martinsson、V.Rokhlin和M.Tygert。矩阵低阶近似的随机化算法。美国国家科学院院刊,104(51):20167-201722007·Zbl 1215.65080号
[45] B.Lin、Z.Pang和J.Jiang。通过reml和路径坐标优化选择固定和随机效果。计算与图形统计杂志,22(2):341-3552013。
[46] C.Lippert、J.Listgarten、Y.Liu、C.M.Kadie、R.I.Davidson和D.Heckerman。全基因组关联研究的快速线性混合模型。《自然方法》,8(10):833-8352011年。
[47] C.Lippert、G.Quon、E.Y.Kang、C.M.Kadie、J.Listgarten和D.Heckerman。选择表型特异性变体用于基因组学混合模型的益处。科学报告,2013年3月。
[48] J.Listgarten、C.Lippert、C.M.Kadie、R.I.Davidson、E.Eskin和D.Heckerman。全基因组关联研究的改进线性混合模型。自然方法,9(6):525-5262012。27
[49] M.W.马奥尼。矩阵和数据的随机算法。机器学习的基础和趋势,3(2):123-2242011·Zbl 1232.68173号
[50] M.W.Mahoney和L.Orecchia。通过近似特征向量计算隐式实现正则化。arXiv预印本arXiv:1010.07032010。
[51] P.-G.Martinsson、A.Szlam和M.Tygert。奇异值分解计算的归一化幂迭代。NIPS大型机器学习低阶方法研讨会,2010年。
[52] K.Matilainen、E.A.M¨antysaari、M.H.Lidauer、I.Strand´en和R.Thompson。在牛顿型方法中使用蒙特卡罗算法进行遗传参数的限制最大似然估计。公共科学图书馆,8(12):e808212013。
[53] D.Mimno、D.M.Blei和B.E.Engelhardt。后验预测检验,以量化潜在人口结构混合模型中的缺陷。arXiv预印arXiv:1407.00502014。
[54] J.Nilsson、F.Sha和M.I.Jordan。基于核降维的流形回归。2007年第24届机器学习国际会议论文集。
[55] A.B.Owen和P.O.Perry。奇异值分解和非负矩阵分解的双交叉验证。应用统计年鉴,3:564-5942009。doi:10.1214/08-AOAS227·Zbl 1166.62047号
[56] P.O.Perry和M.W.Mahoney。正则拉普拉斯估计和快速特征向量逼近。《神经信息处理系统进展》,第2420-24282011页。
[57] T.Poggio和F.Girosi。等价于多层网络的学习正则化算法。《科学》,247:978-9821990年2月。doi:10.1126/science.247.4945.978·Zbl 1226.92005号
[58] N.G.Polson和J.G.Scott。全球收缩,局部行动:稀疏贝叶斯正则化和预测。贝叶斯统计9。牛津大学出版社,2010年。
[59] A.L.Price、A.Helgason、G.Thorleifsson、S.A.McCarroll、A.Kong和K.Stefansson。通过亲缘或非亲缘个体的同一血统对基因表达的单组织和跨组织遗传力。《公共科学图书馆·遗传学》,2011年02月7日。
[60] J.K.Pritchard和P.Donnelly。结构化或混合人群关联的病例对照研究。理论种群生物学,60(3):227-2372001。
[61] V.Rokhlin、A.Szlam和M.Tygert。主成分分析的随机算法。SIAM J.矩阵分析。申请。,31(3):1100-11242009年8月·Zbl 1198.65035号
[62] A.Rudi、G.D.Caánas和L.Rosasco。关于子空间学习的样本复杂性。《神经信息处理系统进展》,第2067-2075页,2013年。
[63] A.Rudi、R.Camoriano和L.Rosasco。少即是多:Nystr–om计算正则化。《神经信息处理系统进展》,第1648-1656页,2015年。
[64] D.E.Runcie和S.Mukherjee。用遗传协方差矩阵的贝叶斯稀疏因子分析分析高维表型。遗传学,194(3):753-7672013。
[65] Y.Saad。大型特征值问题的数值方法,第158卷。SIAM,1992年。28 ·Zbl 0991.65039号
[66] T·萨洛斯。通过随机投影改进了大型矩阵的近似算法。《计算机科学基础》,2006年。2006年FOCS。第47届IEEE年会,第143-152页,2006年10月。
[67] MHC测序协会。人类主要组织相容性复合体的完整序列和基因图谱。《自然》,401(6756):921-9231999。
[68] P.Simard、Y.LeCun和J.S.Denker。使用新的变换距离进行有效的模式识别。神经信息处理系统进展5,[NIPS会议],第50-58页,美国加利福尼亚州旧金山,1993年。摩根考夫曼出版社,ISBN 1-55860-274-7。统一资源定位地址http://dl.acm.org/citation.cfm?id=645753.668226。
[69] S.Smale和D.Zhou。学习理论通过积分算子及其近似进行估计。构造近似,26(2):153-1722007·Zbl 1127.68088号
[70] N.Srivastava、G.Hinton、A.Krizhevsky、I.Sutskever和R.Salakhutdinov。辍学:防止神经网络过度拟合的简单方法。J.马赫。学习。决议,15(1):1929-19582014年1月。ISSN 1532-4435。统一资源定位地址http://dl.acm.org/citation.cfm?id=2627435。 2670313. ·Zbl 1318.68153号
[71] G.W.斯图尔特。矩阵算法:第2卷,特征系统,第2卷。SIAM,2001年·Zbl 0984.65031号
[72] K.Strimmer。fdrtool:一个通用的r包,用于估计基于局部和尾部区域的错误发现率。生物信息学,24(12):1461-14622008。
[73] 杉山先生。通过局部Fisher判别分析对多模态标记数据进行降维。机器学习研究杂志,8:1027-10612007·兹比尔1222.68312
[74] A.Szlam、Y.Kluger和M.Tygert。主成分分析随机算法的实现。arXiv预印arXiv:1412.35102014·Zbl 1391.65085号
[75] E.A.汤普森。人口相关性和人口亲属关系。理论种群生物学,10(2):205-2261976·Zbl 0334.92018号
[76] E.D.Vito、L.Rosasco、A.Caponetto、U.D.Giovannini和F.Odone。从例子中学习是一个反问题。机器学习研究杂志,6(5月):883-9042005·Zbl 1222.68180号
[77] C.K.I.威廉姆斯和M.西格。使用nystr–om方法加速内核机器。T.K.Leen、T.G.Dietterich和V.Tresp编辑,《神经信息处理系统进展》13,第682-688页。麻省理工学院出版社,2001年。统一资源定位地址http://papers.nips.cc/paper/1866年,使用nystrom方法加速内核制造。pdf。
[78] Q.Wu、F.Liang和S.Mukherjee。局部切片逆回归。计算与图形统计杂志,19(4):843-8602010。
[79] J.Yang、S.H.Lee、M.E.Goddard和P.M Visscher。GCTA:全基因组复杂性状分析工具。《美国人类遗传学杂志》,88(1):76-822011。
[80] J.Yang、N.A.Zaitlen、M.E.Goddard、P.M.Visscher和A.L.Price。混合模型关联方法应用中的优点和缺点。《自然遗传学》,46(2):100-1062014。29
[81] Y.Yao、L.Rosasco和A.Caponnetto。关于梯度下降学习中的提前停止。构造近似,26(2):289-3152007·Zbl 1125.62035号
[82] G.杨。最大似然估计和因子分析。《心理测量学》,1941年6月49日至53日·JFM 67.0489.01号
[83] X.Zhou和M.Stephens。关联研究的全基因组高效混合模型分析。《自然遗传学》,44(7):821-8242012。
[84] X.Zhou、P.Carbonetto和M.Stephens。贝叶斯稀疏线性混合模型的多基因建模。《公共科学图书馆·遗传学》,9(2):e10032642013年。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。