×

用于大数据的PLS:用于正则化组PLS的统一并行算法。 (英语) Zbl 1431.62249号

本文调查了两个数据块的偏最小二乘法。建立了一个处理对称和非对称方法的通用框架。还探讨了集团结构。基于惩罚奇异值分解的变量选择技术被用于一种新的统一算法中,该算法可以执行不同的偏最小二乘方法及其正则化版本。本文还介绍了处理海量数据集的进一步扩展。详细介绍了优化准则和算法计算。探讨了减少计算时间的不同方法。该算法的性能及其对大样本容量的可扩展性在模拟数据集上得到了验证。第一种模拟考虑了组结构数据的非对称模型,而第二种模拟则是对判别分析的扩展。

MSC公司:

62H20个 关联度量(相关性、典型相关性等)
62兰特 大数据和数据科学的统计方面
62J07型 岭回归;收缩估计器(拉索)
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Abdi,H.&Williams,L.J.(2013),“偏最小二乘法:偏最小二乘相关性和偏最小二乘回归”,《分子生物学方法》。930, 549-579.
[2] Alin,A.(2009),“对象数量远大于变量数量时pls算法的比较”,统计论文50,711-720·Zbl 1247.62163号 ·doi:10.1007/s00362-009-0251-7
[3] Allen,G.I.、Grosenick,L.和Taylor,J.(2014),“广义最小二乘矩阵分解”,《美国统计协会杂志》109(505),145-159·Zbl 1367.62184号 ·doi:10.1080/01621459.2013.852978
[4] Allen,G.I.,Peterson,C.,Vannucci,M.和Maletic Savatic,M.(2013),“正则偏最小二乘及其在核磁共振波谱中的应用”,统计分析和数据挖掘6(4),302-314·Zbl 07260370号
[5] Allen,G.I.和Tibshirani,R.(2010),“转置正则协方差模型在缺失数据插补中的应用”,《Ann Appl Stat 4(2)》,764-790·兹比尔1194.62079 ·doi:10.1214/09-AOAS314
[6] Baglama,J.&Reichel,L.(2015),irlba:大型密集稀疏矩阵的快速截断奇异值分解、主成分分析和对称特征分解。R软件包版本2.0.0。http://CRAN.R-project.org/package=irlba
[7] Barker,M.&Rayens,W.(2003),“偏最小二乘判别法”,《化学计量学杂志》17(3),166-173。
[8] Boulesteix,A.-L.和Strimmer,K.(2007),“偏最小二乘法:分析高维基因组数据的通用工具”,《生物信息学简报》8(1),32-44。
[9] Brown,P.J.和Zidek,J.V.(1980),“自适应多元岭回归”,《统计年鉴》。8(1), 64-74. https://doi.org/10.1214/aos/1176344891 ·Zbl 0425.62053号 ·doi:10.1214/aos/1176344891
[10] Cak,A.D.,Moran,E.F.,de O.Figueiredo,R.,Lu,D.,Li,G.&Hetrick,S.(2016),“巴西亚马逊河流域的城市化和小农户农业用地选择以及小溪水化学的作用”,《土地利用科学杂志》11(2),203-221。
[11] Cardot,H.&Degras,D.(2017),“高维在线主成分分析:选择哪种算法?”,国际统计评论。http://dx.doi.org/10.1111/insr.12220 ·Zbl 07763574号
[12] Chen,X.和Liu,H.(2012),“结构化稀疏cca的高效优化算法,应用于eqtl映射”,《生物科学统计》4(1),3-26。
[13] Chun,H.&Keleš,S.(2010),“同时降维和变量选择的稀疏偏最小二乘回归”,《皇家统计学会杂志:B辑(统计方法)》72(1),3-25·Zbl 1411.62184号 ·文件编号:10.1111/j.1467-9868.2009.00723.x
[14] Chung,D.&Keleš,S.(2010),“高维数据的稀疏偏最小二乘分类”,《遗传学和分子生物学的统计应用》9(1),17·Zbl 1304.92041号
[15] Cohen,G.、Afshar,S.、Tapson,J.和van Schaik,A.(2017),“EMNIST:MNIST对手写信函的扩展”,CoRR abs/1702.05373。http://arxiv.org/abs/1702.05373
[16] de Jong,S.(1993),“简单:偏最小二乘回归的替代方法”,化学计量学和智能实验室系统18,251-263。
[17] Dhanjal,C.、Gunn,S.R.和Shawe-Taylor,J.(2009),“基于偏最小二乘的高效稀疏核特征提取”,IEEE模式分析与机器智能学报31(8),1347-1361。
[18] Friedman,J.、Hastie,T.和Tibshirani,R.(2010年),“通过坐标下降广义线性模型的正则化路径”,《统计软件杂志》33(1),1-22。http://www.jstatsoft.org/v33/i01/
[19] Friedman,J.、Hastie,T.、Tibshirani,R.、Simon,N.、Narasimhan,B.和Qian,J.(2018),glmnet:Lasso和Elastic-Net正则化广义线性模型。R软件包版本2.0-16。https://CRAN.R-project.org/package=glmnet
[20] Geladi,P.和Kowalski,B.R.(1986),“偏最小二乘回归:教程”,《分析化学学报》185,1-17。
[21] Guo,G.和Mu,G.(2013年),《年龄、性别和种族的联合估计:Cca与pls》,载于“第十届IEEE自动面部和手势识别国际会议和研讨会(FG)”,第1-6页。
[22] Hardoon,D.R.,Szedmak,S.&Shawe-Taylor,J.(2004),“典型相关分析:学习方法应用概述”,神经计算16(12),2639-2664·兹比尔1062.68134 ·doi:10.1162/0899766042321814
[23] Hastie,T.、Tibshirani,R.&Friedman,J.H.(2009),《统计学习的要素:数据挖掘、推理和预测》,第2版,《统计学中的斯普林格系列》,斯普林格出版社。http://www.worldcat.org/oclc/300478243 ·Zbl 1273.62005年
[24] Höskuldsson,A.(1988),“Pls回归方法”,《化学计量学杂志》2,211-228。
[25] Hotelling,H.(1936),“两组变量之间的关系”,《生物统计学》28(3-4),321·JFM 62.0618.04号
[26] Ji,G.,Yang,Z.&You,W.(2011),“基于Pls的基因选择和肿瘤特异性基因的识别”,IEEE系统、人与控制论汇刊,C部分(应用与评论)41(6),830-841。
[27] Kraemer,N.和Sugiyama,M.(2011),“偏最小二乘回归的自由度”,《美国统计协会杂志》106(494)·Zbl 1232.62099号
[28] Krishnan,A.、Williams,L.J.、McIntosh,A.R.和Abdi,H.(2011),“神经成像的偏最小二乘(pls)方法:教程和综述”,《神经图像》56(2),455-475。
[29] Lafaye de Michoaux,P.、Liquet,B.和Sutton,M.(2017),“可扩展到大数据的正则化组PLS的统一并行算法”,ArXiv电子版·Zbl 1431.62249号
[30] LíCao,K.-A.,Rossouw,D.,Robert-Granié,C.&Besse,P.(2008),“稀疏PLS:整合Omics数据时的变量选择”,统计应用与分子生物学7((1):37)·Zbl 1276.62061号
[31] LeCun,Y.和Cortes,C.(2010),“MNIST手写数字数据库”。http://yann.lecun.com/exdb/mnist/
[32] Liang,F.,Shi,R.&Mo,Q.(2016),“大规模矩阵奇异值分解的分裂与合并方法”,《统计学及其接口》9(4),453-459·Zbl 1405.62005号 ·doi:10.4310/SII.2016.v9.n4.a5
[33] Lin,D.,Cao,H.,Calhoun,V.D.&Wang,Y.-P.(2014),“成像和遗传数据相关和综合分析的稀疏模型”,《神经科学方法杂志》237,69-78。
[34] Lindgren,F.&Rännar,S.(1998),“替代偏最小二乘(pls)算法”,《药物发现与设计展望》,第105-113页。
[35] Liquet,B.,Lafaye de Michoaux,P.,Hejblum,B.&Thiébaut,R.(2016),“基因组学背景下应用的群和稀疏群偏最小二乘法”,生物信息学32,35-42。
[36] Liu,J.&Calhoun,V.D.(2014),“成像遗传学中的多元分析综述”,《神经信息学前沿》8(29)。
[37] Lockhart,R.、Taylor,J.、Tibshirani,R.J.和Tibshirani,R.(2014),“套索的显著性检验”,《Ann Stat》42(2),413-468·Zbl 1305.62254号 ·doi:10.1214/13-AOS1175
[38] Lorenzi,M.、Gutman,B.、Hibar,D.P.、Altmann,A.、Jahanshad,N.、Thompson,P.M.和Ourselin,S.(2016),阿尔茨海默病成像遗传学的偏最小二乘建模:可信性和泛化,收录于“2016年IEEE第13届国际生物医学成像研讨会(ISBI)”,第838-841页。
[39] Lütkepohl,H.(2005),《多重时间序列分析的新引入》,柏林斯普林格-Verlag出版社·Zbl 1072.62075号
[40] Mackey,L.W.(2009),稀疏pca的通缩方法,载于D.Koller,D.Schuurmans,Y.Bengio&L.Bottou,eds,“21世纪神经信息处理系统的进展”,Curran Associates,Inc.,第1017-1024页。
[41] Mardia,K.V.、Kent,J.T.和Bibby,J.M.(1979),多元分析/K.V.Mardia、J.T.Kent、J.M.Bibby(伦敦学术出版社);纽约·Zbl 0432.62029号
[42] McIntosh,A.R.,Bookstein,F.L.,Haxby,J.V.和Grady,C.L.(1996),“使用偏最小二乘法对功能性脑图像进行空间模式分析”,NeuroImage 3(3),143-157。
[43] Meyer,C.D.(2000),矩阵分析与应用线性代数,SIAM·Zbl 0962.15001号
[44] Netrapali,P.、Jain,P.和Sanghavi,S.(2015),“使用交替最小化的相位检索”,IEEE信号处理汇刊63(18),4814-4826·Zbl 1394.94421号 ·doi:10.1109/TSP.2015.2448516
[45] Nguyen,D.和Rocke,D.(2002),“使用微阵列基因表达数据通过偏最小二乘进行肿瘤分类”,生物信息学18(1),39-50。
[46] Nicole Kraemer,M.L.B.(2018),《偏最小二乘回归的自由度和统计推断》。R包版本0.2-8。https://CRAN.R-project.org/package=plsdof
[47] Nielsen,F.A.(2002),功能神经成像中的神经信息学,博士论文,丹麦技术大学,林比。
[48] Palermo,R.E.、Patterson,L.J.、Aicher,L.D.、Korth,M.J.和Robert-Guroff,M.&Katze,M.G.(2011),“基因组分析揭示了恒河猴艾滋病疫苗试验中的挑战前和挑战后差异:疫苗效力机制的洞察”,《病毒学杂志》85(2),1099-1116。
[49] Phatak,A.和de Jong,S.(1997),“偏最小二乘几何”,《化学计量学杂志》11(4),311-338·Zbl 0892.62040号
[50] R核心团队(2017),R:统计计算的语言和环境,R统计计算基金会,奥地利维也纳。https://www.R-project.org/
[51] Rohlf,F.J.和Corti,M.(2000),“使用两块偏最小二乘法研究形状的协变量”,《系统生物学》49(4),740-753。
[52] Roon,P.V.、Zakizadeh,J.和Chartier,S.(2014),“分析神经成像数据的偏最小二乘教程”,《心理学定量方法》10(2),200-215。
[53] Rosipal,R.&Krämer,N.(2006),《偏最小二乘法的概述和最新进展》,载于《子空间、潜在结构和特征选择:统计和优化视角研讨会》,第34-51页。
[54] S.E.Leurgans,R.A.Moyeed,B.W.S.(1993),“数据为曲线时的典型相关分析”,《皇家统计学会杂志》。B系列(方法学)55(3),725-740·Zbl 0803.62049号 ·doi:10.1111/j.2517-6161.1993.tb01936.x
[55] Shen,H.&Huang,J.Z.(2008),“通过正则化低秩矩阵近似进行稀疏主成分分析”,《多元分析杂志》99(6),1015-1034·Zbl 1141.62049号 ·doi:10.1016/j.jmva.2007.06.007
[56] Simon,N.、Friedman,J.、Hastie,T.和Tibshirani,R.(2013),“稀疏群套索”,《计算与图形统计杂志》22(2),231-245。
[57] Sutton,M.,Thiebaut,T.&Liquet,B.(2018),“具有组和子组结构的稀疏偏最小二乘法”,《医学统计学》37(23),3338-33356。
[58] Tenenhaus,M.(1998),《人民解放军:巴黎:德希尼布》·Zbl 0923.62058号
[59] ter Braak,C.J.F.和de Jong,S.(1998),“偏最小二乘回归的目标函数”,《化学计量学杂志》12(1),41-54。
[60] Tibshirani,R.(1994),“通过套索进行回归收缩和选择”,《皇家统计学会杂志》,B辑58,267-288·Zbl 0850.62538号 ·doi:10.1111/j.2517-6161.1996.tb02080.x
[61] Tibshirani,R.J.和Taylor,J.(2011),“广义套索的解路径”,《统计年鉴》39(3),1335-1371·Zbl 1234.62107号 ·doi:10.1214/11-AOS878
[62] Tibshirani,R.,Saunders,M.,Rosset,S.,Zhu,J.&K.(2005),“通过融合套索的稀疏性和平滑度”,《皇家统计学会杂志:B辑(统计方法)》67(1),91-108·Zbl 1060.62049号 ·doi:10.1111/j.1467-9868.2005.00490.x
[63] Tibshirani,R.、Tibshirani,R.,Taylor,J.、Loftus,J.和Reid,S.(2017),《选择性推理:选择后推理工具》。R包版本1.2.4。https://CRAN.R-project.org/package=选择推理
[64] Tseng,P.(1988),最大化不可微凹函数的坐标上升,麻省理工学院技术报告。信息和决策系统实验室。马萨诸塞州剑桥市。
[65] Vinod,H.(1976),“联合生产的标准脊和计量经济学”,《计量经济学杂志》4(2),147-166·Zbl 0331.62079号 ·doi:10.1016/0304-4076(76)90010-5
[66] Vinzi,V.,Trinchera,L.&Amato,S.(2010),“Pls路径建模:从基础到最新发展以及模型评估和改进的公开问题”,《偏最小二乘手册》第47-82页。
[67] Wegelin,J.A.(2000),偏最小二乘(pls)方法调查,重点是两块案例,华盛顿大学技术报告。
[68] Witten,D.M.,Tibshirani,R.&Hastie,T.(2009),“惩罚矩阵分解,应用于稀疏主成分和典型相关分析”,生物统计学10(3),515-534·Zbl 1437.62658号
[69] Wold,H.(1966),《用迭代最小二乘法估计主成分和相关模型》,载于《多元分析》,学术出版社,纽约,威利,代顿,俄亥俄州,第391-420页·Zbl 0214.46103号
[70] Wold,S.、Ruhe,A.、Wold,H.和Dunn,W.J.(1984),“线性回归中的共线性问题。广义逆的偏最小二乘法,SIAM科学与统计计算杂志5(3),735-743·Zbl 0545.62044号 ·doi:10.1137/0905052
[71] Wold,S.、Sjöström,m.和Eriksson,L.(2001),“Pls-回归:化学计量学的基本工具”,化学计学和智能实验室系统58(2),109-130。
[72] Yee,T.W.(2018),VGAM:向量广义线性和加法模型。R软件包版本1.0-6。https://CRAN.R-project.org/package=VGAM
[73] Yee,T.W.和Wild,C.J.(1996),“向量广义加性模型”,《皇家统计学会杂志》。B系列(方法学)58(3),481-493。http://www.jstor.org/stable/2345888 ·Zbl 0855.62059号 ·doi:10.1111/j.2517-6161.1996.tb02095.x
[74] Yeniay,O.&Goktas,A.(2002),“偏最小二乘回归与其他预测方法的比较”,《哈塞特普数学与统计杂志》31(99),99-101·Zbl 1029.62061号
[75] Yuan,M.&Lin,Y.(2006),“分组变量回归中的模型选择和估计”,《皇家统计学会杂志:B辑(统计方法)》68(1),49-67·Zbl 1141.62030号 ·doi:10.1111/j.1467-9868.2005302.x
[76] Zeng,Y.和Breheny,P.(2017a),“biglasso包:一个内存和计算效率高的解算器,用于拟合r中的大数据”,ArXiv电子版。https://arxiv.org/abs/1701.05936
[77] Zeng,Y.和Breheny,P.(2017b),《大套索软件包:利用大数据拟合拉索模型的内存和计算效率求解器》,R.R软件包1.3版。https://CRAN.R-project.org/package=biglasso
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。