×

拉索回归的快速有效平滑方法及其在统计遗传学中的应用:慢性阻塞性肺疾病(COPD)的多基因风险评分。 (英语) Zbl 1475.62034号

摘要:高维线性回归问题通常使用拉索方法拟合。尽管Lasso目标函数是凸的,但它不是处处可微的,这使得使用梯度下降方法进行最小化并不简单。为了避免此技术问题,我们将Nesterov平滑应用于原始(未平滑)Lasso目标函数。我们引入了一个封闭形式的光滑拉索函数,它保持了拉索函数的凸性,一致地接近于非光滑拉索,并允许我们通过梯度下降在任何地方获得封闭形式的导数,从而实现高效快速的最小化。我们的模拟研究重点是使用来自慢性阻塞性肺病(COPD)全基因组关联研究(GWAS)的遗传数据进行多基因风险评分。我们将该方法的准确性和运行时间与文献中的当前黄金标准FISTA算法进行了比较。我们的结果表明,与FISTA算法相比,该方法提供的估计具有相同或更高的精度,同时具有相同的渐近运行时缩放。建议的方法在R包中实施平滑拉索,可在综合R档案网络(CRAN)上获得。

理学硕士:

62-08 统计问题的计算方法
62页第10页 统计学在生物学和医学中的应用;元分析
62J07型 岭回归;收缩估计器(拉索)
PDF格式BibTeX公司 XML格式引用
全文: 内政部 内政部

参考文献:

[1] 贝克,A。;Teboulle,M.,线性反问题的快速迭代收缩阈值算法,SIAM成像科学杂志。,183-202年2月1日(2009年)·Zbl 1175.94009号 ·doi:10.1137/080716542
[2] Chi,E.,Goldstein,T.,Studer,C.,Baraniuk,R.:fasta:快速自适应收缩/阈值算法。R-package版本1(2018)
[3] Daubechies,I。;Defrise,M。;Mol,C.,具有稀疏约束的线性反问题的迭代阈值算法,Commun。纯应用程序。数学。,57, 11, 1413-1457 (2004) ·Zbl 1077.65055号 ·doi:10.1002/cpa.20042
[4] 埃夫隆,B。;哈斯蒂,T。;约翰斯通,I。;Tibshirani,R.,《最小角度回归》,《Ann.Stat.》,32,2,407-499(2004)·Zbl 1091.62054号 ·doi:10.1214/009053604000000067
[5] 范,J。;Li,R.,《通过非一致惩罚似然进行变量选择及其预言属性》,美国统计协会,96,456,1348-1360(2001)·Zbl 1073.62547号 ·doi:10.1198/016214501753382273
[6] 弗里德曼,J。;哈斯蒂,T。;Tibshirani,R.,通过坐标下降的广义线性模型的正则化路径,J.Stat.Softw。,33, 1, 1-22 (2010) ·doi:10.18637/jss.v033.i01
[7] Hahn,G.,Banerjee,M.,Sen,B.:连续分段线性回归模型中的参数估计和推断(2017)。http://www.cantab.net/users/ghahn/prints/PhaseRegMultiDim.pdf。2017年3月21日访问
[8] Hahn,G.,Lutz,S.M.,Laha,N.,Lange,C.:平滑LASSO:通过Nesterov平滑平滑LASSO回归。R-package版本1.3(2020)。https://cran.r-project.org/package=smooledLasso。访问日期:2017年3月21日
[9] Hastie,T.,Efron,B.:lars:最小角度回归,套索和向前分段。R-package版本1.2(2013)
[10] Khera,A.V.,Chaffin,M.,Aragam,K.G.,Haas,M.E.,Roselli,C.,Choi,S.H.,Natarajan,P.,Lander,E.S.,Lubitz,S.A.,Ellinor,P.T.,Kathiresan,S.:常见疾病的全基因组多基因评分确定了具有单基因突变风险的个体。自然基因。50, 1219-1224 (2018)
[11] Mak,T。;Porsch,R。;Choi,S。;周,X。;Sham,P.,通过汇总统计的惩罚回归得出的多基因得分,Genet。流行病。,41, 6, 469-480 (2016) ·doi:10.1002/gepi.22505
[12] Michelot,C.,求点在\(mathbb{R}^n)的规范单纯形上的投影的有限算法,J.Optim。理论应用。,50, 1, 195-200 (1986) ·Zbl 0571.90074号 ·doi:10.1007/BF00938486
[13] Nesterov,Y.,求解具有收敛速度的凸规划问题的一种方法\(O(1/k^2)\),Dokl。阿卡德。诺克SSSR,269,3543-547(1983)·Zbl 0535.90071号
[14] Nesterov,Y.,非光滑函数的平滑最小化,数学。程序。序列号。A、 103、127-152(2005)·Zbl 1079.90102号 ·doi:10.1007/s10107-004-0552-5
[15] NHLBI TOPMed:美国国家心脏、肺和血液研究所(NHLBI)Trans-Omics for Precision Medicine(TOPMed)计划中的波士顿早期COPD研究(2018年)。https://www.ncbi.nlm.nih.gov/projects/gap/cgi-bin/study.cgi?study_id=phs000946.v3.p1。2016年10月18日访问
[16] R核心团队:R:统计计算语言和环境。奥地利维也纳R统计公司基金会(2014年)。http://www.R-project.org/。2019年9月2日访问
[17] 里根,E。;霍坎森,J。;J.墨菲。;品牌,B。;林奇,D。;Beaty,T。;Curran-Everett,D。;西尔弗曼,E。;Crapo,J.,慢性阻塞性肺病(copdgene)的遗传流行病学研究设计2,copd,7,32-43(2010)·doi:10.10109/115412550903499522
[18] Tibshirani,R.,《通过套索进行回归收缩和选择》,J.R.Stat.Soc.B Methodol。,58, 1, 267-288 (1996) ·Zbl 0850.62538号
[19] Tibshirani,R.:模型选择和验证1:交叉验证(2013)。网址:https://www.stat.cmu.edu/ryantibs/数据挖掘/讲座/18-val1.pdf。2019年9月2日访问
[20] Wu,T。;陈,Y。;哈斯蒂,T。;索贝尔,E。;Lange,K.,拉索惩罚逻辑回归的全基因组关联分析,生物信息学,25,6,714-721(2009)·doi:10.1093/bioinformatics/btp041
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。