×

通过自适应Lasso进行非分叉系统发育树推断。 (英语) Zbl 1464.62480号

摘要:使用深度DNA测序进行的系统发生树推断正在重塑我们对快速进化系统的理解,例如病毒与免疫系统之间的宿主内战斗。密集采样的系统发育树可能包含特殊特征,包括采样的祖先其中我们对基因型及其直系后代进行测序,并且多胞胎多个后代同时出现的。在树中识别出零长度的分支后,这些特征很明显。然而,当前基于最大似然的方法无法揭示此类零长度分支。在本文中,我们通过引入系统发育树分支长度的自适应LASSO型正则化估计量,导出它们的性质,并表明正则化是一种实用的系统发育学方法,从而找到了这些零长分支。

MSC公司:

62页第10页 统计学在生物学和医学中的应用;元分析
62层35 鲁棒性和自适应程序(参数推断)
2007年6月62日 岭回归;收缩估计器(拉索)
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] 阿加瓦尔,A。;内加班,S。;Wainwright,M.J.,高维统计恢复梯度方法的快速全局收敛速度,神经信息处理系统进展,37-45(2010)
[2] 奥尔曼,E.S。;阿内,C。;Rhodes,J.A.,“具有伽马分布率的分子进化马尔可夫模型的可识别性,应用概率的进展,40,229-249(2008)·Zbl 1139.60335号 ·doi:10.1239/aap/1208358894
[3] 奥尔曼,E.S。;Rhodes,J.A.,“确定具有不变位点的一般马尔可夫模型的进化树和替代参数,数学生物科学,211,18-33(2008)·Zbl 1130.92039号 ·doi:10.1016/j.mbs.2007.09.001
[4] 贝克,A。;Teboulle,M.,“线性反问题的快速迭代收缩阈值算法,SIAM成像科学杂志,2183-202(2009)·兹比尔1175.94009 ·doi:10.1137/080716542
[5] Beyer,W.A。;斯坦因,M.L。;史密斯,T.F。;Ulam,S.M.,“分子序列度量和进化树,数学生物科学,19,9-25(1974)·Zbl 0273.92004号 ·doi:10.1016/0025-5564(74)90028-5
[6] Bickel,P.J。;里托夫,Y。;Tsybakov,A.B.,“Lasso和Dantzig选择器的同步分析,统计年鉴,371705-1732(2009)·Zbl 1173.62022号 ·doi:10.1214/08-AOS620
[7] Bühlmann,P。;Meier,L.,“讨论:非因果惩罚似然模型中的一步稀疏估计”,《统计年鉴》,第36期,第1534-1541页(2008年)·Zbl 1282.62096号 ·doi:10.1214/07-AOS0316A
[8] Chang,J.T.,“进化树上马尔可夫模型的完全重建:可识别性和一致性,数学生物科学,137,51-73(1996)·兹比尔1059.92504 ·doi:10.1016/S0025-5564(96)00075-2
[9] Chen,R。;Holmes,E.C.,“人类流感B病毒的进化动力学,分子进化杂志,66,655-663(2008)·doi:10.1007/s00239-008-9119-z
[10] 组合,P.L。;Wajs,V.R.,“近距离前后分裂信号恢复,多尺度建模与仿真,41168-1200(2006)·Zbl 1179.94031号 ·数字对象标识代码:10.1137/050626090
[11] Dinh,V。;舱底,A。;张,C。;马森,F.A.IV,1009-1018(2017)
[12] Dinh,V.C。;Ho,L.S.T。;Nguyen,B。;Nguyen,D.,《快速学习率与重尾损失》,神经信息处理系统进展,505-513(2016)
[13] Dinh,V。;Ho,L.S.T。;Suchard,医学硕士。;Matsen,F.A.IV,“通过正则化进行系统发育推断的一致性和收敛速度,《统计年鉴》,46,1481(2018)·Zbl 1395.05036号 ·doi:10.1214/17-AOS1592
[14] 埃夫隆,B。;哈斯蒂,T。;约翰斯通,I。;Tibshirani,R.,“最小角度回归,统计年鉴,32407-499(2004)·Zbl 1091.62054号 ·doi:10.1214/009053604000000067
[15] 埃文斯,S.N。;Speed,T.P.,“用于系统发育推断的某些概率模型的不变量,统计年鉴,21,355-377(1993)·Zbl 0772.92012号 ·doi:10.1214/aos/1176349030
[16] 范,J。;Li,R.,“通过非证实惩罚可能性及其Oracle属性进行变量选择”,《美国统计协会杂志》,96,1348-1360(2001)·Zbl 1073.62547号 ·doi:10.1198/016214501753382273
[17] 范,J。;薛,L。;Zou,H.,“折叠凹面惩罚估计的强Oracle最优性,统计年鉴,42,819(2014)·Zbl 1305.62252号 ·doi:10.1214/13-aos1198
[18] Felsenstein,J.,“来自DNA序列的进化树:最大似然方法”,《分子进化杂志》,17,368-376(1981)·doi:10.1007/BF01734359
[19] 惠誉,W.M。;Margoliash,E.,“系统发生树的构建,科学,155279-284(1967)·doi:10.1126/science.155.3760.279
[20] Foster,P.G.,“成分异质性建模,系统生物学,53485-495(2004)·doi:10.1080/106351150490445779
[21] J.加迪。;新泽西州洛曼。;Rambaut,A.,“实时数字病原体监测——现在是时候,基因组生物学,16,155(2015)·doi:10.1186/s13059-015-0726-x
[22] Gavryushkina,A。;Heath,T.A。;Ksepka,D.T。;斯塔德勒,T。;韦尔奇,D。;Drummond,A.J.,“贝叶斯全证据年代测定揭示了企鹅最近的冠层辐射”,《系统生物学》,66,57-73(2016)
[23] Gavryushkina,A。;韦尔奇,D。;斯塔德勒,T。;Drummond,A.J.,“用于流行病学和化石校准的样本祖先树的贝叶斯推断,公共科学图书馆计算生物学,10,e1003919(2014)·doi:10.1371/journal.pcbi.1003919
[24] 乔治奥,G。;伊波利托,G.C。;Beausang,J。;Busse,C.E。;沃德曼,H。;Quake,S.R.,“抗体库高通量测序的前景和挑战”,《自然生物技术》,32,158(2014)·doi:10.1038/nbt.2782
[25] 高盛,N。;J.P.安德森。;Rodrigo,A.G.,“系统发育学中基于似然数的拓扑测试,系统生物学,49,652-670(2000)·doi:10.1080/106351500750049752
[26] 格伦费尔,B.T。;Pybus,O.G。;Gog,J.R。;伍德,J.L.N。;Daly,J.M。;Mumford,J.A。;Holmes,E.C.,“统一病原体的流行病学和进化动力学,科学,303,327-332(2004)·数字对象标识代码:10.1126/science.1090727
[27] 哈德菲尔德,J。;梅吉尔,C。;贝尔,S.M。;哈德斯顿,J。;波特,B。;Callender,C。;萨古连科,P。;贝德福德,T。;Neher,R.A.,“下一菌株:病原体进化的实时跟踪,生物信息学,34,4121-4123(2018)·doi:10.1093/bioinformatics/bty407
[28] 亨特·D·R。;Li,R.,“使用MM算法的变量选择,统计年鉴,33,1617(2005)·Zbl 1078.62028号 ·doi:10.1214/009053605000000200
[29] 杰克曼,T.R。;Larson,A。;de Queiroz,K。;Losos,J.B.,“Anolis Lizards的系统发育关系和早期多样化的时间,系统生物学,48254-285(1999)·doi:10.1080/106351599260283
[30] 季S。;科尔拉尔,J。;Shiffman,B.,“代数多样性的全局Łojasiewicz不等式”,《美国数学学会学报》,329813-818(1992)·Zbl 0762.14001号 ·doi:10.2307/2153965
[31] Jukes,T.H。;康托,C.R。;Munro,H.N.,“哺乳动物蛋白质代谢,3,蛋白质分子的进化,21-132(1969),纽约:学术出版社,纽约
[32] Kim,J。;Sanderson,M.J.,“惩罚似然系统发育推断:弥合节俭似然差距”,系统生物学,57665-674(2008)·doi:10.1080/10635150802422274
[33] Kim,Y。;Choi,H。;Oh,H.-S.,“高维上平滑剪裁的绝对偏差,美国统计协会杂志,103,1665-1673(2008)·Zbl 1286.62062号 ·doi:10.1198/01621450080001066
[34] Kleinstein,S.H。;Louzoun,Y。;Shlomchik,M.J.,“从克隆树数据估计高突变率”,免疫学杂志,1714639-4649(2003)·doi:10.4049/jimmunol.171.9.4639
[35] Kuiken,C。;瑟蒙德,J。;Dimitrijevic,M。;Yoon,H.,“LANL出血热病毒数据库,分析生物威胁病毒的新平台,核酸研究,40,D587-D592(2012)·doi:10.1093/nar/gkr898
[36] 刘易斯,P.O。;霍尔德,M.T。;Holsinger,K.E.,“多原子和贝叶斯系统发育推断,系统生物学,54,241-253(2005)·doi:10.1080/10635150590924208
[37] 刘易斯,P.O。;霍尔德,M.T。;Swofford,D.L.,“Phycas:贝叶斯系统发育分析软件,系统生物学,64,525-531(2015)·doi:10.1093/sysbio/syu132
[38] 利宾,P。;Vanden Eynden,E。;Incardona,F。;Nowé,A。;Bezenchek,A。;EucoHIV研究组;Sönnerburg,A。;范达姆,A.-M。;Theys,K。;Baele,G.,“PhyloGeoTool:在流行病学背景下交互式探索大型系统发育,生物信息学,33,3993-3995(2017)·doi:10.1093/bioinformatics/btx535
[39] 刘,Y。;詹,Z。;蔡建芳(Cai,J.F.)。;郭,D。;陈,Z。;Qu,X.,“压缩传感磁共振成像中紧框架的投影迭代软阈值算法,IEEE医学成像汇刊,35,2130-2140(2016)·doi:10.1109/TMI.2016.2550080
[40] Loh,P.-L.,“高维稳健M-估计的统计一致性和渐近正态性,统计年鉴,45866-896(2017)·Zbl 1371.62023号
[41] Loh,P.-L。;Wainwright,M.J.,“含噪声和缺失数据的高维回归:非凸性的可证明保证,神经信息处理系统的进展,2726-2734(2011)
[42] Loh,P.-L。;Wainwright,M.J.,“非凸正则M-估计:局部最优的统计和算法理论,神经信息处理系统的进展,476-484(2013)
[43] Loh,P.-L。;Wainwright,M.J.,“没有不一致性的支持恢复:非凸正则化案例”,《统计年鉴》,452455-2482(2017)·Zbl 1385.62008号
[44] Mazumder,R。;弗里德曼,J.H。;Hastie,T.,“SparseNet:与非凸惩罚协调下降”,《美国统计协会杂志》,1061125-1138(2011)·兹比尔1229.62091 ·doi:10.1198/jasa.2011.tm09738
[45] 明绍森,N。;Bühlmann,P.,“高维图和拉索变量选择,统计年鉴,341436-1462(2006)·Zbl 1113.62082号 ·doi:10.1214/0090536000000281
[46] 明绍森,N。;Yu,B.,“高维数据稀疏表示的Lasso类型恢复,统计年鉴,37,246-270(2009)·Zbl 1155.62050号 ·doi:10.1214/07-AOS582
[47] Negahban,S.N。;拉维库马尔,P。;温赖特,M.J。;Yu,B.,“利用可分解正则化器对M估计进行高维分析的统一框架,统计科学,27538-557(2012)·Zbl 1331.62350号 ·doi:10.1214/12-STS400
[48] Neher,R.A。;Bedford,T.,“下一次流感:人类季节性流感病毒进化的实时跟踪,生物信息学,313546-3548(2015)·doi:10.1093/bioinformatics/btv381
[49] 奥多诺休,B。;Candes,E.,“加速梯度方案的自适应重启,计算数学基础,15,515-732(2013)·Zbl 1320.90061号 ·doi:10.1007/s10208-013-9150-3
[50] 潘,Z。;Zhang,C.,“通过非凸正则回归进行稀疏估计的松弛稀疏特征值条件,模式识别,48,231-243(2015)·兹伯利06805405 ·doi:10.1016/j.patcog.2014.06.018
[51] 伦奎斯特,F。;Teslenko,M。;范德马克,P。;艾尔斯,D.L。;亲爱的A。;Höhna,S。;Larget,B。;刘,L。;Suchard,医学硕士。;Huelsenbeck,J.P.,“MrBayes 3.2:跨大模型空间的有效贝叶斯系统发育推断和模型选择,系统生物学,61539-542(2012)·doi:10.1093/sysbio/sys029
[52] Stamatakis,A.,“RAxML第8版:大系统发育的系统发育分析和后分析工具,生物信息学,30,1312-1313(2014)·doi:10.1093/bioinformatics/btu033
[53] Susko,E.,“使用似然方法测试两棵树,分子生物学和进化,311029-1039(2014)·doi:10.1093/molbev/msu039
[54] Swofford,D.L。;奥尔森,G.J。;Waddell,P.J。;希利斯,D.M。;希利斯,D.M。;莫里茨,C。;梅布尔,B.K。;Olmstead,R.G.,《分子系统学,系统发育推断》,407-514(1996),马萨诸塞州桑德兰:西诺协会,马萨诸纳州桑德兰
[55] Tibshirani,R.,“通过拉索进行回归收缩和选择,皇家统计学会期刊,B辑,58,267-288(1996)·Zbl 0850.62538号 ·doi:10.1111/j.2517-6161.1996.tb02080.x
[56] Van Erven,T。;Grünwald,医学博士。;新墨西哥州梅塔。;医学博士里德。;Williamson,R.C.,“统计和在线学习的快速速度”,《机器学习研究杂志》,第16期,1793-1861页(2015年)·Zbl 1351.68244号
[57] 维克多·G·D。;Nussenzweig,M.C.,“生殖中心,免疫学年度回顾,30429-457(2012)·doi:10.1146/annurev-immunol-020711-075032
[58] H.E.沃尔什。;基德,M.G。;穆姆·T。;Friesen,V.L.,“多原子和系统发育推断的力量,进化,53932-937(1999)·doi:10.1111/j.1558-5646.1999.tb05386.x
[59] 王,L。;Kim,Y。;Li,R.,“超高维非凸惩罚回归的校准”,《统计年鉴》,412505(2013)·Zbl 1281.62106号 ·doi:10.1214/13-AOS1159
[60] 张,C.-H。;Huang,J.,“高维线性回归中拉索选择的稀疏性和偏差”,《统计年鉴》,36,1567-1594(2008)·Zbl 1142.62044号 ·doi:10.1214/07-AOS520
[61] 张,C.-H。;Zhang,T.,“高维稀疏估计问题的凹正则化的一般理论,统计科学,27576-593(2012)·Zbl 1331.62353号 ·doi:10.1214/12-STS399
[62] 赵,P。;Yu,B.,“关于Lasso的模型选择一致性,机器学习研究杂志,72541-2563(2006)·Zbl 1222.62008年
[63] Zou,H.,“适应性套索及其甲骨文属性”,《美国统计协会杂志》,第101期,第1418-1429页(2006年)·Zbl 1171.62326号 ·doi:10.1198/016214500000735
[64] 邹,H。;Li,R.,“非因果惩罚似然模型中的一步稀疏估计,统计年鉴,36,1509(2008)·Zbl 1142.62027号 ·doi:10.1214/0090536007000000802
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。