×

用于重建潜在树模型的谱邻域连接。 (英文) Zbl 1468.62301号

摘要:在多种科学应用中,一个常见的假设是,观测数据的分布可以用潜在树图形模型建模。一个重要的例子是系统发育学,树模拟了一组观察到的生物体的进化谱系。给定树叶子上随机变量的一组独立实现,一个关键的挑战是推断底层树拓扑。在这项工作中,我们开发了谱邻接(SNJ),这是一种恢复潜在树图形模型结构的新方法。给定一个包含所有观测变量对之间相似性度量的矩阵,SNJ计算观测变量组之间内聚性的谱度量。我们证明了SNJ是一致的,并从估计的相似矩阵中导出了正确恢复树的充分条件。将此条件与相似矩阵上的度量结果集中相结合,我们以较高的概率限制了恢复树所需的样本数。我们通过大量的模拟表明,与其他几种重建方法相比,SNJ需要更少的样本来准确恢复具有大量叶子或长边的树。

MSC公司:

62H22个 概率图形模型
2005年6月2日 马尔可夫过程:估计;隐马尔可夫模型
62米15 随机过程和谱分析的推断
15甲18 特征值、奇异值和特征向量
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] E.S.Allman、L.S.Kubatko和J.A.Rhodes,《分裂分数:量化基因组尺度数据中系统发育信号的工具》,《系统生物学》。,66(2017年),第620-636页。
[2] E.S.Allman和J.A.Rhodes,《从代数角度看分子系统发育学》,Statist。Sinica(2007),第1299-1316页·Zbl 1132.92019年
[3] A.Anandkumar、K.Chaudhuri、D.J.Hsu、S.M.Kakade、L.Song和T.Zhang,学习多元潜在树结构的光谱方法,《神经信息处理系统进展》,2011年,第2025-2033页。
[4] S.Aris Brosou和L.Excoffier,群体扩张和突变率异质性对DNA序列多态性的影响,分子生物学。演变。,13(1996年),第494-504页。
[5] K.Atteson,《系统发育重建邻接方法的表现》,《算法》,25(1999),第251-278页·Zbl 0938.68747号
[6] D.Bryant,《关于邻接选择标准的唯一性》,《分类杂志》,22(2005),第3-15页·Zbl 1083.62108号
[7] J.H.Camin和R.R.Sokal,《推导系统发育中分支序列的方法》,《进化》,19(1965),第311-326页。
[8] J.A.Cavender和J.Felsenstein,离散状态下简单情况下的系统发育不变量,《分类》,4(1987),第57-71页·Zbl 0612.62142号
[9] 张振堂,进化树上马尔可夫模型的完全重建:可识别性和一致性,数学。生物科学。,137(1996),第51-73页·Zbl 1059.92504号
[10] J.T.Chang和J.A.Hartigan,从当前物种的成对分布重建进化树,摘自《计算科学与统计:第23届界面研讨会论文集》,界面基金会,弗吉尼亚州费尔法克斯站,1991年,第254-257页。
[11] M.J.Choi、V.Y.Tan、A.Anandkumar和A.S.Willsky,《学习潜在树图形模型》,J.Mach。学习。Res.,12(2011),第1771-1812页·Zbl 1280.68160号
[12] W.H.Day和D.Sankoff,通过兼容性推断系统发育的计算复杂性,系统生物学。,35(1986年),第224-229页。
[13] F.Delsuc、H.Brinkmann和H.Philippe,《系统发育学和生命树的重建》,《自然评论遗传学》,6(2005),第361-375页。
[14] R.Durbin、S.R.Eddy、A.Krogh和G.Mitchison,《生物序列分析:蛋白质和核酸的概率模型》,剑桥大学出版社,1998年·Zbl 0929.92010号
[15] P.L.Erdoïs,M.A.Steel,L.A.Székely和T.J.Warnow,几根原木就足以建造(几乎)所有的树(I),随机结构算法,14(1999),第153-184页·Zbl 0945.60004号
[16] N.Eriksson,《使用奇异值分解构建树》,载于《计算生物学代数统计》,L.Pachter和B.Sturmfels主编,剑桥大学出版社,2005年,第347-358页·Zbl 1374.60140号
[17] G.F.Estabrook、F.McMorris和C.A.Meacham,基于四个进化单元子树的无向系统发育树比较,系统动物学,34(1985),第193-200页。
[18] J.Felsenstein,DNA序列的进化树:最大似然方法,J.Molecular Evolution。,17(1981年),第368-376页。
[19] J.Felsenstein,《类推系统发育》,第二版,西诺协会,马萨诸塞州桑德兰,2004年。
[20] J.Fernaández-Saánchez和M.Casanellas,当进化在不同地点和谱系之间异质时,不变量与经典四重奏推断,系统生物学。,65(2016),第280-291页。
[21] W.M.Fitch,《走向定义进化过程:特定树拓扑的最小变化》,《系统生物学》。,20(1971年),第406-416页。
[22] O.Gascuel和M.Steel,《邻接关系》揭示,《分子生物学》。演变。,23(2006),第1997-2000页。
[23] O.Gascuel和M.Steel,基于距离的树木重建的“随机安全半径”,《算法》,74(2016),第1386-1403页·Zbl 1350.92035号
[24] X.Gu,Y.X.Fu和W.H.Li,核苷酸位点间替代率异质性的最大似然估计,分子生物学。演变。,12(1995),第546-557页。
[25] S.Guindon和O.Gascuel,通过最大似然估计大型系统发育的简单、快速和准确算法,《系统生物学》。,52(2003),第696-704页。
[26] M.Hajdinjak、Q.Fu、A.Huöbner、M.Petr、F.Mafessoni、S.Grote、P.Skoglund、V.Narasimham、H.Rougier、I.Crevecoeur等人,《重建尼安德特人晚期的遗传历史》,《自然》,555(2018),第652-656页。
[27] S.Harmeling和C.K.Williams,二进制潜在树的贪婪学习,IEEE Trans。模式分析。机器。智力。,33(2010年),第1087-1097页。
[28] F.Huang、N.Un、J.Perros、R.Chen、J.Sun和A.Anandkumar,可扩展潜在树模型及其在健康分析中的应用,摘自《医疗保健中的机器学习》,NIPS Workshop,2015年。
[29] A.Jaffe、E.Fetaya、B.Nadler、T.Jiang和Y.Kluger,使用依赖分类器的无监督集成学习,Proc。机器。学习。研究,51(2016),第351-360页。
[30] A.Jaffe、B.Nadler和Y.Kluger,在没有标记数据的情况下估计多个分类器的准确性,Proc。机器。学习。研究,38(2015),第407-415页。
[31] A.Jaffe、R.Weiss、S.Carmi、Y.Kluger和B.Nadler,《学习二进制潜在变量模型:张量特征对方法》,载于《第35届机器学习国际会议论文集》,Curran Associates,2018年,第2196-2205页。
[32] F.Jia、N.Lo和S.Y.W.Ho,《站点间建模速率异质性对种内进化速率和时间尺度的系统发育估计的影响》,《公共科学图书馆·综合》,9(2014),第1-8页。
[33] T.Jiang、P.Kearney和M.Li,从四重拓扑推断进化树的多项式时间近似方案及其应用,SIAM J.Compute。,30(2001),第1942-1961页,https://doi.org/10.1137/S0097539799361683。 ·Zbl 0980.68055号
[34] K.S.John、T.Warnow、B.M.Moret和L.Vawter,《系统发育方法的性能研究:(未加权)四重方法和邻域连接》,《算法》,48(2003),第173-193页·Zbl 1079.68646号
[35] T.H.Jukes和C.R.Cantor,蛋白质分子的进化,哺乳动物蛋白质代谢,3(1969年),第21-132页。
[36] M.R.Lacey和J.T.Chang,通过邻居连接进行系统发育估计的信噪比分析:多项式长度序列的不足,数学。生物科学。,199(2006),第188-215页·Zbl 1086.92039号
[37] J.A.Lake,从DNA和蛋白质序列重建进化树:平行距离,Proc。国家。阿卡德。科学。美国,91(1994),第1455-1459页。
[38] R.S.Lanciotti、A.J.Lambert、M.Holodniy、S.Saavedra和L.del Carmen Castillo Signor,西半球寨卡病毒的系统发育,2015年,新兴传染病,22(2016),第933-935页。
[39] R.Mihaescu、D.Levy和L.Pachter,《为什么邻里连接工作》,《算法》,54(2009),第1-24页·Zbl 1187.68683号
[40] E.Mossel和S.Roch,学习非奇异系统发育和隐马尔可夫模型,第37届ACM计算理论研讨会论文集,2005年,第366-375页·Zbl 1192.68394号
[41] R.Mourad、C.Sinoquet、N.L.Zhang、T.Liu和P.Leray,《潜在树模型和应用调查》,《人工智能研究杂志》,47(2013),第157-203页·Zbl 1270.68097号
[42] M.Nei和S.Kumar,《分子进化与系统发育》,牛津大学出版社,2000年。
[43] F.Parisi、F.Strino、B.Nadler和Y.Kluger,在没有标记数据的情况下对多个预测因子进行排名和组合,Proc。国家。阿卡德。科学。美国,111(2014),第1253-1258页·Zbl 1359.62259号
[44] Y.Pauplin,使用距离矩阵直接计算树长,J.Molecular Evol。,51(2000),第41-47页。
[45] J.Pearl和M.Tarsi,《构建因果树》,《复杂性杂志》,2(1986年),第60-77页·Zbl 0589.68060号
[46] B.Rannala和Z.Yang,分子进化树的概率分布:一种新的系统发育推断方法,J.molecular Evolution。,43(1996),第304-311页。
[47] V.Ranwez和O.Gascuel,基于四分体的系统发育推断:改进和限制,分子生物学。演变。,18(2001),第1103-1116页。
[48] J.A.Rhodes,树的拓扑度量和树推理的新四重奏方法,IEEE/ACM Trans。计算。生物信息学。,17(2020年),第2107-2118页。
[49] S.Roch,用最大似然法重建系统发育树是困难的一个简短证明,IEEE/ACM Trans。计算。生物信息学。,3(2006年),第92-94页。
[50] J.P.Rusinko和B.Hipp,基于不变量的四重奏困惑,算法分子生物学。,7 (2012), 35.
[51] N.Saitou和M.Nei,邻接法:重建系统发育树的新方法,分子生物学。演变。,4(1987年),第406-425页。
[52] C.Semple和M.Steel,《系统发育学》,牛津大学。数学。申请。24,牛津大学出版社,2003年·Zbl 1043.92026
[53] A.B.Smith,《生根分子树:问题与策略》,《生物学》。《林奈学会期刊》,第51期(1994年),第279-292页。
[54] S.Snir、T.Warnow和S.Rao,《令人困惑的短四重奏:一种新的基于四重奏的系统发育重建算法》,J.Compute。《生物学》,15(2008),第91-103页。
[55] R.R.Sokal,《评估系统关系的统计方法》,堪萨斯大学。公牛。,38(1958),第1409-1438页。
[56] A.Stamatakis,RAxML-VI-HPC:基于千余种分类群和混合模型的最大似然系统发育分析,生物信息学,22(2006),第2688-2690页。
[57] M.Steel,《系统发育:进化中的离散和随机过程》,SIAM,2016年,https://doi.org/10.1137/1.9781611974485。 ·Zbl 1361.92001号
[58] K.Strimmer和A.von Haeseler,n-分类单元树邻接的准确性,系统生物学。,45(1996),第516-523页。
[59] K.Strimmer和A.Von Haeseler,《令人困惑的四重奏:重建树拓扑的四重唱最大似然方法》,《分子生物学》。演变。,13(1996),第964-969页。
[60] J.Sukumaran和M.T.Holder,《Dendropy:进化计算的Python库》,生物信息学,26(2010),第1569-1571页。
[61] E.Susko、Y.Inagaki和A.J.Roger,《关于替代过程建模错误时邻接、最小二乘和最小进化估计的不一致性》,《分子生物学》。演变。,21(2004),第1629-1642页。
[62] K.Tamura、M.Nei和S.Kumar,使用邻居连接方法推断非常大的系统发育的前景,Proc。国家。阿卡德。科学。美国,101(2004),第11030-11035页。
[63] P.J.Waddell和M.Steel,跨位点速率不等的一般时间可逆距离:具有不变位点的混合(γ)和逆高斯分布,分子系统发育进化。,8(1997年),第398-414页。
[64] J.Wakeley,《联合理论:导论》,W.H.Freeman,2009年·Zbl 1366.92001号
[65] M.Wilkinson、J.O.McInerney、R.P.Hirt、P.G.Foster和T.M.Embley,《分支和宗族:无根树的系统发育关系术语》,Trends Ecol。演变。,22(2007),第114-115页。
[66] Z.Yang和B.Rannala,《分子系统发育学:原理与实践》,《自然评论遗传学》,13(2012),第303-314页。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。