×

利用基因树聚类进行多点系统发育分析。 (英语) Zbl 1425.92145号

总结:理论和经验证据都表明,不同基因(位点)的系统发育树并没有显示精确匹配的拓扑结构。尽管如此,大多数基因确实显示出相关的系统发育;这意味着它们形成了内聚子集(集群)。在这项工作中,我们讨论了基因树聚类,重点讨论了规范化切割(Ncut)框架作为一种适用于系统发育学的方法。我们进一步表明,当使用Billera-Holmes-Vogtmann树空间上基因树之间的测地距离对其进行聚类时,该框架是有效的,并且在统计上是准确的。我们还对不同聚类方法在不同距离度量下的性能进行了计算研究,包括预处理和未预处理,以及使用一系列降维技术。我们的模拟数据结果表明,Ncut在合并过程中对给定的物种树准确地聚类基因树集。从我们的计算研究中观察到的其他结果包括,在大多数降维方案下,Ncut和(k)-均值所表现出的相似性能,层次聚类的性能较差,以及具有(p)的邻域连接方法的性能显著更好-与最大似然估计方法相比的距离。本工作中使用的补充材料、所有代码和数据可在以下网站免费获取:http://polytopes.net/research/cluster/online.

MSC公司:

92D15型 与进化有关的问题
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Abascal,F.和Valencia,A.(2002年)。用于蛋白质家族鉴定的近端序列空间聚类。生物信息学,18(7),908-921·doi:10.1093/bioinformatics/18.7.908
[2] Amemiya,C.T.,Alföldi,J.等人(2013年)。非洲腔棘鱼基因组提供了四足动物进化的见解。《自然》,496311-316·doi:10.1038/nature12027
[3] Betancur,R.、Li,C.、Munroe,T.、Ballesteros,J.和Ortí,G.(2013)。解决基因树的不一致性和非唯一性,以解决比目鱼(硬骨纲:侧耳目)的多基因座系统发育。系统生物学。doi:10.1093/sysbio/syt039。
[4] Billera,L.、Holmes,S.和Vogtmann,K.(2001)。系统发育树空间的几何学。应用数学进展,27(4),733-767·Zbl 0995.92035号 ·doi:10.1006/aama.2001.0759
[5] Bininda-Emonds,O.,Gittleman,J.,&Steel,M.(2002)。生命之树:程序、问题和前景。《生态学与系统学年度评论》,33265-289·doi:10.1146/annurev.ecolsys.33.010802.150511
[6] Bollback,J.和Huelsenbeck,J.(2009年)。噬菌体物种内部和之间不同程度分歧的平行遗传进化。遗传学,181(1),225-234·doi:10.1534/genetics.107.085225
[7] Brito,P.和Edwards,S.(2009年)。使用基于序列的标记的多基因座系统地理学和系统发育学。Genetica,135,439-455·doi:10.1007/s10709-008-9293-3
[8] Carbarlido-Gamio,J.、Belongie,S.和Majumdar,S.(2004)。脊柱MRI分割的三维标准化切割。IEEE医学成像学报,23(1),36-44·doi:10.1109/TMI.2003.819929
[9] Carling,M.和Brumfield,R.(2008年)。整合多个基因座的系统发育和种群遗传分析,以测试雀形目鸟类的物种分化假设。遗传学,178363-377·doi:10.1534/genetics.107.076422
[10] Chatterji,S.、Yamazaki,I.、Bai,Z.和Eisen,J.A.(2008)。堆肥箱:一种基于DNA合成的算法,用于装箱环境枪读取。M.Vingron&L.Wong(编辑),《计算分子生物学研究》(第17-28页)。柏林:斯普林格。
[11] Chen,D.、Burleigh,G.J.和Fernández-Bacha,D.(2007)。基于相容性的系统发育数据集的谱划分。系统生物学,56(4),623-632·doi:10.1080/10635150701499571
[12] Cox,I.J.、Rao,S.B.和Zhong,Y.(1996)。“比率区域”:一种图像分割技术。1996年,第13届模式识别国际会议记录,第2卷(第557-564页)。电气与电子工程师协会。
[13] Dasarathy,G.、Nowak,R.和Roch,S.(2015)。多基因座系统发育推断的数据要求:一种新的距离方法。IEEE/ACM计算生物学和生物信息学汇刊,122,422-432·doi:10.1109/TCBB.2014.2361685
[14] Edwards,S.(2009)。新的一般分子系统学理论正在兴起吗?进化,63,1-19·文件编号:10.1111/j.1558-5646.2008.00549.x
[15] Everitt,B.、Landau,S.、Leese,M.和Stahl,D.(2011年)。聚类分析(第5版)。伦敦:威利·Zbl 1274.62003年 ·doi:10.1002/9780470977811
[16] Felsenstein,J.(1981)。DNA序列进化树:最大似然法。分子进化杂志,17,368-376·doi:10.1007/BF01734359
[17] Fritzsch,B.(1987年)。腔棘鱼乳汁鱼的内耳具有四足亲合性。《自然》,327153-154·数字对象标识代码:10.1038/327153a0
[18] Gori,K.、Suchan,T.、Alvarez,N.、Goldman,N.和Dessimoz,C.(2015)。共同进化历史的集群基因。预印。arXiv:1510.02356。
[19] Gorr,T.、Kleinschmitt,T.和Fricke,H.(1991)。血红蛋白序列显示腔棘鱼乳虫的紧密四足关系。《自然》,351,394-397·数字对象标识代码:10.1038/351394a0
[20] Gretton,A.,Smola,A.J.,Bousquet,O.,Herbrich,R.,Belitski,A.,Augath,M.等人(2005年)。依赖性度量的核约束协方差。第十届人工智能与统计国际研讨会论文集。
[21] Guindon,S.和Gascuel,O.(2003)。一种简单、快速、准确的算法,用于通过最大似然估计大型系统发育。系统生物学,52(5),696-704·doi:10.1080/10635150390235520
[22] Hartigan,J.(1975)。聚类算法。伦敦:威利·Zbl 0321.62069号
[23] Hasegawa,M.、Kishino,H.和Yano,T.(1985年)。线粒体dna分子钟测定人类分裂的年代。《分子进化杂志》,22,160-174·doi:10.1007/BF02101694
[24] Haws,D.、Huggins,P.、O'Neill,E.M.、Weisrock,D.W.和Yoshida,R.(2012)。基于支持向量机的树空间中树集不一致性测试。BMC生物信息学,13,210。doi:10.1186/1471-2105-13-210·数字对象标识代码:10.1186/1471-2105-13-210
[25] Hedges,S.(2009年)。脊椎动物(脊椎动物)。S.B.Hedges和S.Kumar(编辑),《生命的时间树》(第309-314页)。柏林:Springer-Verlag。
[26] Heled,J.和Drummond,A.(2011年)。基于多点数据的物种树贝叶斯推断。分子生物学与进化,27(3),570-580·doi:10.1093/molbev/msp274
[27] Hess,J.和Goldman,N.(2011年)。在最大似然系统发育分析中解决基因间异质性:酵母回顾。公共科学图书馆一期,6,e22783·doi:10.1371/journal.pone.0022783
[28] Higham,D.、Kalna,G.和Kibble,M.(2007年)。光谱聚类及其在生物信息学中的应用。计算与应用数学杂志,204(1),25-37。(在大野信之助教授65岁生日之际发行特别版)·Zbl 1123.65024号 ·doi:10.1016/j.cam.2006.04.026
[29] Hochbaum,D.S.(2010年)。比率区域和标准化切割变量的多项式时间算法。IEEE模式分析和机器智能汇刊,32(5),889-898·doi:10.1109/TPAMI.2009.80
[30] Hochbaum,D.S.(2013)。离散变量瑞利比的多项式时间算法:替换扩展器比、归一化切割和奇格常数的谱技术。运筹学,61(1),184-198·Zbl 1267.90149号 ·doi:10.1287/opre.1120.1126
[31] 霍姆斯,S。;Gascuel,O.(编辑),涉及系统发育测试的统计方法,91-117(2005),纽约·Zbl 1090.62123号
[32] Huson,D.H.、Klopper,T.、Lockhart,P.J.和Steel,M.A.(2005年)。从基因树重建网状网络。S.Miyano、J.Mesirov、S.Kasif、S.Istrail、P.A.Pevzner和M.Waterman(编辑),《计算分子生物学研究》,会议记录(第233-249页)。柏林:斯普林格·Zbl 1119.92353号
[33] Jeffroy,O.、Brinkmann,H.、Delsuc,F.和Philippe,H.(2006)。系统基因组学:不一致的开始?《遗传学趋势》,22,225-231·doi:10.1016/j.tig.2006.02.003
[34] Jukes,T。;康托,C。;Munro,H.(编辑),《蛋白质分子的进化》,21-32(1969年),纽约·doi:10.1016/B978-1-4832-3211-9.50009-7
[35] Kimura,M.(1980)。通过核苷酸序列的比较研究估算碱基替代进化速率的简单方法。《分子进化杂志》,第16期,第111-120页·doi:10.1007/BF01731581
[36] Leigh,J.W.、Lapointe,F.-J.、Lopez,P.和Bapteste,E.(2011年)。评估后基因组时代的系统发育一致性。基因组生物学与进化,3571-587·doi:10.1093/gbe/evr050
[37] Liang,D.,Shen,X.,&Zhang,P.(2013)。来自全基因组调查的1290个核基因支持肺鱼作为四足动物的姐妹群。分子生物学与进化,30(8),1803-1807·doi:10.1093/molbev/mst072
[38] Liu,K.,Raghavan,S.,Nelesen,S.、Linder,C.和Warnow,T.(2009年)。快速准确的大规模序列比对和系统发育树的联合估计。科学,3241561-1564·doi:10.1126/science.1171243
[39] Maddison,W.P.(1997)。物种树中的基因树。系统生物学,46(3),523-536·doi:10.1093/sysbio/46.3.523
[40] Maddison,W.P.和Maddison,D.(2009年)。梅斯基特:一个用于进化分析的模块化系统。2.72版。可在http://mesquiteproject.org。
[41] Maimon,O.和Rokach,L.(2005)。数据挖掘和知识发现手册(第2卷)。柏林:斯普林格·Zbl 1087.68029号 ·doi:10.1007/b107408
[42] Martin,A.P.和Burg,T.M.(2002年)。寄生虫学的危险:使用HSP70基因推断生物系统发育。系统生物学,51,570-587·doi:10.1080/1063515029006995
[43] Miller,E.、Owen,M.和Provan,J.S.(2015)。平均度量系统发育树。应用数学进展,68,51-91·Zbl 1329.68266号 ·doi:10.1016/j.aam.2015.04.002
[44] Mirarab,S.、Bayzid,M.S.、Boussau,B.和Warnow,T.(2014)。统计装箱可以对鸟类树进行准确的基于合并的估计。《科学》,346(6215),1250463·数字对象标识代码:10.1126/science.1250463
[45] Newman,M.E.J.(2013)。社区检测和图形划分的谱方法。物理评论E,88,042822·doi:10.10103/物理版本E.88.042822
[46] Neyman,J.(1971)。进化的分子研究:新统计问题的来源。S.S.Gupta和J.Yackel(编辑),统计决策理论和相关主题(第1-27页)。纽约:学术出版社·Zbl 0231.62010号
[47] Owen,M.和Provan,J.S.(2011年)。在树空间中计算测地线距离的快速算法。IEEE/ACM计算生物学和生物信息学汇刊(TCBB),8(1),2-13·doi:10.1109/TCBB.2010.3
[48] Pamilo,P.和Nei,M.(1988年)。基因树和物种树之间的关系。分子生物学与进化,5568-583。
[49] Posada,D.和Crandall,K.(2002年)。重组对系统发育重建准确性的影响。《分子进化杂志》,54,396-402·doi:10.1007/s00239-001-0034-9
[50] Rivera,M.C.、Jain,R.、Moore,J.E.和Lake,J.A.(1998年)。两种功能不同的基因类别的基因组证据。《美利坚合众国国家科学院院刊》,95(11),6239-6244·doi:10.1073/pnas.95.11.6239
[51] Robinson,D.和Foulds,L.(1981)。系统发育树的比较。数学生物科学,53131-147·Zbl 0451.92006号 ·doi:10.1016/0025-5564(81)90043-2
[52] Roch,S.,&Steel,M.(2015)。基于对齐连接的似然树重建可能会产生误导。理论种群生物学,10056-62·Zbl 1331.92111号 ·doi:10.1016/j.tpb.2014.12.005
[53] Saitou,N.和Nei,M.(1987年)。邻居连接法:一种重建系统发育树的新方法。分子生物学与进化,4(4),406-425。
[54] Salichos,L.和Rokas,A.(2013年)。推断古代差异需要具有强烈系统发育信号的基因。《自然》,497327-331·doi:10.1038/nature12130
[55] Schölkopf,B.、Smola,A.和Müller,K.-R(1998)。非线性分量分析作为一个核特征值问题。神经计算,101299-1319·doi:10.11162/08997698300017467
[56] Sharon,E.、Galun,M.、Sharon,D.、Basri,R.和Brandt,A.(2006年)。视觉场景分割的层次性和自适应性。《自然》,442(7104),810-813·doi:10.1038/nature04977
[57] Shi,J.和Malik,J.(2000)。标准化切割和图像分割。IEEE模式分析和机器智能汇刊,22(8),888-905·数字对象标识代码:10.1109/34.868688
[58] Takahata,N.(1989)。3个相关种群的基因谱系:基因树和种群树的一致性概率。遗传学,122957-966。
[59] Takahata,N.和Nei,M.(1990年)。主要组织相容性复合物基因座的超显性和频率依赖性选择下的等位基因系谱和多态性。遗传学,124967-978。
[60] Takezaki,N.、Figueroa,F.、Zaleska-Rutchynska,Z.、Takahata,N.和Klein,J.(2004)。通过44个核基因的序列揭示了四足类、腔棘鱼和肺鱼的系统发育关系。分子生物学与进化,211512-1524·doi:10.1093/molbev/sh150
[61] Tavare,S.(1986)。DNA序列分析中的一些概率和统计问题。生命科学中的数学讲座,17,57-86·Zbl 0587.92015号
[62] Taylor,J.W.、Jacobson,D.J.、Kroken,S.、Kasuga,T.、Geiser,D.M.、Hibbett,D.S.等人(2000年)。真菌中的系统发育物种识别和物种概念。真菌遗传学和生物学,31,21-32·doi:10.1006/fgbi.000.1228
[63] Thompson,K.和Kubatko,L.(2013)。在全基因组关联研究中使用祖先信息检测和定位数量性状位点。BMC生物信息学,14200·doi:10.1186/1471-2105-14-200
[64] van der Maaten,L.和Hinton,G.(2008)。使用t-SNE可视化高维数据。机器学习研究杂志,92579-2605·Zbl 1225.68219号
[65] Weisrock,D.W.、Shaffer,H.B.、Storz,B.L.、Storz,S.R.、Storz,S.R.和Voss,S.R.(2006年)。多个核基因序列确定了墨西哥蝾螈快速辐射分支的系统发育物种边界。分子生态学,15,2489-2503·doi:10.1111/j.1365-294X.2006.02961.x
[66] Weyenberg,G.、Huggins,P.、Schardl,C.、Howe,D.和Yoshida,R.(2014)。KDETREES:系统发育树分布的非参数估计。生物信息学,30(16),2280-2287·doi:10.1093/bioinformatics/btu258
[67] Xing,E.和Karp,R.(2001)。CLIFF:通过使用归一化切割的迭代特征过滤对高维微阵列数据进行聚类。生物信息学,17(补充1),S306-S315·doi:10.1093/bioinformatics/17.suppl_1.S306
[68] Yang,Z.(1997)。PAML:通过最大似然进行系统发育分析的程序包。卡比奥斯,15,555-556。
[69] Yao,W.、Krzystek,P.和Heurich,M.(2012年)。利用机载全波激光雷达数据,基于单株树提取的树种分类和茎体积和胸径估计。环境遥感,123,368-380·doi:10.1016/j.rse.2012.03.027
[70] Yu,Y.、Warnow,T.和Nakhleh,L.(2011)。基于MDC的多基因座系统发育推断算法:超越单等位基因的根二元基因树。计算生物学杂志,18(11),1543-1559·doi:10.1089/cmb.2011.0174
[71] Zhang,S.-B.,Zhou,S.-Y.,He,J.-G.和Lai,J.-H.(2011)。基于光谱图聚类的系统发育推断。计算生物学杂志,18(4),627-637·doi:10.1089/cmb.2009.0028
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。