×

用调整的(k)均值方法进行系统发生树选择。 (英语) Zbl 1514.62275号

系统发育树的重建是进化研究中最重要和最有趣的问题之一。文献中提出了许多构建系统发育树的方法。每种方法都基于不同的标准和进化模型。然而,由不同方法构建的树的拓扑可能会有很大不同。拓扑误差可能是由于不合适的准则或进化模型造成的。由于有许多树的构造方法,我们感兴趣的是选择一个更好的树来适应真实的模型。在本研究中,我们提出了一种调整的k均值方法和一个错误分类评分标准来解决这个问题。仿真研究表明,该方法可以在潜在候选树中选择更好的树,为系统发育树的选择提供了一种有效的方法。

MSC公司:

62页第10页 统计学在生物学和医学中的应用;元分析
62H30型 分类和区分;聚类分析(统计方面)
92D10型 遗传学和表观遗传学
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] 安德伯格,M.R.1973。应用程序群集伦敦:学术出版社·Zbl 0299.62029号
[2] Cosman,P.C.、Gray,R.M.和Olshen,R.A.,1994年。矢量量化:聚类和分类树。J.应用。统计师, 21: 93-108.
[3] J.P.Dumbacher、T.K.Pratt和R.C.Fleischer,猫头鹰的系统发育(鸟类:埃及蝇科)基于线粒体DNA序列,分子系统学。埃沃。29(2003),第540-549页
[4] Graur,D.和Li,W.H.,2000年。分子进化基础马萨诸塞州桑德兰:Sinauer Associates。
[5] 长谷川,M.,Iida,Y.,Yano,T.,Takaiwa,F.和岩步,M.1985。从核糖体RNA序列推断真核生物界之间的系统发育关系。J.摩尔进化, 22: 32-38. ·doi:10.1007/BF02105802
[6] Hasegawa,M.、Kishino,H.和Yano,T.1985年。线粒体DNA分子钟测定人类分裂的年代。J.摩尔进化,22:160-174·doi:10.1007/BF02101694
[7] Huang,Z.1998年。扩展了k-means算法,用于聚类具有分类值的大型数据集。数据挖掘知识发现, 2: 283-304. ·doi:10.1023/A:1009769707641
[8] Huh,M.H.和Lim,Y.B.,2009年。K-means聚类中的加权变量。J.应用。统计师, 36: 67-78. ·Zbl 1473.62221号
[9] Jain,A.K.和Dubes,R.C.1988年。数据聚类算法新泽西州:普伦蒂斯·霍尔·Zbl 0665.62061号
[10] Kaufman,L.和Rousseeuw,P.J.,1990年。在数据中查找组-聚类分析简介纽约:Wiley·Zbl 1345.62009号 ·doi:10.1002/9780470316801
[11] Kidd,K.K.和Sgaramella-Zonta,L.A.,1971年。系统发育分析:概念和方法。Am.J.Hum.基因, 23: 235-252.
[12] Kumar,S.、Dudley,J.、Nei,M.和Tamura,K.,2008年。MEGA:一种以生物学家为中心的DNA和蛋白质序列进化分析软件。生物信息学简介, 9: 299-306. ·文件编号:10.1093/bib/bbn017
[13] Lipman,D.J.、Altschul,S.F.和Kececioglu,J.D.1989年。一种用于多序列比对的工具。程序。美国国家科学院。科学。美国, 86: 4412-4415. ·doi:10.1073/pnas.86.12.4412
[14] Loh,W.Y.,2009年。提高分类树的精度。附录申请。统计师。, 3: 1710-1737. ·Zbl 1184.62109号 ·doi:10.1214/09-AOAS260
[15] Macqueen,J.《多元观测分类和分析的一些方法》,载于《第五届伯克利数学统计与概率研讨会论文集》,编辑:Le Cam,L.M.和Neyman,J.Vol.1,pp.281-297。伯克利:加利福尼亚大学出版社,加利福尼亚大学统计实验室·Zbl 0214.46201号
[16] Ng M.K.、Li M.J.、Huang J.和He Z,关于k模式聚类算法中相异度测度的影响,IEEE传输。模式分析。机器智能。29(2007),第503-507页
[17] Saitou,N.和Nei,M.1987年。邻接法:一种重建系统发育树的新方法。分子生物学。埃沃, 4: 406-425.
[18] Segal,M.R.和Tager,I.B.1993年。树木和追踪。统计师。医学, 12: 2153-2168. ·doi:10.1002/sim.4780122302
[19] Shannon,W.D.和Banks,D.1999。使用MLE组合分类树。统计师。医学, 18: 727-740. ·doi:10.1002/(SICI)1097-0258(19990330)18:6<727::AID-SIM61>3.0.CO;2-2
[20] Stein,J.、Kalb,G.、Possinger,K.和Wernecke,K.-D.,2001年。分类树验证的扩展。生物医学J, 43: 107-116. ·Zbl 1002.62086号 ·doi:10.1002/1521-4036(200102)43:1<107::AID-BIMJ107>3.0.CO;2伏
[21] Tamura,K.、Dudley,J.、Nei,M.和Kumar,S.,2007年。MEGA4:分子进化遗传学分析(MEGA)软件版本4.0。分子生物学。埃沃, 24: 1596-1599. ·doi:10.1093/molbev/msm092
[22] Tateno,Y.、Nei,M.和Tajima,F.1982年。分子数据中估计的系统发育树的准确性。一、远缘物种。J.摩尔进化, 18: 387-404. ·doi:10.1007/BF01840887
[23] Wang,H.2011年。核苷酸替代模型中替代数的置信区间。分子系统学。埃沃, 60: 472-479. ·doi:10.1016/j.ympev.2011.05.013
[24] Wang,H.,Tzeng,Y.H.和Li,W.H.,2008年。核苷酸替代的单参数和双参数模型的改进方差估计。J.理论。生物, 254: 164-167. ·兹比尔1400.92352 ·doi:10.1016/j.jtbi.2008.04.034
[25] Wernecke,K.-D.,Possinger,K.,Kalb,G.和Stein,J.1998年。正在验证分类树。生物医学杂志。, 40: 993-1005. ·Zbl 0942.62125号 ·doi:10.1002/(SICI)1521-4036(199812)40:8<993::AID-BIMJ993>3.0.CO;2-T型
[26] Yang,Z.1994年。基于DNA序列的最大似然系统发育估计,在位点上具有可变速率:近似方法。JJ公司。摩尔进化, 39: 306-314. ·doi:10.1007/BF00160154
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。