×

非均匀随机分布下的快速系统发育生物多样性计算。 (英语) 兹比尔1355.92080

Mona Singh(编辑),《计算分子生物学研究》。2016年4月17日至21日,第20届RECOMB年会,美国加利福尼亚州圣莫尼卡。诉讼程序。查姆:施普林格(ISBN 978-3-319-31956-8/pbk;978-3-3169-31957-5/电子书)。计算机科学课程讲稿9649。生物信息学讲义,225-236(2016)。
摘要:计算一组物种的系统发育多样性是许多生态学案例研究的重要组成部分。更具体地说,让(mathcal{T})是一个系统发育树,让(R)是其叶子的子集,代表正在研究的物种。生态学专家想要评估一个函数(f(mathcal{T},R))(a系统发育测量)量化了\(R)中元素之间的进化距离。但是,在大多数应用程序中,当随机选择\(R\)时,检查\(f(\mathcal{T},R)\)的行为也很重要。这样做的标准方法是计算(mathcal{T})中所有叶子集之间的平均值和方差,这些叶子集正好由(|R|=R)元素组成。对于某些度量,存在可以在\(r)叶的所有子集都是等概率的条件下计算这些统计的算法。然而,到目前为止,当(mathcal{T})中的叶子以不相等的概率加权时,还没有一种算法可以精确地实现这一点。因此,对于这种一般情况,专家们试图使用既不精确又非常缓慢的方法计算系统发育度量的统计数据。我们首次提出了在非均匀随机分布下从(mathcal{T})中选择固定大小的叶子集时计算系统发育度量的平均值和方差的准确有效算法。特别是,让\(\mathcal{T}\)是一个具有\(n \)个节点和深度\(d \)的树,而让\(r \)是非负整数。我们展示了如何在(O((d+log n)n)时间和(O)(n)空间中计算属于定义良好的类的任何度量的平均值和方差。我们证明了两种最流行的系统发育指标属于这一类:系统发育多样性(mathrm{PD})和平均成对距离(mathrm{MPD})。我们考虑的随机分布是限制在固定大小的子集上的泊松二项分布。除此之外,我们还提供了一个更强大的结果;特别是对于(mathrm{PD})和(mathrm{MPD}),我们描述了以批处理方式计算(mathcal{T})的平均值和方差的算法全部的可能的叶子集大小以\(O((d+\log n)n\log n)\)时间和\(O)(\(n))空间表示。对于\(\mathrm{PD}\)和\(\mathrm{MPD}\),我们实现了执行均值和方差批量计算的算法。我们还开发了另一种实现方法,用(O((d+logn)n^2))时间计算相同的输出。对于这两种类型的实现,我们进行了实验,并在实践中测量了它们的性能。尽管理论性能存在差异,但我们表明,在(O((d+logn)n^2)时间内运行的算法在实践中效率更高,数值更稳定。我们还将这些算法的性能与可用于案例研究的标准不精确方法进行了比较。我们表明,我们的算法速度非常快,可以处理比以前大得多的数据集。我们的实施将通过R包PhyloMeasures公开。
关于整个系列,请参见[Zbl 1334.92007年].

MSC公司:

92D15型 与进化有关的问题
92-08 生物问题的计算方法

软件:

Phylo度量
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Bininda-Emonds,O.R.P.,Cardillo,M.,Jones,K.E.,MacPhee,R.D.E.,Beck,R.M.D.,Grenyer,R.,Price,S.A.,Vos,R.A.,Gittleman,J.L.,Purvis,A.:现代哺乳动物的延迟崛起。《自然》446507–512(2007)·doi:10.1038/nature05634
[2] Chen,S.X.,Liu,J.S.:泊松-非线性和条件伯努利分布的统计应用。统计正弦。7, 875–892 (1997) ·Zbl 1067.62511号
[3] Faller,B.,Pardi,F.,Steel,M.:随机灭绝下的系统发育多样性分布。J.西奥。生物学251、286–296(2008)·Zbl 1398.92170号 ·doi:10.1016/j.jtbi.2007.11.034
[4] Goloboff,P.A.,Catalano,S.A.,Mirandeb,J.M.,Szumika,C.A.,Ariasa,J.S.,Kallersjoc,M.,Farris,J.S.:对73 060个分类群的系统发育分析证实了主要的真核生物群。分支分类学25,211–230(2009)·doi:10.1111/j.1096-0031.2009.00255.x
[5] 国际自然保护联盟的网页。网址:http://www.iucn.org/
[6] Kraft,N.J.B.、Cornwell,W.K.、Webb,C.O.、Ackerly,D.A.:生态群落的特征进化、群落组装和系统发育结构。《美国国家》170、271–283(2007)·doi:10.1086/519400
[7] Van Loan,C.:《快速傅里叶变换的计算框架》,第10卷。暹罗,费城(1992)·Zbl 0757.65154号 ·doi:10.1137/1.9781611970999
[8] Steel,M.:建造、研究大树的工具:从数学角度来看。摘自:Hodkinson,T.、Parnell,J.、Waldren,S.(编辑)《重建生命之树:物种丰富分类的分类学和系统学》,第97-112页。CRC出版社,博卡拉顿(2007)
[9] Tasche,M.,Zeuner,H.:改进了预计算旋转因子的舍入误差分析。J.公司。分析。申请。4(1), 1–18 (2002) ·Zbl 1030.65145号
[10] Tsirogiannis,C.,Sandel,B.:非均匀随机分布下的快速系统发育生物多样性计算。网址:http://www.madalgo.au.dk/常数/丰度模型.pdf·Zbl 1355.92080号
[11] Tsirogiannis,C.,Sandel,B.:PhyloMeasures:用于计算系统发生生物多样性测度及其统计矩的软件包。Ecography(2015)。http://dx.doi.org/10.1111/ecog.01814 ·doi:10.1111/ecog.01814
[12] Tsirogiannis,C.,Sandel,B.,Kalvisa,A.:计算系统发育生物多样性的新算法。收录:Brown,D.,Morgenstern,B.(编辑)WABI 2014。LNCS,第8701卷,第187-203页。斯普林格,海德堡(2014)·Zbl 06461631号 ·doi:10.1007/978-3-662-44753-6_15
[13] Webb,C.O.,Ackerly,D.D.,McPeek,M.A.,Donoghue,M.J.:系统发育和群落生态学。每年。经济评论。系统。33, 475–505 (2002) ·doi:10.1146/annurev.ecolsys.33.010802.150448
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。