总结

现在,通过对从给定环境中大量提取的核酸材料进行测序来调查微生物群落是很常见的。需要使用比较方法,以表明给定这类数据集的两个社区的差异程度。UniFrac公司,这使特别的基于系统发育学的两个群落之间的距离是这些分析最常用的工具之一。我们为这些方法提供了一个基础,即如果我们将元基因组样本与其在参考系统发育树上的经验分布等同,那么加权UniFrac两个样本之间的距离只是经典的Kantorovich–Rubinstein,或推土机,对应经验分布之间的距离。我们证明了这个Kantorovich–Rubinstein距离和包含样本位置不确定性的扩展可以写成树上易于计算的积分,我们开发了L(左)第页度量的Zolotarev型推广,我们展示了第页-零假设“两个群体之间无差异”的自然置换检验结果的值可以通过使用高斯过程函数来近似。我们将L(左)2-对于方差型分解的分析,发现其相关高斯函数的分布是独立的可计算线性组合X(X)12随机变量。

1.简介

下一代测序技术可以在一次实验中测序数十万到数百万个短脱氧核糖核酸(DNA)序列。这导致了一种新的方法来表征样本中微生物的采集:与其使用观察到的形态学或培养实验的结果,还不如直接对从样本中大量提取的遗传物质进行排序。这项技术彻底改变了从人类肠道(吉尔)到环境微生物多样性无偏见调查的可能性等。,2006)酸性矿井排水系统(Baker和Banfield,2003). 我们考虑此类DNA样本的统计比较程序。

1.1. UniFrac及其变体简介

2005年,Lozupone和Knight引入了UniFrac比较方法,以量化微生物群落之间的系统发育差异(Lozupone和Knitt,2005)2007年,他们和其他人提出了相应的加权版本(Lozupone等。,2007). 这两篇参考文献已经被引用了数百次,证明了它们在微生物群落分析中的中心地位。研究人员使用UniFrac分析了人体上的微生物群落(Fierer等。,2008)建立与炎症性肠病相关的独特肠道微生物群落(Frank等。,2007)并证明宿主遗传学在决定肠道微生物群中起着重要作用(Rawls等。,2006). 从UniFrac方法导出的距离矩阵也通常用作聚类算法的输入,包括分层聚类和带算术平均值的未加权对组方法(Lozupone等。,2007). 此外,距离被广泛地与排序方法结合使用,例如主成分分析(Rintala等。,2008)或者发现微生物群落相对于另一个因素的梯度,例如海洋深度(Desnues等。,2008). 2010年开发的两个主要宏基因组分析“管道”的终点之一是UniFrac分析(Caporaso等。,2010; 哈特曼等。,2010). 最近,用于计算两个UniFrac距离的软件重新进行了速度优化(哈马迪等。,2009)它已经在大量使用的(施洛斯等。,2009)微生物分析软件包。

未加权UniFrac距离仅使用存在-缺失数据,定义如下。假设我们有两个序列样本A和B。将每个这样的序列称为阅读.在读取的总集合上构建一个系统发育树。根据样本给树涂上颜色——如果给定的树枝位于样本a的两个读数之间的路径上,那么它被涂成红色;如果它位于样本B的两个读取之间的路径,那么它就被涂成蓝色;如果两者都是,那么它就是灰色。然后,未加权UniFrac是其中一个样本“唯一”的总分支长度的分数,即,它是总分支长度中红色或蓝色的分数。

加权UniFrac通过将权重分配给不只是0或1的分支长度来合并两个样本的读取频率信息。假设有读取样本A和n个读取样本B,我们构建了一个系统发育树T型来自所有+n个读取。对于给定分支树上的T型,让是树枝的长度并定义(f)为分支的分支长度分数,即。除以总分支长度T型。两个样本之间(原始)加权UniFrac距离的公式为

(1)

哪里A类B类是分支的各自后代数来自社区A和B(Lozupone等。,2007). 为了确定read是否是分支的后代,我们需要将树的顶点指定为根,但事实证明,对根的不同选择会导致相同的距离值,因为

(2)

右侧的数量仅取决于通过删除分支获得的两个不相交子树中每个样本的读取比例此外,类似的推理表明,(未加权的)UniFrac距离高达12,由一个类似于表达式的公式给出(1)在哪儿A类/B类/n个根据分支是否有后代,分别替换为1或0的数量在A或B样本中以及分支长度替换为分支长度分数(f).使用数量而不是(f)只需通过乘法常数(树的总分支长度)更改结果距离T型.

UniFrac距离也可以通过使用预先存在的树(而不是从样本构建的树)来计算通过执行序列比较,例如应用基本局部对齐搜索工具将读取与先前识别的序列相关联,并将读取附加到预先存在的树中该序列的叶子上,中间有一个零长度的分支。使用此映射策略,可以根据分析目的调整用于比较的树。例如,用户可能更喜欢“超度量”树(从根到每个尖端的总分支长度相同的树),而不是使用反映分子进化量的分支长度的树。

为了使报告的UniFrac值在不同树之间具有可比性,通常用合适的标量进行划分,以将其拟合到单位间隔中。给一棵有根的树T型和计数A类B类如上所述,原始加权UniFrac值的上界为

(3)

哪里d日是从根部到边缘叶侧的距离(罗祖蓬等。,2007). 除以该因子后,得到的缩放UniFrac值位于单位间隔内;缩放后的UniFrac值为1表示根附近有一个分支,可以切割该分支以分离两个样本。请注意D类,以及因此的“归一化”加权UniFrac值,确实取决于根的位置。

观察到的UniFrac距离的统计显著性通常由置换程序指定,我们在这里查看置换程序的完整性。置换测试(也称为随机化测试)的概念可以追溯到Fisher(1935)和皮特曼(1937年a、b,1938)(参见Good(2005)还有Edgington和Onghena(2007)最新文献指南)。假设我们的数据是一对计数样本n个我们已经计算了样本之间的UniFrac距离。想象一下,通过提取其他尺寸子集创建一对新的“样本”和它的补集+n个读取并计算两个新样本之间的距离。The proportion of the(+n个)选择这样的样本对会产生比数据中观察到的距离更大的距离,这表明了观测距离的重要性。当然,我们可以将此过程重新表述为对大小的读取进行统一的随机子集及其补码(将这样的对象称为随机伪样本对)并求出它们之间的距离大于观测距离的概率。因此,对于n个)通过对随机子集进行重复的独立选择,并记录一对伪样本之间的距离大于观测距离的选择的比例,来近似所讨论的比例或概率。我们将大小读取的均匀随机子集产生的随机伪样本对之间的距离分布称为及其大小补足n个这个无聚类零假设下的距离分布.

1.2. 系统发育树上的系统发育位置和概率分布

我们现在描述一下如何从固定参考系统发育树根据先前特征化的DNA序列构建,然后使用基于相似性的系统发育方法将来自某些环境的DNA样本映射到系统发育位置在参考树上。然后,可以将此放置集合视为参考树上的概率分布。

在经典的基于类群的系统发育学中(例如,参见Felsenstein(2004)),其中一个数据由来自分类群(例如物种)和这些数据的概率模型。概率模型由两部分组成。第一种成分是一棵树枝长的树,它的叶子被分类群标记,并描述了它们的进化关系。第二个因素是DNA沿着树干进化的马尔科夫随机机制。该模型的参数是DNA进化模型中的树(其拓扑结构和分支长度)和速率参数。像往常一样,数据的似然性是参数空间上给出观测数据概率的函数。树和速率参数可以使用标准方法(如最大似然法或贝叶斯方法)进行估计。

假设我们已经从任何来源获得了许多分类群中每个分类群的DNA序列,以及相应的系统发育树和速率参数,并且一个新序列,即查询序列,到达。而不是估计新的树和速率参数从头计算,我们可以采用给定的速率参数,并且只考虑由现有树(参考树)组成的树,参考树通过从参考树上的附着点到新分类单元标记的叶子的一定长度的分支进行扩展。现在,相关似然是查询序列的条件概率,作为附着点和悬挂分支长度的函数,我们可以将此似然输入到最大似然或贝叶斯方法中,以估计这两个参数。例如,最大可能性点系统发育位置对于给定的查询序列,是序列到树的连接点的最大似然估计,以及指向序列的悬垂分支长度。这些估计值由各种算法产生(冯·梅林等。,2007; 莫尼尔等。,2008; 伯杰和斯塔马塔基斯,2011; 马森等。,2010). 通常,如果有多个查询序列,则使用相同的引用树将此过程单独应用于每个查询序列,即与连续查询序列相对应的分类单元不用于放大引用树。通过固定参考树,而不是试图为样本建立系统发育树从头开始这种类型的最新算法可以在1000个分类单元的参考树上每小时在每个处理器上放置数万个查询序列,参考分类单元的数量可以线性调整。

为了本文的目的,我们从点系统发育位置集合中保留的数据将只是这些位置在参考系统发育树上的附着位置。我们将把这些位置称为放置位置。我们可以用经验分布来确定这样一组放置位置,即在每个放置位置放置相等质量的概率分布。这样,从引用树和对齐的读取集合开始,我们在引用树上得出概率分布,表示这些读取在树上的分布。

我们还可以采用贝叶斯的观点,假设进行连接的分支、该分支内的连接位置和悬垂分支长度的先验概率,以计算布局的后验概率分布。例如,我们可以采用连接位置和悬垂分支长度的先验,假设这些数量是独立的,附着位置的先验分布在分支上均匀,在每个分支内均匀,悬垂分支长度的先验分配在某个范围内呈指数或均匀。通过积分悬垂分支长度,我们得到了一个后验概率分布μ关于查询序列的树。我们将这种概率分布称为排列放置:具有上述先验信息,μ将具有相对于树上自然长度测量的密度。将此概率分布集合与单个分布关联起来是很自然的Σμ/n个,其中n个是查询序列的数量。

对于大型数据集,记录有关后验概率分布的详细信息是不切实际的。因此,在Matsen的实现中等。(2010)后验概率是通过整合连接位置和悬垂分支长度,逐分支计算给定查询序列的后验概率,从而得出每个分支的概率。然后将质量分配到最大似然系统发育位置的附着位置。通过这种简化,我们回到了点放置的情况,在这种情况下,每个查询序列都被分配给参考树上的单个点,并且分配的集合由这组点的经验分布来描述。然而,由于原则上可以使用样本的表示,而不仅仅是每个点上质量相等的离散分布,因此我们在更大程度上发展了该理论。

1.3. 比较系统发育树上的概率分布

如果我们希望使用标准Neyman–Pearson框架进行统计推断,以确定两个宏基因组样本是否来自具有“相同”或“不同”成分的社区,我们首先必须提出一系列概率分布,描述从一系列社区抽样的结果,然后构造一个假设检验,即这两个样本是来自家庭中相同分布的实现。然而,似乎没有这样一个系列的发行版适合于这种设置。

因此,我们想到了将两个样本表示为参考树上的概率分布,方法如第1.2节,计算这两个概率分布之间的适当距离,并使用在第1.1节为观测距离指定统计显著性。

实现此建议的关键要素是在参考树上的概率分布空间上选择合适的度量。当然,有很多选择:《维拉尼》第六章(2009)注意到它们有几十种,并讨论了它们的相似性、差异性和各种优点。

也许最常见的度量是总变差距离,它只是两个分布分配给集合的质量之间的差在所有(Borel)集合上的上确界。然而,总变异距离显然不适合我们的目的,因为它没有注意树上的进化距离结构:如果我们k个点放置,并通过对每个原始放置进行少量扰动来构造另一组放置,从而使两组放置不相交,那么相应概率分布之间的总变化距离将为1,这是任何一对概率分布所能达到的最大值,尽管我们认为这两组位置非常接近。请注意,由于物种内部的遗传变异和实验错误,即使是来自同一物种的生物体的遗传物质也可能导致略有不同的位置。

因此,我们需要一个与参考树上的进化距离兼容的度量,如果一个分布是通过质量的短期重分布从另一个分布获得的,则测量两个分布是否接近。Kantorovich–Rubinstein(KR)度量可以定义为任意度量空间上的概率分布,是一个经典且广泛使用的距离,它满足了这一要求,并且,正如我们将看到的,它还具有其他理想的属性,例如在树上很容易计算。它在第2节但可以直观地用物理术语描述如下。将公制空间上的两个概率分布中的每一个都想象成具有单位总质量的沙堆集合:给定点处沙堆中的沙子质量等于该点处的概率质量。假设将一定数量的沙子从一个地方运输到另一个地方所需的“工作量”与所移动沙子的质量乘以它必须移动的距离成正比。然后,两个概率分布之间的KR距离P(P)只是在与P(P)到对应于的配置中。在对应于两个相似概率分布的配置之间移动沙子将需要很少的努力,而将其各自的大部分质量放置在度量空间的不相交区域的两个分布则需要更多的努力。如维拉尼所述(2009),KR指标也称为Wasserstein(1)公制或者,在工程文献中推土机距离我们注意到,在进化生物信息学中,质量传输思想已经被用于“进化指纹”的比较和聚类——这样的指纹由Kosakovsky Pond定义等。(2010)作为给定基因同义和非同义突变率的离散双变量分布。

1.4. 结果概述

我们的第一个结果是,在系统发育的情况下,KR度量定义中隐含的优化可以通过分析进行,从而得到可以在线性时间内评估的闭合形式表达式,从而能够分析大规模测序研究产生的数据量。的确,如所示第2节,度量可以表示为树上的一个积分,对于点放置,积分可以简化为放置数量级的若干项的总和。相反,在维数大于1的欧氏空间中计算KR度量需要线性规划优化步骤。值得注意的是,这种系统发育KR距离的闭合形式表达的点版本(尽管显然不是距离的最佳质量传输理由)是由微生物生态学家凭直觉得出的,正是加权UniFrac回忆起的距离第1.1节以上。

我们介绍L(左)第页-由于Zolotarev(Rachev,1991; 拉契夫和吕申多夫,1998)-KR指标与情况相对应第页= 1. 小型第页主要强调由于跨树的样本分离而产生的差异,而大第页强调巨大的质量差异。这些概括并非出于最佳质量运输考虑,但我们在第5.3节那个平方第页=2版本确实有一个吸引人的方差分析,即两个样本集合中的变异量,而不是每个样本中的变异性。

我们展示了第3节在无聚类的零假设下,距离的分布近似于由树索引的高斯过程的一个易于计算的函数,并且该高斯过程的模拟相对简单。此外,我们观察到,当第页=2这个近似分布是X(X)12随机变量。我们还讨论了结果的解释第页-当数据显示出可能被视为基本生物兴趣对象而非单个读取对象的局部“簇”时的值。

第5节,我们讨论了样本比较的替代方法。特别是,我们注意到树上的任何概率分布都有一个定义明确的重心(即质心),可以有效地计算。因此,我们可以通过考虑相关概率分布的重心来获得样本位置的一点总结,并通过计算相应重心之间的距离来测量两个样本的相似性。

2.系统发育Kantorovich–Rubinstein度量

在本节中,我们更正式地描述了系统发育KR度量,这是Wasserstein度量家族的一个特例。然后,我们使用KR度量的对偶公式来证明它可以通过树上的简单积分在线性时间内计算。我们还引入了Zolotarev型L(左)第页-概括。

T型做一棵树枝长的树。写入d日对于上的路径距离T型。我们假设概率分布是通过“点”或“排列”位置的集合在树上给出的,如第1节.

对于公制空间(S公司,第页),KR距离Z轴(P(P),)两个Borel概率分布之间P(P)S公司定义如下。(P(P),)表示概率分布集论产品空间S公司×S公司使用该属性(A类×S公司)=P(P)(A类)和(S公司×B类)=(B类)对于所有Borel集合A类B类(即P(P)). 然后,

(4)

例如,请参阅Rachev(1991)拉契夫和吕申多夫(1998),维拉尼(2003,2009)和安布罗西奥等。(2008).

有一个替代公式用于Z轴(P(P),)这来自凸对偶。写入对于函数集(f):S公司具有Lipschitz属性|(f)(x个)−(f)()|⩽第页(x个,)为所有人x个, ∈ S公司.然后,

我们可以使用这个表达式来获得一个简单的显式公式Z轴(P(P),)何时(S公司,第页)=(T型,d日).

给出任意两点x个, ∈ T型,让[x个,]成为他们之间的弧线。有一种独特的Borel测量方法λT型这样的话λ([x个,])=d日(x个,)为所有人x个, ∈ T型。我们打电话给λ这个长度测量; 它类似于实线上的勒贝格测度。固定一个可分辨点ρ ∈ T型,我们称之为树的“根”。对于任何(f)具有(f)(ρ)=0,有一个λ几乎处处唯一的Borel函数:T型[−1,1]这样(f)(x个)=∫[ρ,x个]() λ(d))(这很容易从实线的类似事实中得出)。

鉴于x个 ∈ T型,投入τ(x个):={ ∈ T型:x个 ∈ [ρ,]}; 即,如果我们用根绘制树ρ在页面顶部,然后τ(x个)下面是子树吗x个.请注意,如果小时:T型是有界Borel函数μ是上的Borel概率分布T型,然后我们得到了按部分积分的公式

因此,如果P(P)是关于的两个Borel概率分布T型小时:T型由提供(f)(x个)=∫[ρ,x个]()λ(d)),那么我们有

一个类似的公式适用于因此,

很明显,积分是通过取()=1和()分别为-1P(P){τ()}>{τ()}和P(P){τ()}<{τ()},所以

(5)

请注意方程式(eq8)是的特例方程式(eq8)P(P)指定点质量1/群落A中的每一片叶子,以及指定点质量1/n个群落B中的每一片叶子。

我们可以通过采用任何伪度量来推广KR距离的定义(f)[0,1]和设置

此对象将是树上概率分布空间上的伪度量T型到目前为止考虑的所有距离都是这样的Z轴^(f)选择合适的伪度量(f):(未加权)UniFrac因(f)(x个,)等于1时正好是x个大于0,并且Z轴在以下情况下发生(f)(x个,)=|x个|.

此外,如果(f)(x个,)=(f)(1−x个,1−),然后Z轴^(f)相对于根的位置不变。的确,因为λ几乎到处都是 ∈ T型我们有这个位于分支的内部,并且P(P)({})=({})=0,因此,对于此类,P(P){τ()}和P(P){T型τ()}、和{τ()}和{T型τ()}分别是P(P)-质量和-两个不相交的相连分量的质量T型通过移除产生(请参见方程式(eq8))因此,这些量并不取决于根的选择。因为

对于任何 ∈ T型,所声称的不变性是关于λ特别是,我们看到距离Z轴对根的位置不变:这一事实在最初的定义中已经很明显了(4).

本着类似的精神,KR距离由积分定义(5)可以推广到L(左)第页Zolotarev-type版本,通过设置

用于0<第页<∞-见Rachev(1991)拉契夫和吕申多夫(1998)讨论实线上概率分布的类似度量。直观、大第页在距离树上最大不同的部分的距离上赋予更多权重P(P),尽管很小第页更重视需要大量运输的差异。根的位置ρ对于这个概括来说也无关紧要Z轴根据上述论点。

如以下计算所示Z轴2有一个特别吸引人的解释。首先要注意的是

现在,指标功能的产品1[ρ,v(v)]1[ρ,w个]是集合的指示函数[ρ,v(v)]∩[ρ,w个]. 这组是形状的圆弧[ρ,υw个],其中υw个是的“最新共同祖先”v(v)w个相对于根ρ因此,T型1[ρ,v(v)](u个)1[ρ,w个](u个)λ(d日u个)=λ([ρ,υw个])d日(ρ,υw个)=12[d日(ρ,υ)+d日(ρ,w个)d日(υ,w个)]因此,

因此,如果X(X)',X(X),Y(Y)Y(Y)′′是独立的T型-值随机变量,其中X(X)X(X)′′两者都有分布P(P)Y(Y)Y(Y)′′两者都有分布,然后

(6)

类似于加权UniFrac,我们可以通过将KR距离除以标量来“标准化”KR距离。比例因子的最直接模拟D类用于根树上的加权UniFrac(3)将是KR距离的两倍(P(P)+)/2和根部的点质量。这是三角形不等式的一个上界。根不变量版本将改为将点质量放置在质量中心(即重心;请参见第5.2节)第页,共页(P(P)+)/2,两倍的相似距离也是三角形不等式的上界。从KR距离的原始定义可以清楚地看出(4)那个Z轴1(P(P),)以树的直径为界(即最大值x个,{d日(x个,)})或通过限制x个至各自的支架P(P)。这些上限中的任何一个都可以用作“标准化因子”。

引入这种归一化的目的是为了更好地比较不同样本对获得的距离。然而,这里需要注意:不清楚如何在两个非常不同的参考树上缩放成对的距离,以使缩放距离的类似值传达出任何易于理解的指示,表明两个成对元素以“相似”的方式彼此不同的程度。简而言之,当比较树之间的结果时,KR距离及其推广作为测试统计数据比作为描述性摘要统计数据更有用。

3.评估重要性

评估与一对放置的尺寸读数样本相关的概率分布之间观察到的距离的重要性n个,我们使用中提到的排列策略第1节为观察到的UniFrac距离赋予重要性。通常,我们有一对概率分布,表示形式为P(P)=(1/)Σ=1π=(1/n个)Σj个=+1n个πj个,其中πk个是参考树上的概率分布T型表示的位置k个读取两个样本的池(在点放置情况下,每个样本πk个只是某个点的单位点质量w个k个 ∈ T型). 我们想象创造一切(+n个)放置时产生的成对“样品”将从池中读取的数据转换为一个样本和其余样本n个另一种方法是计算参考树上两个概率分布之间的距离,这些概率分布是由放置的读取结果产生的,并确定这些距离中超过数据中观察到的距离的比例。这个比例可以被认为是第页-针对某种程度的聚类的替代方案,对无聚类的零假设进行测试的值。

当然,对于大多数n个实际上,执行这个详尽的距离列表是不可行的。我们观察到,如果⊆{1,…,+n个}是具有基数的均匀分布随机子集(即所有(+n个)值的可能性相等),J型:=c(c)是的补语,P(P)˜是随机概率分布(1/)Σπ˜是随机概率分布(1/n个)Σj个J型πj个,那么利息比例就是P(P)˜˜超过了P(P)。我们可以通过对(,J型)因此(P(P)˜,˜)并查看导致距离大于观测距离的比例。我们在第4节.

3.1. 高斯近似

尽管上述蒙特卡罗方法可以近似第页-值在概念上很简单,很容易探索是否有进一步的近似值可以给出令人满意的结果,但需要较少的计算。

回想一下π1,,π+n个是放置的读取的池集合P(P)˜=(1/)Σπ˜=(1/n个)Σj个J型πj个,其中是{1,…,的均匀分布随机子集,…,+n个}和J型是它的补语。写入

我们记得τ(u个)下面是树吗u个相对于根ρ.定义T型-指数随机过程X(X)= (X(X)(u个))u个 ∈ T型通过

然后,

如果H(H)k个, 1⩽k个+n个,是事件的指示符随机变量{k个 ∈ },然后

写作E类,V(V)C类对于期望、方差和协方差,我们有

由此可见E类[X(X)(u个)]=0

什么时候+n个很大,其中¯(u个):={1/(+n个)}Σk个k个(u个).

备注1。在点放置的情况下,使用概率分布πk个为点质量w个k个 ∈ T型用于1⩽k个+n个,然后

通过可交换随机变量的标准中心极限定理(例如,参见Kallenberg的定理16.23(2001)),流程X(X)近似高斯,协方差核Γ,当+n个很大。一个简单的计算表明我们可以构造一个高斯过程ξ采用独立的标准高斯随机变量的协方差核Γη1,,η+n个和设置

因此Z轴第页(P(P)˜,˜)近似于随机变量

(7)

我们可以重复采样正常随机变量η和数值积分表达式(7)来近似这个积分的分布。在示例应用中第4节,这提供了一个合理但并非完美的近似值(图3)。

对于这种情况,还有一种更简单的方法第页= 2. μk个2,k个=1,2,…,和ψk个,k个=1,2,…,是上非负定自共轭紧算子的正特征值和相应的归一化特征函数L(左)2(λ)映射函数的(f)到函数ⅨT型Γ(·,v(v)) (f)(v(v)) λ(d)v(v)). 功能μk个ψk个,k个=1,2,…,构成与Γ和高斯过程相关的再生核Hilbert空间的正交基ξ拥有Karhunen–Loève扩建项目ξ(u个)=Σk个μk个ψk个()ηk个哪里ηk个,k个=1,2,…,是独立的标准高斯随机变量-见Jain和Marcus(1978)对再生核Hilbert空间和Karhunen–Loève展开的理论进行了回顾。

因此,T型|ξ(u个)|2λ(d日u个)=Σk个μk个2ηk个2以及Z轴22(P(P)˜,˜)近似于独立X(X)12随机变量。

通过计算相关矩阵的特征值,可以找到与Γ相关的算子的特征值。定义(+n个)×(+n个)非负定自共轭矩阵M(M)由提供

如果我们在位置上放置点w个k个 ∈ T型用于1⩽k个+n个如备注1所示,那么

哪里是单位矩阵,1是每个条目和矩阵都有1的向量N个有(,j个)从根到“最近的共同祖先”的距离给出的条目w个w个j个.

假设x个是的特征向量M(M)对于正特征值ν2.设置

(8)

请注意

等等ψ是上运算符的(非正规化)本征函数L(左)2(λ)由特征值协方差核Γ定义ν2.

相反,假设μ2是具有本征函数的算子的本征值φ.设置x个j个:=T型{j个(υ)¯j个(υ)}ϕ(υ)λ(d日υ)然后,

以便μ2是的特征值M(M)特征向量为x个.

由此可以得出,与Γ相关的算子的正特征值与矩阵的特征值一致M(M)和具有相同的多重性。

然而,我们实际上不需要计算M(M)实现这种近似。因为M(M)正交等价于特征值为M(M)在对角线上,我们从随机向量的分布在正交变换下的不变性得到η:(η1,,η+n个)T型那个Σk个μk个2ηk个2具有与相同的分布ηT型M(M)η因此,随机变量的分布Z轴22(P(P)˜,˜)近似于Σj个M(M)j个ηηj个.

我们可能希望在这个案件中走得更远第页=2,并获得分布的解析近似值Σk个μk个2ηk个2或其右侧尾部的有用上限。以黄为例(1980)如果我们对正特征值进行排序,那么μ12μ22并假设μ12>μ22,然后

在这个意义上,两边的比率收敛到1第页→∞. 目前尚不清楚该结果的收敛速度,似乎需要详细了解矩阵的谱M(M)应用它。

高斯浓度不等式,如Borell不等式(例如,参见Bogachev第4.3节(1998))给出只需要知道的右尾翼边界E类[(Σk个μk个2η22)1/2]μ12,但对于中的示例来说,这些界限过于保守第4节.

有大量关于独立正线性组合密度的各种级数展开式的文献X(X)12随机变量。一些有代表性的参考文献是Robbins和Pitman(1949)、Gurland(1955),太平洋兔(1955),鲁本(1962),科茨等。(1967)吉迪恩和古尔(1976)). 然而,应用这些结果似乎还需要详细了解矩阵的谱M(M)以及一定数量的额外计算,以获得展开式中的系数,然后对所得密度进行积分,考虑到模拟随机变量的相对容易程度,这可能无法保证ηT型M(M)η重复。

尽管使用高斯近似的这些更复杂的方法可能无法提供严格的界限,但重复采样正态随机变量的过程η并对得到的高斯近似值进行数值积分(7)确实提供了一种对通过混洗获得的分布进行近似的有用方式。对于较大的放置集合,此近似值的计算速度要快得多。例如,我们考虑了一棵有652片叶子的参考树和五个大小从3372到15633个位置不等的样本。对于10对样本中的每一个,我们近似地计算了Z轴1-在零假设无差异的情况下,通过随机分配读取到每一对成员(“混乱”)创建伪样本,并通过近似于Z轴1-两个随机伪样本之间的距离。这两种方法都使用了1000个蒙特卡洛步骤。以秒为单位的(随机、高斯)运行时间范围为(494.1,36.8)到(36.1,2.2);一般来说,高斯过程比洗牌过程快一个数量级。

3.2. p值的解释

尽管上述置换过程通常用于评估观测距离的统计意义,但我们在本节中讨论了如何对其进行解释。

根据经典的Neyman–Pearson假设检验框架,我们正在计算一个第页-空假设的值,即+n个对象分成两组大小n个看起来像是一个均匀分布的随机细分,反对互补的替代假设。从许多方面来说,这证明了这是一个合理的替代品,因为这两个群体是“相同”而不是“不同”的概念定义不完善。

然而,对无效假设的拒绝可能没有通常在微生物环境中寻求的解释,也就是说,这两个读数集合代表了生物相关方式不同的群落。例如,假设=n个=NK公司对于整数N个K(K)假设每个样品中的放置是通过独立放置获得的N个点一致(即根据度量的标准化版本λ)然后把K(K)每个点的位置。生成这两个样本的随机机制是相同的,它们在任何有趣的方面都肯定没有区别,但如果K(K)相对于N个由此产生的放置集合将显示出一个在随机伪样本中不太明显的实质性“聚集”,并且随机化过程将倾向于产生一个“显著”第页-如果不考虑聚类,则为观测到的KR距离的值。

这些考虑促使人们考虑对在生物体水平上“聚集”的数据进行随机化测试。按有机体分类阅读是一项艰巨的任务,也是一个活跃的研究课题(怀特等。,2010). 深入探讨不同聚类技术的效果超出了本文的范围,但我们将在下一节中检查一些简单方法的效果。

4.应用示例

演示Z轴第页-在一个示例应用程序中,我们研究了磅/平方英寸马尾藻海实验基因(维拉科斯塔等。,2010). 转录组学数据下载自网址:http://camera.calit2.net/Robin Kodner提供了psbA校准。通过使用HMMER(Eddy,1998),使用RAxML(Stamatakis,2006)并使用苹果机(马森等。,2010). 这里显示的计算是通过使用作为苹果机一套程序(http://matsen.fhcrc.org/placer).

目视检查通过放置次数育肥的树木,显示出相同的总体模式,但有一些细微差异(图1和图2). 然而,KR指标的应用显示了两个样本之间的显著差异。的价值Z轴1对于这个示例(使用扩展放置和按树总长度归一化)是0.006601。这远远落后于分布(图3)事实上,它大于通过洗牌或基于高斯的近似生成的1000个重复中的任何一个。

枝条加厚的树,作为放置在该枝条上的对照样品中放置次数的线性函数
图1

枝条加厚的树,作为放置在该枝条上的对照样品中放置次数的线性函数

树如图1所示,但适用于经二甲基磺酸盐处理的样品
图2

树如图1所示,但适用于经二甲基磺酸盐处理的样品

通过洗牌()、高斯近似()和示例数据集的观测值(×)获得的(a)Z1-和(b)Z2-距离分布的比较
图3

(a)分布的比较Z轴1-和(b)Z轴2-通过洗牌获得的距离(图解的),高斯近似(图解的)以及示例数据集的观测值(×)

这么低第页-值提示了这样一个问题:在两个样本中,两种分布的质心是否存在根本性差异(参见第5.2节). 在这种情况下,答案是否定的,因为两个重心非常接近(图4; 看见第5.2节).

标有重心的树状图:,对照样品,用磺酰丙酸二甲酯处理的样品
图4

标有重心的树状图:图解的,对照样品;图解的,用二甲基磺酸盐处理的样品

我们直觉上看不出变化有多大第页会影响Z轴第页-在无聚类的零假设下的距离。为了研究这个问题,我们绘制了观察到的距离以及零分布的箱线图第页(图5). 很明显,在以下广泛的值上有一个一致的结论第页.

显示样本(∘)和随机范围()的图:为了清晰起见,已经消除了异常值;对于每个p,通过减去平均值并除以标准偏差来重新调整分布
图5

显示样本(∘)和随机范围的曲线图(图解的):为清晰起见,已消除异常值;对于每个第页,通过减去平均值并除以标准偏差重新调整分布

我们还可以通过绘制参考树来可视化两个样本之间的差异,参考树的树枝厚度代表在计算Z轴1(P(P),)以及指示移动迹象的分支阴影(图6).

显示KR度量的质量最佳移动的树:当从第一个概率分布移动到第二个概率分布时,标记为灰色的树枝质量向根部移动,而标记为黑色的树枝质量朝叶子移动;厚度表示通过该分支的质量
图6

显示KR度量的质量最佳移动的树:当从第一个概率分布移动到第二个概率分布时,标记为灰色的树枝质量向根部移动,而标记为黑色的树枝质量朝叶子移动;厚度表示通过该分支的质量

接下来,我们将说明简单聚类对KR度量的随机化测试的影响。这些测试的聚类将通过使用两个参数(质量截止值)舍入放置位置来完成C类以及有效数字的数量S公司,如下所示。给定读取的低概率质量放置位置可能容易出错(Matsen等。,2010); 因此,第一步是扔掉那些与后验概率或以下“似然权重比”相关的位置C类第二步是将放置附件位置和悬垂支管长度乘以10,使其四舍五入S公司并舍入到最接近的整数。四舍五入后位置相同的读数称为聚集在一起。我们将给定集群中的读取次数称为集群的“多重性”。

聚类后,可以根据多样性对质量分布进行各种选择。同样,每个簇都有一些多重性,并且根据似然权重在树上分布质量。一个选项(我们称之为直接多重性)是将质量分布乘以多重性。或者,我们可以通过为每个星团分配一个质量单位来忘记多重性,而与多重性无关。或者我们可以通过乘以多重性的转换版本来做一些中间的事情;在这种情况下,我们用双曲反正弦进行变换。

我们计算了距离和第页-几个聚类参数的值和多重使用(表1). 为了随机化集群中的读取集合,我们重新排列了集群上的标签,保持了集群中读取的分组;因此,给定集群中的所有位置都被分配给同一个伪样本。在不同的聚类参数集合下,距离变化不大,因为质量几乎没有重新分布第页-值是不同的,因为在我们的随机化策略下,质量是逐簇重新标记的。中表示的不同选择表1代表对多重性含义的不同观点。基于“严格”多重性第页-值对应于解释读取显示为有意义的多重性,即单位簇第页-值对应于将多重性解释为噪声,而反双曲正弦变换多重性介于两者之间。这个第页-没有聚类的值(如上所述,Z轴1=0.006 601,带第页-值0)对应于将读取解释为从分布中一次采样一次。

表1

距离Z轴1和显著性水平第页对于文本中描述的10000次随机化的聚类参数和多样性解释的各种选择

S公司C类严格Z轴1严格p反双曲线正弦Z轴1反双曲线正弦p单位Z轴1单位p
10.010.0065780.00870.0070160.00080.0070540.0003
10.050.0065840.02180.0069860.00180.0070360.0005
10.10.0065620.0350.0072140.0010.0073220.0005
20.010.0066010.00180.0070760.00030.0072810.0001
20.050.0065870.00290.006960.00050.0071110.0002
20.10.0065920.00390.0070880.00030.0074230
0.010.0066010.00170.0068060.00050.0069220.0002
0.050.0066020.00180.0067190.00030.0066950.0001
0.10.0066120.00120.0067750.00030.0068160.0001
S公司C类严格Z轴1严格p反双曲线正弦Z轴1反双曲线正弦p单位Z轴1单位p
10.010.0065780.00870.0070160.00080.0070540.0003
10.050.0065840.02180.0069860.00180.0070360.0005
10.10.0065620.0350.0072140.0010.0073220.0005
20.010.0066010.00180.0070760.00030.0072810.0001
20.050.0065870.00290.006960.00050.0071110.0002
20.10.0065920.00390.0070880.00030.0074230
0.010.0066010.00170.0068060.00050.0069220.0002
0.050.0066020.00180.0067190.00030.0066950.0001
0.10.0066120.00120.0067750.00030.0068160.0001
表1

距离Z轴1和显著性水平第页对于10000个随机化的文本中描述的聚类参数和多重性解释的各种选择

S公司C类严格Z轴1严格p反双曲线正弦Z轴1反双曲线正弦p单位Z轴1单位p
10.010.0065780.00870.0070160.00080.0070540.0003
10.050.0065840.02180.0069860.00180.0070360.0005
10.10.0065620.0350.0072140.0010.0073220.0005
20.010.0066010.00180.0070760.00030.0072810.0001
20.050.0065870.00290.006960.00050.0071110.0002
20.10.0065920.00390.0070880.00030.0074230
0.010.0066010.00170.0068060.00050.0069220.0002
0.050.0066020.00180.0067190.00030.0066950.0001
0.10.0066120.00120.0067750.00030.0068160.0001
S公司C类严格Z轴1严格p反双曲线正弦Z轴1反双曲线正弦p单位Z轴1单位p
10.010.0065780.00870.0070160.00080.0070540.0003
10.050.0065840.02180.0069860.00180.0070360.0005
10.10.0065620.0350.0072140.0010.0073220.0005
20.010.0066010.00180.0070760.00030.0072810.0001
20.050.0065870.00290.006960.00050.0071110.0002
20.10.0065920.00390.0070880.00030.0074230
0.010.0066010.00170.0068060.00050.0069220.0002
0.050.0066020.00180.0067190.00030.0066950.0001
0.10.0066120.00120.0067750.00030.0068160.0001

如何使用多样性信息取决于生物环境。毫无疑问,生物数量的增加增加了从该生物中取样读数的可能性;然而,这种关系几乎可以肯定是非线性的,取决于物种和实验装置(摩根等。,2010). 因此,如何在特定情况下解释和处理多重性,最好由研究人员利用其对所研究环境的了解和实验程序的细节来决定。

5.讨论

5.1. 其他方法

5.1.1. 操作分类单元

本文描述的方法是对基于“操作分类单元”(OTU)的比较方法的补充。OTU是一组读取,假设这些读取代表单个物种的读取,通常通过使用固定百分比的序列相似性截止值进行启发式定义。然后通过比较不同样本中各种OTU的频率进行比较分析。关于基于OTU的方法或基于系统发育的方法是否优于例如Schloss的方法,存在一些争议(2008)和Lozupone等。(2010)-但大多数研究都将两者结合使用,主要的软件包实现了两者。库钦斯基最近对OTU丰度的距离进行了比较研究等。(2010).

5.1.2. 其他系统发育方法

除了这里介绍的方法外,还有多种方法可以在系统发育背景下比较微生物样本。比较样本的一种常用方法是“简约测试”,通过该测试可以找到系统发育树内部节点对群落的最简约分配;由此得出的简约分数被解释为衡量社区之间的差异(Slatkin和Maddison,1989; Schloss和Handelsman,2006). 另一个有趣的方法是考虑“广义主成分分析”,其中树结构被纳入到寻找物种丰度主成分的过程中(Bik等。,2006; 纯粹,2008). KR度量是对这些方法的补充,它提供了一种比较样本的方法,利用已建立的统计方法,考虑到读取位置的不确定性,并且可以直接在树上可视化。

还有其他指标可以用来比较系统发育树上的概率分布。统计学家最熟悉的概率分布度量,而不是总变化距离,可能是Prohorov度量,因此他们可能会觉得使用它比使用KR度量更舒服。然而,Prohorov度量是根据在树上似乎没有闭合形式解的优化定义的,在任何情况下,对于紧度量空间,都有一些结果通过KR度量的函数来约束上下Prohorof度量(参见Ethier和Kurtz的问题3.11.2(1986))因此,这两个指标包含了关于一对分布之间差异的非常相似的信息。

5.2. 系统发育树上概率分布的重心

通过计算适当定义的质心来比较度量空间上的概率分布是有用的,该质心为每个分布提供了单点汇总。回忆一下标准事实,如果P(P)是欧几里德空间上的概率分布,因此|x个|2P(P)(d))对某些(因而对所有)而言是有限的x个,然后是函数x个↦∫|x个|2P(P)(d))具有唯一的最小值x个0=∫P(P)(d)). 概率分布P(P)关于任意度量空间(S公司,第页)具有重心或重心x个0如果б第页(x个,)2P(P)(d))对某些(因而对所有)而言是有限的x个和功能x个↦∫第页(x个,)2P(P)(d))具有唯一的最小值x个0根据上面介绍的概念,重心是关键x个使Z轴2-点质量之间的距离δx个P(P).

一般度量空间不需要存在重心。然而,众所周知,上的概率分布确实存在重心哈达玛空间Hadamard空间是一个单连通的完备度量空间,其中有一个关于空间中路径长度的适当概念,两点之间的距离是连接这些点的路径长度的下确界,并且空间具有适当意义上的非正曲率-参见Burago等。(2001). 等价地,Hadamard空间是Bridson和Haefliger意义上的完整CAT(0)空间(1999).

检查树是否是Hadamard空间是一个简单的练习——参见Bridson和Haefliger的例子II.1.15(4)(1999)并注意Bridson和Haefliger定义II.1.1后的注释(1999)Hadamard空间与完整的CAT(0)空间是一样的。请注意,CAT(0)空间已经出现在系统发育树空间描述的系统发育学中(Billera等。,2001).

树上重心的存在性(T型,d日)也可以直接建立如下。作为紧度量空间上的连续函数(f):T型+由定义(f)(x个):=T型d日(x个,)2P(P)(d日)达到其下确界。假设下确界在两点处实现x个x个′′.定义函数γ:[0,d日(x个,x个)][x个,x个],其中[x个,x个]T型是介于x个x个′′,根据要求γ(t吨)是唯一的一点[x个,x个]那是距离t吨x个.检查成分很简单(f)γ强凸,即。

用于0<α<1和第页,[0,d日(x个,x个)]特别地,(f)[γ{d日(x个,x个)/2}]=((f)γ){d日(x个,x个)/2}<{(f)(x个)+(f)(x个)}/2,与x个x个′′因此,树上的概率分布在上述意义上具有重心。

接下来我们考虑如何计算概率分布的重心P(P)在树上(T型,d日). 对于每个点u个 ∈ T型离开时,有一组相关的方向可以继续u个。的每个连接组件都有一个方向T型∖{u个}. 因此,只有一个方向与叶子关联,两个方向与树枝内部的一个点关联k个与度顶点相关k个.给一分u个和一个方向δ,写入T型(u个,δ)对于的子集T型由点组成v(v)u个这样,连接的唯一路径u个v(v)离开u个在这个方向δ,套

并注意到

限额被接管的地方v(v)u个,v(v) ∈ T型(u个,δ). 如果u个位于分支的内部[,b条]以及b条在这个方向δu个,u个在这个方向α,以及u个在方向上βb条,然后

如果,对于某个顶点u个参考树的,D类(u个,δ)所有方向都大于0δ与关联u个,然后u个是重心(本例中包括平凡情况,其中u个是一片叶子P(P)专注于u个). 如果没有这样的顶点,那么必须有一对唯一的相邻顶点b条这样的话D类(,α)<0和D类(b条,β)<0,其中α是来自的方向指向b条β是来自的方向b条指向在这种情况下,重心必须位于b条,根据上面的计算,重心就是点u个 ∈ (,b条)这样的话d日(,u个)=−D类(,α).

5.3.Z轴22(P(P),)(P(P),)和方差分析

在本节中,我们将演示如何Z轴22(P(P),)可以解释为成对距离的混合平均值与每个样本的平均值之间的差异。

如上所述,让π1,,ππ+1,,π+n个分别是第一个和第二个样品中的放置位置,以便πk个是树上的概率分布T型,P(P)=(1/)Σ=1π=(1/n个)Σj个=+1+n个πj个.设置

调用T型-有值随机变量X(X),X(X),Y(Y)Y(Y)′′出现在方程式(eq8).如果′′{0,1}-值随机变量{=1}={=1}=/(+n个)X(X),X(X)′′,Y(Y),Y(Y)′′,′′是独立的,然后定义Z轴Z轴′′通过Z轴=X(X)关于事件{=1}(和Z轴=X(X)关于事件{′′=1})和Z轴=Y(Y)关于事件{=0}(和Z轴=Y(Y)关于事件{′′=0})给出两个T型-具有共同分布的有值随机变量.

它很容易从方程(eq8)那个

因此,Z轴22(P(P),)显示了集合中的“可变性”πk个, 1⩽k个+n个,这超过了两个系列的可变性π, 1⩽,以及πj个,+1⩽j个+n个.

6.结论

随着测序速度的加快和成本的降低,为给定基因收集大量数据集将变得越来越普遍。系统发生位置可以为查询序列提供进化上下文,从而使每个数据集在系统发生树上表示为概率分布。KR度量是比较这些概率分布的自然方法。在本文中,我们表明加权UniFrac度量是用于点放置的系统发育KR度量。我们探讨了KR度量的Zolotarev型推广,展示了如何近似极限分布,并与方差分析建立了联系。

当我们想要比较树上的两个概率分布时,可以随时使用系统发育KR度量及其推广。然而,我们的软件实现是根据元基因组和元转录组研究设计的;因此,它与系统发育定位软件紧密集成苹果机(马森等。,2010). 通过两个以上的样本,主成分分析和层次聚类可以应用于基于KR距离的成对集群环境距离,就像UniFrac(Lozupone和Knight,2005; 洛祖波内等。,2008; 哈马迪等。,2009). 我们最近开发了利用这些数据的特殊结构的这些技术的版本(Matsen等。,2011).

这里没有探讨的另一个潜在的未来扩展是以主成分的方式将树划分为单个数据集的子集。回想一下方程式(eq8)给出了协方差核Γ的特征函数的一个公式M(M).对于任何k个,我们可以根据第一个乘积的符号将树划分为子集k个特征函数,类似于用与第一个超平面相关联的超平面划分欧几里德空间k个传统主成分分析中的特征向量。

未来的方法还需要考虑DNA提取过程的细节。最近的工作表明,由于生物体之间DNA提取的难易程度不同,目前的实验室方法无法恢复绝对混合比例(Morgan等。,2010). 然而,假设使用一致的DNA提取方案,则可以测量具有固定实验室方案的给定生物体的样本之间的相对丰度。下一个重要的步骤是将这种特定于生物体的偏见纳入本文所述的分析中。

致谢

第一位作者得到了国家科学基金会拨款DMS-0907630的部分支持。第二位作者得到了加州大学伯克利分校米勒科学基础研究所、弗雷德·哈钦森癌症研究中心启动基金和国家卫生研究院拨款HG005966-01的支持。

作者很感激罗宾·科德纳给了她磅/平方英寸Armbrust实验室提供建议并使用其计算集群,Mary Ann Moran和她的实验室允许我们使用她从二甲基磺酸盐实验中获得的元基因组样本,David Donoho提出有趣的建议,Steve Kembel提供有用的对话,Aaron Gallagher提供编程支持。

联合主编、副主编和两位审稿人的建议大大改进了手稿。

工具书类

安布罗西奥
,
L。
,
吉利
,
N。
萨瓦雷
,
G.公司。
(
2008
)
度量空间和概率测度空间中的梯度流
,第2版。
巴塞尔
:
Birkhä用户
.

贝克
,
B。
班菲尔德
,
J。
(
2003
)
酸性矿井排水中的微生物群落
.
Fed.Eur.微生物。Soc.微生物。经济。
,
44
,
139
152
.

伯杰
,
美国。
,
Krompass公司
,
D。
斯塔马塔基斯
,
答:。
(
2011
)
性能、准确性和web服务器,用于在最大似然下进化放置短序列读取
.
系统。生物。
,
60
,
291
.

自行车
,
E。
,
埃克堡
,
第页。
,
,
美国。
,
纳尔逊
,
英国。
,
Purdom公司
,
E。
,
弗朗索瓦
,
F、。
,
佩雷斯-佩雷斯
,
G.公司。
,
运动鞋
,
M。
雷尔曼
,
D。
(
2006
)
人体胃内细菌菌群的分子分析
.
程序。国家。科学院。美国
,
103
,
732
.

比莱拉
,
L。
,
福尔摩斯
,
美国。
沃格特曼
,
英国。
(
2001
)
系统发育树空间的几何学
.
高级申请。数学。
,
27
,
733
767
.

博加乔夫
,
五、一、。
(
1998
)
高斯测度
.
普罗维登斯
:
美国数学学会
.

布里德森
,
M.R.先生。
海富里热
,
答:。
(
1999
)
非正曲率度量空间
.
柏林
:
施普林格
.

布拉戈
,
D。
,
布拉戈
,
年。
伊万诺夫
,
美国。
(
2001
)
公制几何课程
.
普罗维登斯
:
美国数学学会
.

卡波拉索
,
J。
,
库津斯基
,
J。
,
斯托姆堡
,
J。
,
比廷(Bittinger)
,
英国。
,
布什曼
,
F、。
,
科斯特洛
,
E。
,
菲勒
,
N。
,
佩尼亚
,
答:。
,
古德里奇
,
J。
,
戈登
,
J。
,
赫特利
,
G.公司。
,
凯利
,
美国。
,
骑士
,
D。
,
柯尼格
,
J。
,
莱伊
,
R。
,
洛祖波内
,
C、。
,
麦当劳
,
D。
,
穆格
,
B。
,
皮龙
,
M。
,
Reeder公司
,
J。
,
塞文斯基
,
J。
,
特恩堡
,
第页。
,
沃尔特斯
,
西。
,
维德曼
,
J。
,
Yatsunenko公司
,
T。
,
扎内维尔
,
J。
奈特
,
R。
(
2010
)
QIIME允许分析高通量社区测序数据
.
自然法。
,
7
,
335
336
.

任务
,
C、。
,
罗德里格斯-布里托
,
B。
,
雷霍克
,
美国。
,
凯利
,
美国。
,
Tran公司
,
T。
,
海恩斯
,
M。
,
线路接口单元
,
H。
,
富兰
,
M。
,
韦格利
,
L。
,
,
B。
,
,
年。
,
霍尔
,
D。
,
Angly公司
,
F、。
,
爱德华兹
,
R。
,
,
L。
,
瑟伯
,
R。
,
里德
,
R。
,
西费特
,
J。
,
苏扎
,
五、。
,
情人
,
D。
,
天鹅
,
B。
,
布赖特巴特
,
M。
罗韦尔
,
F、。
(
2008
)
现代叠层石和溶栓岩中噬菌体的生物多样性和生物地理学
.
自然
,
452
,
340
343
.

涡流
,
美国。
(
1998
)
剖面隐马尔可夫模型
.
生物信息学
,
14
,
755
763
.

埃德金顿
,
E.S.公司。
Onghena村
,
第页。
(
2007
)
随机试验
,第4版。
博卡拉顿
:
查普曼和霍尔-CRC
.

埃塞俄比亚人
,
序号。
库尔茨
,
T.G.公司。
(
1986
)
马尔可夫过程:特征和收敛性
.
纽约
:
威利
.

费尔森施泰因
,
J。
(
2004
)
推断系统发育
.
桑德兰
:
西努埃尔
.

菲勒
,
N。
,
哈马迪
,
M。
,
劳伯
,
C、。
奈特
,
R。
(
2008
)
性利手和洗手对手表面细菌多样性的影响
.
程序。国家。阿卡德。科学。美国
,
105
,
17994
17999
.

费希尔
,
注册会计师。
(
1935
)
实验设计
.
纽约
:
哈夫纳
.

弗兰克
,
D。
,
圣阿曼德
,
答:。
,
费尔德曼
,
R。
,
Boedeker公司
,
E。
,
哈帕斯
,
N。
步伐
,
N。
(
2007
)
人类炎症性肠病微生物群落失衡的分子遗传学特征
.
程序。国家。阿卡德。科学。美国
,
104
,
13780
.

吉迪恩
,
注册会计师。
古尔兰
,
J。
(
1976
)
正态变量中二次型的级数展开
.
《美国统计杂志》。助理。
,
71
,
227
232
.

,
美国。
,
流行音乐
,
M。
,
DeBoy公司
,
R。
,
埃克伯格
,
第页。
,
特恩堡
,
第页。
,
塞缪尔
,
B。
,
戈登
,
J。
,
雷尔曼
,
D。
,
弗雷泽-利格特
,
C、。
纳尔逊
,
英国。
(
2006
)
人类远端肠道微生物组的宏基因组分析
.
科学类
,
312
,
1355
1359
.

很好
,
第页。
(
2005
)
假设的置换、参数和自举检验
,第3版。
纽约
:
施普林格
.

古尔兰
,
J。
(
1955
)
定和不定二次型的分布
.
安。数学。统计师。
,
26
,
122
127
.

哈马迪
,
M。
,
洛祖波内
,
C、。
奈特
,
R。
(
2009
)
Fast UniFrac:促进微生物群落的高通量系统发育分析,包括焦磷酸测序和PhyloChip数据分析
.
国际微生物学会。经济。J。
,
4
,
17
27
.

哈特曼
,
答:。
,
谜语
,
美国。
,
麦克菲利普斯
,
T。
,
卢达舍尔
,
B。
艾森
,
J。
(
2010
)
WATERS:核糖体序列比对、分类和生态学的工作流程
.
BMC生物信息。
,
11
,
317
.

黄星京
,
C.-R.公司。
(
1980
)
希尔伯特空间中大球的高斯测度
.
程序。美国数学。Soc公司。
,
78
,
107
110
.

耆那教
,
北卡罗来纳州。
马库斯
,
医学学士。
(
1978
)亚高斯过程的连续性。
Banach空间上的概率
,第页。
81
196
.
纽约
:
德克尔
.

卡伦伯格
,
O。
(
2001
)
现代概率论基础
,第2版。
纽约
:
施普林格
.

科萨科夫斯基池塘
,
美国。
,
舍夫勒
,
英国。
,
格雷夫纳
,
M。
,
Poon(水池)
,
答:。
霜冻
,
美国。
(
2010
)
基因进化指纹图谱
.
摩尔。生物进化
,
27
,
520
536
.

克茨
,
美国。
,
约翰逊
,
不适用。
博伊德
,
D.W.公司。
(
1967
)
正态变量二次型分布的级数表示:I,中心情形
.
安。数学。统计师。
,
38
,
823
837
.

库津斯基
,
J。
,
线路接口单元
,
Z.公司。
,
洛祖波内
,
C、。
麦当劳
,
D。
(
2010
)
微生物群落相似性方法检测生物相关模式的能力不同
.
自然法。
,
7
,
813
819
.

洛祖波内
,
C、。
,
哈马迪
,
M。
,
康塔雷尔
,
B。
,
库蒂尼奥
,
第页。
,
亨利赛特
,
B。
,
戈登
,
J。
奈特
,
R。
(
2008
)
人体肠道微生物中碳水化合物活性基因库的聚合
.
程序。国家。阿卡德。科学。美国
,
105
,
15076
15081
.

洛祖波内
,
C、。
,
哈马迪
,
M。
,
凯利
,
美国。
奈特
,
R。
(
2007
)
定量和定性β多样性测量导致对微生物群落结构因素的不同见解
.
申请。环境。微生物。
,
73
,
1576
.

洛祖波内
,
C、。
奈特
,
R。
(
2005
)
UniFrac:一种比较微生物群落的新系统发育方法
.
申请。环境。微生物。
,
71
,
8228
8235
.

洛祖波内
,
C、。
,
拉德泽
,
米。
,
骑士
,
D。
,
斯托姆鲍
,
J。
奈特
,
R。
(
2010
)
UniFrac:微生物群落比较的有效距离度量
.
国际微生物学会。经济。J。
,
5
,
169
172
.

马森
,
F、。
,
霍夫曼
,
N。
埃文斯
,
美国。
(
2011
)
边缘主成分和南瓜聚类:利用系统发育位置数据的特殊结构进行样本比较
。(可从http://arxiv.org/abs/107.5095.)

马森
,
F、。
,
德纳
,
R。
扶手刷
,
E。
(
2010
)
pplacer:线性时间最大似然和贝叶斯系统发育定位
.
BMC生物信息。
,
11
,
538
.

莫尼尔
,
答:。
,
克拉弗里
,
J。
尾形
,
H。
(
2008
)
海洋中大型DNA病毒的分类分布
.
基因组生物学。
,
9
,
106兰特
.

摩根
,
J。
,
亲爱的
,
答:。
艾森
,
J。
(
2010
)
体外模拟微生物群落的宏基因组测序
.
PLOS ONE系列
,
5
,文章e10209。

帕加雷斯
,
J。
(
1955
)
关于定二次型分布的注记
.
安。数学。统计师。
,
26
,
128
131
.

皮特曼
,
E·J·G。
(
1937年
)
适用于任何人群样本的显著性检验
.
J.R.统计。Soc.,供应。
,
4
,
119
130
.

皮特曼
,
E·J·G。
(
1937年b
)
适用于任何人群样本的显著性检验:II,相关系数检验
.
J.R.统计。Soc.,供应。
,
4
,
225
232
.

皮特曼
,
E。
(
1938
)
适用于任何人群样本的显著性检验:III,方差分析检验
.
生物特征
,
29
,
322
335
.

Purdom公司
,
E。
(
2008
)
用图表分析数据:宏基因组数据和系统发育树。技术报告766
.
加州大学伯克利分校
,
伯克利
。(可从http://stat-reports.lib.berkeley.edu/accessPages/766.html.)

拉切夫
,
S.T.公司。
(
1991
)
概率度量与随机模型的稳定性
.
奇切斯特
:
威利
.

拉切夫
,
S.T.公司。
吕申多夫
,
L。
(
1998
)
质量运输问题,第一卷,概率及其应用
.
纽约
:
施普林格
.

罗尔斯
,
J。
,
马霍瓦尔德
,
M。
,
莱伊
,
R。
戈登
,
J。
(
2006
)
从斑马鱼和小鼠到无菌受体的相互肠道微生物群移植揭示了宿主栖息地选择
.
单元格
,
127
,
423
433
.

林塔拉
,
H。
,
皮卡兰塔
,
M。
,
托伊沃拉
,
M。
,
波林
,
L。
纳瓦莱恩
,
答:。
(
2008
)
室内环境中细菌群落的多样性和季节动态
.
BMC微生物。
,
8
,
56
.

罗宾斯
,
H。
皮特曼
,
E·J·G。
(
1949
)
混合方法在正态变量二次型中的应用
.
安。数学。统计师。
,
20
,
552
560
.

鲁本
,
H。
(
1962
)
球面正态分布下区域的概率内容:IV,正态变量齐次和非齐次二次函数的分布
.
安。数学。统计师。
,
33
,
542
570
.

施洛斯
,
第页。
(
2008
)
评估测试微生物群落是否具有相同结构的不同方法
.
国际微生物学会。经济。J。
,
2
,
265
275
.

施洛斯
,
第页。
汉德尔斯曼
,
J。
(
2006
)
介绍TreeClimer,一种比较微生物群落结构的测试
.
申请。环境。微生物。
,
72
,
2379
2384
.

施洛斯
,
第页。
,
韦斯科特
,
美国。
,
里亚宾
,
T。
,
霍尔
,
J。
,
哈特曼
,
M。
,
霍利斯特
,
E。
,
莱希涅夫斯基
,
R。
,
奥克利
,
B。
,
公园
,
D。
,
罗宾逊
,
C、。
,
萨赫勒
,
J。
,
斯特雷斯
,
B。
,
Thallinger公司
,
G.公司。
,
范霍恩
,
D。
韦伯
,
C、。
(
2009
)
介绍方法:用于描述和比较微生物群落的开源、平台依赖、社区支持的软件
.
申请。环境。微生物。
,
75
,
7537
7541
.

斯拉特金
,
M。
麦迪逊
,
水压力。
(
1989
)
根据等位基因系统发育推断的基因流分支测量
.
遗传学
,
123
,
603
613
.

斯塔马塔基斯
,
答:。
(
2006
)
RAxML-VI-HPC:利用数千个分类群和混合模型进行基于最大似然的系统发育分析
.
生物信息学
,
22
,
2688
2690
.

维拉·科斯塔
,
M。
,
林塔-关东
,
J。
,
太阳
,
美国。
,
沙尔马
,
美国。
,
波列茨基
,
R。
莫兰
,
M。
(
2010
)
富含二甲基磺酸盐的海洋细菌群落的转录组学分析
.
国际微生物学会。经济。J。
,
4
,
1410
1420
.

维拉尼
,
C、。
(
2003
)
最佳运输主题
.
普罗维登斯
:
美国数学学会
.

维拉尼
,
C、。
(
2009
)
最佳运输
.
柏林
:
施普林格
.

冯·梅林
,
C、。
,
雨根霍尔茨
,
第页。
,
Raes公司
,
J。
,
Tringe公司
,
美国。
,
德克斯
,
T。
,
詹森
,
L。
,
病房
,
N。
博克
,
第页。
(
2007
)
不同环境中微生物群落的定量系统发育评估
.
科学类
,
315
,
1126
1130
.

白色
,
J。
,
纳瓦拉卡
,
美国。
,
纳加拉扬
,
N。
,
古德西
,
M.R.先生。
,
金斯福德
,
C、。
流行音乐
,
M。
(
2010
)
系统发育标记的比对和聚类——微生物多样性研究的暗示
.
BMC生物信息。
,
11
,
152
.

本文根据牛津大学出版社标准期刊出版模式的条款出版和发行(https://academic.oup.com/journals/pages/open_access/funder_policies/chorus/standard_publication_model)