应用环境微生物。2005年3月;71(3): 1501–1506.
介绍DOTUR,一个用于定义操作分类学单位和估算物种丰富度的计算机程序
和*
帕特里克·D·施洛斯
威斯康星州麦迪逊市威斯康星大学植物病理学系
乔·汉德尔斯曼
威斯康星州麦迪逊市威斯康星大学植物病理学系
威斯康星州麦迪逊市威斯康星大学植物病理学系
*通讯作者。通讯地址:威斯康星大学麦迪逊分校植物病理学系,1630 Linden Dr.,Madison,WI 53706。电话:(608)263-8783。传真:(608)265-5289。电子邮件:ude.csiw.htaptnalp@hoj. 收稿日期:2004年5月19日;2004年10月13日接受。
摘要
虽然大量的定性信息描述了地球上不同微生物群落的成员,但缺乏量化和比较群落谱系数量和组成的统计方法。我们提出了一种基于序列间遗传距离将序列分配给操作分类单元(OTU)的方法。我们开发了一个计算机程序DOTUR,它通过对每个距离级别使用最远、平均或最近邻算法来为OTU分配序列。DOTUR使用观察每个OTU的频率来构建稀薄度和收集器曲线,以测量丰富度和多样性。我们使用DOTUR分析了来自苏格兰和亚马逊河土壤以及马尾藻海的16S rRNA基因库,DOTUR根据序列之间的遗传距离快速可靠地将序列分配给OTU,并识别了之前分配给OTUs序列时的不一致和错误。对来自土壤的两个16S rRNA基因库的分析表明,它们没有包含足够的序列来支持这样一种说法,即它们包含不同数量的具有统计置信度的细菌谱系(P(P)>0.05),当OTU被定义为包含彼此差异不超过3%的序列时,它们也不包含足够的序列来提供物种丰富度的稳健估计。相反,在对690个序列进行采样后,马尾藻海采集物中3%水平的OTU丰富度开始趋于稳定。我们预计,对土壤进行同等程度的采样需要采样10000多个序列,几乎是从土壤中获得的典型序列集的100倍。
微生物生态学的一个突出挑战是基于16S rRNA基因序列估计物种丰富度。可用于解决这一挑战的计算方法有限。序列通常分为操作分类单元(OTU)或门型,两者都由电泳模式定义(9,12,18)或DNA序列(1,21). 通过电泳模式筛选独特的16S rRNA基因可能会因具有相同模式的差异超过3%的序列或具有不同模式的差异小于3%的序列而变得复杂(9,22). 核苷酸序列提供了更精确的分析。同一性大于97%的序列通常归属于同一物种,同一性>95%的序列通常归类于同一属,而同一性>80%的序列则通常归属于相同的门,尽管这些区别存在争议(1,2,11,13,21,24,29). 遗传距离近似等于身份百分比的倒数。这些临界值只是历史分类与现代16S rRNA基因测序的最佳匹配,而不是经过严格验证的层次结构。
有几种方法可以根据序列数据快速将序列分配给OTU(26). 调查人员通常手动分析距离矩阵中小于截止水平的值。当三个或多个序列之间的距离关系不可传递时,这种方法会产生问题,这会强制创建一个可能无法一致执行的决策规则。此外,手动将决策规则应用于大距离矩阵可能过于笨拙、繁琐和耗时,难以准确。
为了快速准确地将序列分配给OTU,我们开发了DOTUR(基于距离的OTU和Richness;源代码可从以下作者处获得:http://www.plantpath.wisc.edu/fac/joh/dotur.html)一株PHYLIP(http://evolution.genetics.washington.edu/phylip.html)-生成的距离矩阵用作DOTUR的输入文件,DOTUR为OTU分配每个可能距离的序列。DOTUR然后计算用于构建观测OTU、多样性指数和丰富度估计器的随机稀疏度和收集器曲线的值。本文通过分析和比较从土壤和海水中构建的16S rRNA基因文库,展示了DOTUR的灵巧性,这些文库已与以前的报告中的其他方法进行了研究。
材料和方法
DOTUR中的序列分配。
DOTUR中有三种序列分配方法:最近邻、最远邻和平均邻。当一个对象(单个序列或序列组)与其所连接的对象中的任何序列相似时,最近邻(即单个链接)算法将构造一个链接。最远邻(即完全链接)方法是一种更具约束性的标准,它仅在序列与所加入组中的所有序列相似时才将序列分配给对象。平均邻域方法(即使用算术平均值的未加权成对组方法)查找两个最相似的实体,并通过平均连接的实体与所有其他实体之间的差异来链接它们。其他地方提供了这些方法的更完整描述(17),DOTUR网站上的手册中显示了手动计算的示例。
DOTUR中的富裕程度估计。
DOTUR旨在计算各种多样性指数和丰富度估值器。多样性指数和丰富度估计器有助于比较两个或多个群落的相对复杂性,并估计群落采样的完整性。一旦DOTUR将序列分配给OTU,它将执行随机采样,无需更换程序。从OTU中提取代表的概率是观察OTU的次数除以库中序列的总数。对于每次随机化,DOTUR计算Shannon Weaver和Simpson多样性指数(19),基于丰度的覆盖估计器(ACE)(5,6)和修正了偏差的Chao1(4),内插折刀(三),和引导程序(28)在适用的情况下,丰富度估值器具有95%置信区间(CI),作为抽样努力的函数。DOTUR网站上的手册中提供了示例计算。
如果序列是按照获得的顺序输入的,DOTUR可以通过绘制CI与测序工作来确定需要多少序列才能获得期望的估计精度水平,从而为每个估计构建实际的收集器曲线。DOTUR网站上提供了本文分析的所有序列集合的输入和输出数据。
结果
序列分配的验证和评估。
为了测试DOTUR,我们分析了用改良的苏格兰土壤构建的克隆文库(21)(表; 图。). 使用ClustalW校准序列(ftp://ftp.ebi.ac.uk/pub/software/unix/clustalw/),并且我们构造了一个Jukes-Cantor校正距离矩阵(10)使用PHYLIP的DNADIST程序。我们应用了DOTUR中实现的最近邻、平均邻和最远邻分配算法,并对每种分配算法分别观察到114、115和116个OTU(表). 使用最远邻算法在3%的距离处观察到的频率分布与McCag等人描述的分布相同(21),表明DOTUR进行了适当的分配。
使用最远邻分配算法和未改进的苏格兰土壤16S rRNA基因库对不同距离水平进行DOTUR分析得出的稀疏曲线(A)和谱系穿透时间图(B)。误差条代表95%置信区间。
表1。
苏格兰和亚马逊河土壤16S rRNA基因采集的频率分布和丰富度估计的各种技术比较一
16S rRNA基因库来源 | 分析方法 | 序列总数 | 唯一OTU数量 | 带有n的OTU数量x序列b条
|
---|
n个1 | n个2 | n个三 | n个4 | n个5 | n个6 |
---|
苏格兰土壤 | 麦凯格 | 137 | 114 | 98 | 12 | 2 | 1 | 1 | 0 |
| 休斯 | 137 | 113 | 96 | 13 | 2 | 1 | 1 | 0 |
| FastGroup(快速分组) | 137 | 131 | 127 | 三 | 0 | 1 | 0 | 0 |
| 神经网络 | 137 | 112 | 96 | 12 | 2 | 0 | 1 | 1 |
| AN公司 | 137 | 113 | 97 | 12 | 2 | 0 | 2 | 0 |
| FN公司 | 137 | 114 | 98 | 12 | 2 | 1 | 1 | 0 |
亚马逊土壤 | FN公司 | 98 | 84 | 75 | 6 | 1 | 2 | 0 | 0 |
以前曾尝试将此数据集中的序列分配给OTU。苏格兰土壤研究的作者在3%的距离水平上确定了114个(表;21),然而也有113份报告(14). 这些分析说明了DOTUR如何提供比手动序列计数更好的准确性,并且随着克隆库大小的增加,这种准确性水平将变得更加重要。我们还使用了FastGroup计划(26),它选择一个参考序列,与其他每个序列进行比较。如果查询序列在指定的相似度百分比范围内,则它将加入组。此方法与最近邻方法类似,但FastGroup将每个查询序列与单个引用序列进行比较,而不是与OTU中的所有序列进行比较。该分析在3%的距离水平上产生了131个OTU。这种方法的问题是,结果可能会出现偏差,这取决于程序选择哪个序列作为参考。在这种情况下,赋值似乎过于保守。
当我们将DOTUR生成的数据与基于稀薄理论、手动计算和EstimateS输出的预期数据进行比较时(http://viceroy.eeb.uconn.edu/estimates网站),结果相似。DOTUR比EstimateS快得多(数据未显示)。此外,DOTUR执行了排序分配程序,而EstimateS无法执行。当DOTUR计算每个距离级别的各种丰富性和多样性参数时,它会生成单独的文件,可用于生成沿袭时间图,该图描述了不同进化距离中存在的OTU数量(图。). 此类分析已在其他地方进行了描述(20,23).
DOTUR在马尾藻海宏基因组序列中的应用。
最近,Venter等人(31)发布了一个广泛的测序项目,该项目包括近200万个测序读取,以及来自1.5-m复合物中未培养生物的总计1.7 Gbp三马尾藻海的样本。我们从GenBank FTPserver获得了每个序列读数(ftp://ftp.ncbi.nih.gov/pub/TraceDB/environmental_sequence公司/)并对每一个进行通用16S rRNA寡核苷酸筛选(8)和一个改良的通用RNA聚合酶基因(rpoB(转/分))寡核苷酸(16). 对于每个基因,我们提取了探针序列周围的300 bp,以便每个序列在基因内大致相同的位置开始和结束,并使最终基因库中的基因片段数量最大化。有690个16S rRNA部分基因片段和507个rpoB(转/分)最终序列集合中的片段。
我们将DOTUR应用于上述两个基因片段集合(图。和). 我们鉴定了114种16S rRNA和304种rpoB(转/分)使用Venter等人的6%物种差异定义(31)用于蛋白质编码序列。DOTUR分析表明,当我们改变rpoB(转/分)物种定义介于19%和21%之间的差异,95%置信区间为基于两个基因的最终丰富度估计重叠。通过稀疏分析,我们发现用途BOTU在16S rRNA物种片段稀疏曲线的95%置信区间内(取样507个序列时在90到104个物种之间)rpoB(转/分)物种定义差异在22%和23%之间,16S rRNA物种定义差异为3%。通过使用相同的方法,如果我们假设6%的差异适用于通过以下方式定义物种rpoB(转/分)序列,一个物种的所有成员都需要具有相同的16S rRNA序列rpoB(转/分)和16S rRNA丰度估计有重叠的95%CI。
稀疏曲线(A)和Chao1丰富度使用马尾藻海宏基因组序列中的部分16S rRNA基因序列估计收集器曲线(B)。误差条代表95%置信区间。
稀疏曲线(A)和Chao1丰富度使用偏微分估计采集器曲线(B)rpoB(转/分)马尾藻海宏基因组序列。误差条代表95%置信区间。
用于评估采样进度的采集器曲线。
非参数丰富度估计器,如ACE、Chao1、bootstrap和jackknife,使研究人员能够使用每个OTU的观测频率来估计群落中生物的丰富度,而无需对每个生物进行采样。我们将富裕程度估计比作完成一次基于样本的人口普查,其目的是确定一个国家的总人口数量,而不必考虑人口中的每一个人。由于不可能预先知道任何社区的真正丰富程度,我们必须确定一个标准,以确定获得准确统计普查所需的最少序列数。
在本报告的早些时候,我们使用稀疏曲线来比较两个群落(苏格兰和亚马逊河土壤)之间的相对丰富度,并比较用于测量丰富度的其他系统发育锚的适当截止阀(16S rRNA与rpoB(转/分)). 然而,如果我们对估计的丰富度(预计的OTU)和确定获得丰富度测量所需的序列数感兴趣,而不是测量相对丰富度,则有必要使用非随机收集器曲线。该分析假设绘制任何序列的概率与之前绘制的序列无关,并且我们不知道绘制每个序列的概率。确定克隆库中的丰富度的目的是确定绘制一个序列的概率,该序列将改变估计值。当该概率收敛到零时,估计是准确的概率很高,超过该点的持续采样将增加估计的置信度和精度。
由于稀疏曲线是大量随机采集器曲线的平均值,因此无法测量绘制序列的概率,从而改变丰富度估计值。Chao1丰富度估计的稀疏曲线创建了平滑曲线,其最终值是最终估计值。因此,稀薄曲线的形状将随着最终估计值的变化而变化。由于曲线是平滑的,当使用稀疏曲线时,测量估计值随附加序列变化的概率的能力将丢失,但收集器曲线的整体形状不会改变。当对新序列进行采样时,采集器曲线中的前面数据点保持不变,但终端估计值会发生变化。
以前使用Chao1估计稀疏曲线的研究表明,当非参数丰富度估计器稀疏曲线趋于平稳时,曲线收敛到的值是对真实丰富度的合理估计(14). 对来自改良苏格兰土壤的土壤克隆库的分析表明,作者确信,在137个序列取样后,真实物种丰富度为467,95%的置信区间在333和681 OTU之间。他们注意到,在大约70个序列之后,Chao1丰度估计稀疏曲线开始趋于平稳(14). 然而,当我们假设苏格兰土壤克隆库中的序列是按照其GenBank登录号的顺序取样的,并使用DOTUR计算Chao1丰富度估计值时,很明显,估计值随着额外的采样而继续增长,并且估计值对序列的添加很敏感(数据未显示)。此外,当我们使用收集器曲线分析95%置信区间作为采样努力的函数时,与测序努力存在适度的正相关(R(右)2=0.37),因此估计值的不确定性随着额外采样而增加。这些结果表明,333到681个OTU之间的95%置信区间很可能太低。这些结果被使用Chao1估计稀疏曲线掩盖。
我们构建了Chao1估计器的采集曲线,以研究马尾藻海16S rRNA片段采集,以评估物种3%差异定义下采样的完整性。Chao1估计器使用16S rRNA基因片段集合预测了至少198个物种(95%置信区间,187-211),使用用途B序列收集和20%差异的OTU定义(图。和). 在物种水平上,取样第230个16S rRNA基因片段后,没有瞬时5%的变化(图。). 取样时的物种丰富度为95种(95%置信区间为78至130),为690个序列取样后获得的丰富度的48%。尽管当采集到更多序列时,估计的变异性大大降低,但丰度估计值明显低于第690个序列取样后的观察值。为了提高估计的准确性,我们选择了2.5%的较小瞬时变化标准。在第662序列取样后,我们没有发现任何大于2.5%的瞬时变化;然而,在该点之后仅对28个序列进行了采样,这使得很难判断估计的稳健性。添加662序列后,物种丰富度为194种,与最终估计的198种(95%置信区间为163至258)没有显著差异。减少负偏差的另一种方法是假设在总共430个序列后停止采样,这比达到大于5%的最后一次瞬时变化所需的数量多了200个序列。在收集所有序列后,添加第430个序列后的丰富度估计为155种,或丰富度的78%。
我们考虑的最后一种方法是将OTU的定义放宽到门级别或20%的差异。在对486个序列进行采样后,我们没有发现34个门的Chao1估计值有任何瞬时变化。这一结果为估计提供了强大的信心,即当定义20%距离的OTU时,围绕34个OTU的估计值的95%CI(介于24和111之间)包含真正的丰富性。估计缺乏准确性是由于单点OTU的数量(n个1=7)相对于双OTU(n个2= 1). 随着单点OTU数量的减少,估计的精度将提高。
讨论
DOTUR通过使用所有可能的距离,快速、系统地将序列分配给OTU。在我们分析的两个克隆库中,DOTUR将序列分配给OTU比以前的方法更加准确和一致。DOTUR还协助评估测序工作的完整性和丰富度估计的可靠性。
DOTUR分析表明,不可能有信心地表明亚马逊图书馆的丰富度与改良的苏格兰土壤图书馆的丰富度不同。然而,尽管与1g土壤中估计的物种丰富度相比,这些文库中的每个序列都相对缺乏,预计将在数千种物种中(30),进一步排序可能会显示库之间的丰富性差异。此外,其他地方描述的方法的应用可能表明,虽然这两个库的丰富程度相似,但它们的系统发育组成不同(20,25,27). 最后,物种丰富度或群落组成与生态机制之间的联系尚待确定。有可能两个社区的成员会有很大不同,但会进行类似的生物过程。
马尾藻海宏基因组序列的包含为DOTUR提供了一个有趣的应用,用于描述丰富度、比较用于基因的物种定义和系统发育信息,以及评估对估计值有信心所需的抽样水平。Venter等人(31)发现143种不同的16S rRNA,428种不同用途B我们发现114和303种不同的16S rRNA和rpoB(转/分)物种。这种差异可能是因为他们将分析限制在那些重叠至少40 bp的序列上,而我们要求所有序列重叠相同的300 bp。尽管在方法上存在这种差异,但他们通过使用用途B序列和我们预测了1040个物种的丰富度,使用了它们6%的差异物种定义,表明这些方法产生了可比较的结果。
由于DOTUR同时比较了多个OTU定义,我们能够使用16S rRNA和rpoB(转/分)基因序列。假设16S rRNA序列中3%的差异是物种的有效定义,那么蛋白质编码序列物种定义将接近20%。我们在蛋白质编码序列中发现了类似的结果rpoB(转/分)已被用作系统发育锚(数据未显示)。20%的值与之前使用蛋白质编码序列的物种定义相比,更符合6%。例如,DNA-DNA杂交分析中30%的差异用于区分物种。我们使用DOTUR解释了这两个基因进化速度的差异。一个潜在的担忧是,使用16S rRNA序列所做的任何估计都被夸大了,因为已知细菌的基因组中有该基因的多个拷贝。虽然据预测,大多数控制环境的生长缓慢的细菌平均每个基因组接近1个拷贝(15)单个基因组的多个拷贝必须有超过3%的差异才能对我们的分析产生影响。如果基因组内变异性大于3%,16S rRNA OTU的数量将减少,导致蛋白质编码序列的物种定义更低。任何选择用于区分物种的距离水平都是任意的,因此也会引起争议,但它将成为未来分析的有用基准。
当观测到的不同OTU数量小于总丰富度平方根的两倍时,Chao1丰富度估计器与测序努力密切相关。如果我们假设一克土壤中大约有4000种OTU(30)150毫升海水(7)那么,在丰富度和测序努力之间的相关性开始下降之前,需要分别对至少125个和17个不同的OTU进行采样。然而,我们不知道需要多少序列才能达到测序工作和丰富度之间没有相关性的条件。在土壤样品中,我们证明当使用3%的距离来定义OTU时,137个序列不足以可靠地估计丰富度。使用马尾藻海样本,该样本被认为含有十分之一的土壤丰富度(7)我们发现,总共690个序列几乎足以准确估计物种丰富度,并且当使用20%的差异来定义OTU时,也足以估计丰富度。很可能需要至少10000个序列来接近土壤中真实物种丰富度的估计值。为了评估采样进度,我们建议跟踪丰度估计采集器曲线并采样,直到300个序列的丰度没有瞬时2.5%的变化。
当报道苏格兰和亚马逊河流域的土壤序列时,测序是相当昂贵和费力的。利用成本较低且基本自动化的现有技术,我们有机会生成和测序大型16S rRNA基因库,其大小可能足以提供准确的丰富度估计和比较,即使在物种丰富的环境中,如土壤中。
致谢
美国农业部土壤生物学博士后奖学金授予P.D.S.、美国国家科学基金会微生物观测计划(MCB-0132085)、霍华德·休斯医学研究所和威斯康星大学麦迪逊农业与生命科学学院为该项目提供了资金。
参考文献
1邦德、P.L.、P.雨根霍尔茨、J.凯勒和L.L.布莱克尔。1995年。序批式反应器中除磷和非除磷活性污泥的细菌群落结构。申请。环境。微生物。 61:1910-1916年间。[PMC免费文章][公共医学][谷歌学者] 2Borneman,J.和E.W.Triplett。1997年,亚马逊东部土壤中的分子微生物多样性:与森林砍伐有关的不寻常微生物和微生物种群变化的证据。申请。环境。微生物。 63:2647-2653.[PMC免费文章][公共医学][谷歌学者] 三。Burnham,K.P.和W.S.Overton。1979年。当捕获概率在动物之间变化时,对种群规模进行稳健估计。生态学 60:927-936页。[谷歌学者] 4A.赵。1984年人口中班级数量的非参数估计。扫描。J.统计。 11:265-270.[谷歌学者] 5Chao,A.和S.M.Lee。1992年。通过样本覆盖率估计班级数量。美国统计协会。 87:210-217.[谷歌学者] 6Chao,A.、M.C.Ma和M.C.K.Yang。1993年。故障率不等的重新捕获调试的停止规则和估计。生物计量学 80:193-201.[谷歌学者] 7柯蒂斯、T.P.、W.T.斯隆和J.W.斯坎内尔。2002.评估原核生物多样性及其限度。程序。国家。阿卡德。科学。美国 99:10494-10499.[PMC免费文章][公共医学][谷歌学者] 8Daims,H.、A.Bruhl、R.Amann、K.H.Schleifer和M.Wagner。1999.区域特异性探针EUB338不足以检测所有细菌:开发和评估更全面的探针集。系统。申请。微生物。 22:434-444. [公共医学][谷歌学者] 9Dunbar,J.、S.Takala、S.M.Barns、J.A.Davis和C.R.Kuske。1999.通过培养和16S rRNA基因克隆比较四种干旱土壤中的细菌群落多样性水平。申请。环境。微生物。 65:1662-1669.[PMC免费文章][公共医学][谷歌学者] 10Durbin,R.、S.R.Eddy、A.Krogh和G.Mitchison。生物序列分析:蛋白质和核酸的概率模型。剑桥大学出版社,英国剑桥。
11Everett、K.D.E.、R.M.Bush和A.A.Andersen。1999.命令的修订说明衣原体,建议副衣原体属家庭。11月和芯卡体科家庭。11月,每个包含一个单型属,修订了该科的分类衣原体科包括一个新属和五个新种,以及生物鉴定标准。国际期刊系统。细菌。 49:415-440. [公共医学][谷歌学者] 12Felske,A.、H.Rheims、A.Wolterink、E.Stackebrandt和A.D.L.Akkermans。1997。核糖体分析揭示了该类未培养成员的显著活性放线菌门在草原土壤中。微生物学 143:2983-2989. [公共医学][谷歌学者] 13Hugenholtz,P.、B.M.Goebel和N.R.Pace。1998年。非培养研究对新兴细菌多样性系统发育观的影响。《细菌学杂志》。 180:4765-4774.[PMC免费文章][公共医学][谷歌学者] 14休斯、J.B.、J.J.赫尔曼、T.H.里基茨和B.J.M.波哈南。2001.计算不可数:估算微生物多样性的统计方法。申请。环境。微生物。 67:4399-4406.[PMC免费文章][公共医学][谷歌学者] 15Klappenbach,J.A.、J.M.Dunbar和T.M.Schmidt。rRNA操纵子拷贝数反映了细菌的生态策略。申请。环境。微生物。 66:1328-1333.[PMC免费文章][公共医学][谷歌学者] 16Ko,K.S.,H.K.Lee,M.Y.Park,M.S.Park,K.H.Lee,S.Y.Woo,Y.J.Yun和Y.H.Kook。2002.种群遗传结构嗜肺军团菌从RNA聚合酶基因推断(rpoB(转/分))和DotA基因(dotA公司)序列。《细菌学杂志》。 184:2123-2130.[PMC免费文章][公共医学][谷歌学者] 17勒让德、P.和L.勒让德。1998年,数值生态学。纽约爱思唯尔。
18Liu、W.T.、T.L.Marsh、H.Cheng和L.J.Forney。1997.通过测定编码16S rRNA基因的末端限制性片段长度多态性来表征微生物多样性。申请。环境。微生物。 63:4516-4522.[PMC免费文章][公共医学][谷歌学者] 19马古兰,A.E。1988年,生态多样性及其测量。普林斯顿大学出版社,新泽西州普林斯顿。
20马丁·A·P。2002.描述和比较微生物群落多样性的系统发育方法。申请。环境。微生物。 68:3673-3682.[PMC免费文章][公共医学][谷歌学者] 21McCaig,A.E.,L.A.Glover和J.I.Prosser。1999.未改良和改良旱地草地细菌群落结构和多样性的分子分析。申请。环境。微生物。 65:1721-1730.[PMC免费文章][公共医学][谷歌学者] 22Moyer,C.L.、J.M.Tiedje、F.C.Dobbs和D.M.Karl。1996年。细菌小亚单位rRNA基因的计算机模拟限制性片段长度多态性分析:选定四聚体限制性内切酶在自然界微生物多样性研究中的功效。申请。环境。微生物。 62:2501-2507.[PMC免费文章][公共医学][谷歌学者] 23Nee,S.、R.M.May和P.H.Harvey。1994.重建的进化过程。菲洛斯。事务处理。R.Soc.B公司 344:305-311. [公共医学][谷歌学者] 24Sait,M.、P.Hugenholtz和P.H.Janssen。2002.培养全球分布的土壤细菌,来源于之前仅在培养依赖性调查中检测到的系统发育谱系。环境。微生物。 4:654-666. [公共医学][谷歌学者] 25Schloss,P.D.、B.R.Larget和J.Handelsman。2003年,微生物生态学与统计学的结合:一项比较基因库的测试。申请。环境。微生物。 70:5485-5492.[PMC免费文章][公共医学][谷歌学者] 26Seguritan,V.和F.Rohwer。2001.FastGroup:消除16S rDNA序列库复制的程序。BMC生物信息学 2:9[PMC免费文章][公共医学][谷歌学者] 27Singleton,D.R.、M.A.Furlong、S.L.Rathbun和W.B.Whitman。2001.环境样品16S rRNA基因序列库的定量比较。申请。环境。微生物。 67:4374-4376.[PMC免费文章][公共医学][谷歌学者] 28Smith,E.P.和G.van Belle。1984.物种丰富度的非参数估计。生物计量学 40:119-129.[谷歌学者] 29Stackebrandt,E.和B.M.Goebel。1994年,在细菌学的现有物种定义中,DNA-DNA重新结合和16S rRNA序列分析的位置。国际期刊系统。细菌。 44:846-849.[谷歌学者] 30Torsvik,V.、J.Goksoyr和F.L.Daae。1990.土壤细菌DNA的高度多样性。申请。环境。微生物。 56:782-787.[PMC免费文章][公共医学][谷歌学者] 31Venter,J.C.、K.Remington、J.F.Heidelberg、A.L.Halpern、D.Rusch、J.A.Eisen、D.Wu、I.Paulsen、K.E.Nelson、W.Nelson,D.E.Fouts、S.Levy、A.H.Knap、M.W.Lomas、K.Nealson、O.White、J.Peterson、J.Hoffman、R.Parsons、H.Baden-Tillson、C.Pfannkoch、Y.H.Rogers和H.O.Smith。2004年马尾藻海环境基因组鸟枪测序。科学类 304:66-74. [公共医学][谷歌学者]