Quantitative Comparisons of 16S rRNA Gene Sequence Libraries from Environmental Samples

David R. Singleton; Michelle A. Furlong; Stephen L. Rathbun; William B. Whitman

doi:10.1128/AEM.67.9.4374-4376.2001

应用环境微生物。2001年9月；67(9): 4374–4376.

数字对象标识：10.1128/AEM.67.9374-4376.2001年

预防性维修识别码：PMC93175型

采购管理信息：11526051

环境样品16S rRNA基因序列库的定量比较

大卫·R·辛格尔顿,¹ 米歇尔·福隆,¹ 斯蒂芬·L·拉思本,²和威廉·惠特曼^1,^*

作者信息文章注释版权和许可信息 PMC免责声明

摘要

为了确定环境rRNA基因序列的克隆文库之间的差异、同源覆盖曲线之间的差异、以及环境rRNA基因序列的克隆文库之间的差异的重要性，C_X（X）（D）和异源覆盖曲线，C_XY公司（D），通过Cramér-von Mises型统计进行计算，并通过蒙特卡罗测试程序进行比较。这种方法成功地将rRNA基因序列文库与土壤和生物反应器区分开来，但未能正确地发现相同组成的文库之间的差异。

对环境样品DNA克隆文库中16S rRNA基因进行测序，获得了丰富的原核多样性信息。然而，除了在制作代表环境样本的库时存在的方法学问题外（有关综述，请参阅参考文献8)这种方法还受到比较库和确定它们是否存在显著差异的困难的限制。

这个问题可以通过应用Good描述的覆盖率公式来定量解决(4). 让X（X）是序列的集合，例如16S rRNA基因库。定义“同源”覆盖范围X（X）（或C_X（X）)样本来自X（X）成为C_X（X）= 1 − (N个_X（X）/n个)，其中N个_X（X）是样本中唯一序列的数量（即没有复制的序列），以及n个是序列的总数。实际上N个_X（X）取决于用于定义唯一性的标准。例如，McCag等人(6)认为同源性不大于97%的序列是唯一的。其他作者使用≥99%的序列相似性作为标准。原则上，唯一性可以在序列相似性或进化距离的任何级别上定义(D类)和“同源覆盖曲线”，或C_X（X）（D），可以通过绘制生成C_X（X）与D类（图。（图1）。1). 然后，覆盖曲线描述了样本代表整个库的程度X（X）在不同层次上的关联。通常，在高度相关的情况下，覆盖率可能较低（低值D类)这表明，事实上，只有一小部分代表独特物种的序列被取样。相反，在低亲缘水平下，覆盖率可能要高得多，这表明大多数深层系统发育类群的代表存在于X（X）在样品中发现。

在单独的窗口中打开

图1

选定LIBSHUFF比较的结果。显示了来自环境样本的16S rRNA基因序列库的同源（○）和异源（●）覆盖曲线。实线表示(C_X（X）−C_XY公司)²对于原始样本的每个值D.D.迪拉姆等于PHYLIP的DNADIST程序确定的Jukes-Cantor进化距离(三). 虚线表示第950个值（或P（P）=0.05）(C_X（X）−C_XY公司)²对于随机样本。（A）草原土壤中与奇数土壤中无性系的比较(X（X）)甚至(Y（Y）)加入编号。（B）生物反应器克隆SBR1的比较(X（X）)和草原土壤SL克隆(Y（Y）). （C） C0的比较(X（X）)和S0(Y（Y）)来自干旱土壤的克隆。

While期间C_X（X）是的“同源覆盖”X（X）通过以下样本X（X），也可以计算X（X）（或C_XY公司)通过一个样本Y（Y）根据以下公式从另一组序列中提取：C_XY公司= 1 − (N个_XY公司/n个)，其中N个_XY公司是以下样本中的序列数X（X）在以下样本中未发现的Y（Y）和n个是样本中的序列数X（X）。类似于N个_X（X），N个_XY公司也可以定义为D类生成覆盖曲线，C_XY公司（D）此外，如果X（X）=Y（Y），人们可能会想到覆盖曲线C_X（X）（D）和C_XY公司（D）[以及C_Y（Y）（D）和C_YX公司（D）]类似。因此，测试这些覆盖曲线之间的差异也是测试X（X）和Y（Y）.确定覆盖曲线C_X（X）（D）和C_XY公司（D）明显不同，首先使用Cramér-von Mises检验统计量计算两条曲线之间的距离(7):

哪里D类增量为0.01。如果X（X）=Y（Y），则ΔC_XY公司应与Δ无显著差异C在两个样本之间随机洗牌序列后计算，X（X）和Y（Y）。通常，序列会被随机洗牌大量(N个)时间（例如。，N个=999）和ΔC_XY公司在每次洗牌后计算。随机值加上Δ的经验值C_XY公司从最大到最小排序，然后P（P）价值估计为第页/(N个+1），其中第页表示Δ经验值的等级C_XY公司(5). 当P（P）< 0.05. 我们已经创建了一个计算机程序（LIBSHUFF），它使用一个排序的距离矩阵，其中包含X（X）和Y（Y）作为输入并返回覆盖曲线C_X（X）（D），C_Y（Y）（D），C_XY公司（D）、和C_YX公司（D），以及P（P）两个Δ的值C_XY公司和ΔC_YX公司，根据Δ的分布C此外(C_X（X）−C_XY公司)²具有D类看起来信息丰富，也给出了（见下文）。计算机程序LIBSHUFF是用Perl编写的，可以在下载时附带有关其使用的详细说明http://www.arches.uga.edu/～whitman/libshuff.html.

对该方法进行了第一次测试，以确保来自同一个库的样本不会显示出差异。因此，克隆序列的集合(n个=275）来自土壤群落研究(6)根据加入数（138比数和137比数）分为两个样本。尽管该研究包含两个样本点（SL和SAF克隆）的序列，但将这两个位点的序列放入每个数据集中，以形成几乎相等的样本。Δ的比较C_{赔率/赔率}至ΔC值导致P（P）=0.871，这表明两个样品没有显著差异（图。（图1A）。1A） ●●●●。Δ的结果类似C_{偶数/赔率}和其他任意划分的序列库（表（表1）。1). 因此，正如预期的那样，从同一个库中提取的样本没有发现差异。

表1

环境克隆库的比较

站点（参考）	同源的(X（X）)		异源的(Y（Y）)	P（P）^b条
站点（参考）	克隆	n个	克隆	P（P）^b条
草地土壤（6）	可能性^一	138	埃文斯^一	0.871
	埃文斯^一	137	可能性^一	0.933
	苏丹武装部队	138	SL公司	0.120
	SL公司	137	苏丹武装部队	0.135
生物反应器（1）	可能性^一	95	埃文斯^一	0.853
	埃文斯^一	94	可能性^一	0.623
	SBR1型	97	SBR2型	0.308
	SBR2型	92	SBR1型	0.824
干旱土壤（2）	可能性^一^c（c）	56	埃文斯^一	0.251
	埃文斯^一	56	可能性^一^c（c）	0.516
	二氧化碳	59	第0期	0.042
	第0期	53	二氧化碳	0.398
草地土壤/生物反应器	苏丹武装部队	138	SBR1型	0.001
	SBR1型	97	苏丹武装部队	0.002
	SL公司	137	SBR1型	0.001
	SBR1型	97	SL公司	0.001

在单独的窗口中打开

^一具有奇数或偶数登录号的序列。包含参考中描述的两个库的混合，并且它们不应不同。

^b条的值第页/(N个+1）如文中所述。

^c（c）加入号码AF128647型找不到，未包含在内。

为了证明该程序能够正确区分来自不同文库的样本，从活性污泥（SBR1；n个= 97; 参考1)与草原土壤SL无性系进行了比较。发现SBR1克隆与SL克隆有显著差异(P（P）=0.001；图。图1B）。1B）。通过检查(C_X（X）−C_XY公司)²具有D类（图。（图1B）。1B）。处于低位D类，实际(C_X（X）−C_XY公司)²超过了可比值P（P）=计算Δ时获得的0.05C这一结果表明，图书馆在D类<0.10，但共享许多深层分类群。然而，在D类>0.3表明并非在两个文库中都发现了所有的深层系统发育类群。其他土壤和生物反应器库的比较也获得了类似的结果（表（表11和数据未显示）。

对由多个样本组成的三个序列收集进行分析，以确定是否可以检测到样本之间的差异（表（表1）。1). 从磷酸盐释放（SBR1）和非磷释放（SBR2）生物反应器微生物种群衍生的克隆库在某些类群的丰度上存在差异(1). 然而，通过我们的方法，这些差异并不显著（表（表1）。1). 改良（SL）和未改良（SAF）旱地草地土壤微生物群落的文库组成没有发现显著差异(6). 我们也通过我们的方法得出了相同的结论（表（表1）。1). 最后，对来自干旱土壤的两个克隆文库C0和S0的限制性片段长度类型进行比较，结果表明C0比S0更具多样性(2). 我们对本研究获得的序列的分析与这一结论一致，并进一步表明S0是C0的一个子集。ΔC_S0/C0类不显著，这表明S0中存在的所有分类群也存在于C0中（表（表1）。1). 然而，倒数ΔC_{二氧化碳/二氧化硫}显著；因此，C0还包含S0中未发现的一个或多个分类群的序列。(C_X（X）−C_XY公司)²具有D类进一步表明，C0中的额外分类群代表中等深度的系统发育类群，0.15<D类<0.25（图。（图11C） ●●●●。

样本大小应该对库的比较有重大影响。区分两个不同库所需的最小序列数预计会随着库的复杂性增加而增加，随着差异的大小而减少。通过使用两个具有高度多样性和差异性的库对这一点进行了详细检查。从文库SBR1或SL中随机选择不同数量的克隆序列(Y（Y）)和对面的图书馆相比(X（X）)、和P（P）测定了10个重复的值。分别需要来自SBR1和SL的大约20个和25个序列来区分这两个文库(P（P）<0.05）时X（X）分别由97和137个序列表示（图。（图2）。2). 还进行了测试，以调查X（X）（SBR1）当Y（Y）（SL）较小。发现当SL文库(Y（Y）)由20个序列表示（数据未显示）。当两个库的大小不同时，当SBR1(X（X）)和SL(Y（Y）)文库分别由≥40和≥30个序列表示（数据未显示）。虽然这些结果可能并不适用于所有环境样本，但它们应该是不同社区图书馆的代表性比较，例如土壤和生物反应器中的图书馆。重要的是，这些结果表明，与本研究中使用的那些复杂度相似的微生物群落中规模较小的文库将通过这种方法加以区分。

在单独的窗口中打开

图2

样本大小对图书馆鉴别的影响。草原土壤SL库的比较(Y（Y）;n个=变量）至生物反应器库SBR1(X（X）;n个=97）（●）和SBR1的比较(Y（Y）;n个=变量）库到SL(X（X）;n个=137）显示库（○）。每个点代表10次重复的平均值，误差线为1个标准偏差。虚线表示P（P）= 0.05.

致谢

我们感谢Kamyar Farahi和Rob Waldo在Perl编程方面提供的帮助。我们也感谢佐治亚大学统计咨询办公室的Lihua Wang提供的帮助。

NSF分子和细胞生物科学部（MCB-0084164）为这项工作提供了部分支持。

参考文献

1Bond P L，Hugenholtz P，Keller J，Blackall L L。序批式反应器中磷酸盐去除和非磷酸盐去除活性污泥的细菌群落结构。应用环境微生物。1995;61：1910年至1916年。 [PMC免费文章][公共医学][谷歌学者]

2Dunbar J、Takala S、Barns S M、Davis J A、Kuske C R。通过培养和16S rRNA基因克隆比较四种干旱土壤的细菌群落多样性水平。应用环境微生物。1999;65:1662–1669. [PMC免费文章][公共医学][谷歌学者]

三。费尔森斯坦J。PHYLIP（系统发育推断包）3.5c版。西雅图：华盛顿大学；1993[谷歌学者]

4Good I J.物种的种群频率和种群参数的估计。生物特征。1953;40:237–264. [谷歌学者]

5Hope A C A.简化的蒙特卡洛显著性检验程序。J皇家统计师Soc B。1968;30：582–598。 [谷歌学者]

6McCag A E，Glover L A，Prosser J I.未改良和改良旱地草地细菌群落结构和多样性的分子分析。应用环境微生物。1999;65:1721–1730. [PMC免费文章][公共医学][谷歌学者]

7Pettitt A N.Cramer-von Mises统计。收件人：Kotz S，Johnson N L，编辑。统计科学百科全书。纽约，N.Y：Wiley-Interscience；1982年，第220–221页。[谷歌学者]

8von Wintzingerode F，Göbel U B，Stackebrandt E.环境样品中微生物多样性的测定：基于PCR-的rRNA分析的缺陷。FEMS微生物版。1997;21:213–229.[公共医学][谷歌学者]

文章来自应用与环境微生物学由以下人员提供美国微生物学会（ASM）

环境样品16S rRNA基因序列库的定量比较

大卫·R·辛格尔顿

米歇尔·福隆

斯蒂芬·拉什本

威廉·惠特曼

摘要

表1

致谢

参考文献