对环境样品DNA克隆文库中16S rRNA基因进行测序,获得了丰富的原核多样性信息。然而,除了在制作代表环境样本的库时存在的方法学问题外(有关综述,请参阅参考文献8)这种方法还受到比较库和确定它们是否存在显著差异的困难的限制。
这个问题可以通过应用Good描述的覆盖率公式来定量解决(4). 让X(X)是序列的集合,例如16S rRNA基因库。定义“同源”覆盖范围X(X)(或CX(X))样本来自X(X)成为CX(X)= 1 − (N个X(X)/n个),其中N个X(X)是样本中唯一序列的数量(即没有复制的序列),以及n个是序列的总数。实际上N个X(X)取决于用于定义唯一性的标准。例如,McCag等人(6)认为同源性不大于97%的序列是唯一的。其他作者使用≥99%的序列相似性作为标准。原则上,唯一性可以在序列相似性或进化距离的任何级别上定义(D类)和“同源覆盖曲线”,或CX(X)(D),可以通过绘制生成CX(X)与D类(图。). 然后,覆盖曲线描述了样本代表整个库的程度X(X)在不同层次上的关联。通常,在高度相关的情况下,覆盖率可能较低(低值D类)这表明,事实上,只有一小部分代表独特物种的序列被取样。相反,在低亲缘水平下,覆盖率可能要高得多,这表明大多数深层系统发育类群的代表存在于X(X)在样品中发现。
选定LIBSHUFF比较的结果。显示了来自环境样本的16S rRNA基因序列库的同源(○)和异源(●)覆盖曲线。实线表示(CX(X)−CXY公司)2对于原始样本的每个值D.D.迪拉姆等于PHYLIP的DNADIST程序确定的Jukes-Cantor进化距离(三). 虚线表示第950个值(或P(P)=0.05)(CX(X)−CXY公司)2对于随机样本。(A) 草原土壤中与奇数土壤中无性系的比较(X(X))甚至(Y(Y))加入编号。(B) 生物反应器克隆SBR1的比较(X(X))和草原土壤SL克隆(Y(Y)). (C) C0的比较(X(X))和S0(Y(Y))来自干旱土壤的克隆。
While期间CX(X)是的“同源覆盖”X(X)通过以下样本X(X),也可以计算X(X)(或CXY公司)通过一个样本Y(Y)根据以下公式从另一组序列中提取:CXY公司= 1 − (N个XY公司/n个),其中N个XY公司是以下样本中的序列数X(X)在以下样本中未发现的Y(Y)和n个是样本中的序列数X(X)。类似于N个X(X),N个XY公司也可以定义为D类生成覆盖曲线,CXY公司(D)此外,如果X(X)=Y(Y),人们可能会想到覆盖曲线CX(X)(D)和CXY公司(D)[以及CY(Y)(D)和CYX公司(D)]类似。因此,测试这些覆盖曲线之间的差异也是测试X(X)和Y(Y).确定覆盖曲线CX(X)(D)和CXY公司(D)明显不同,首先使用Cramér-von Mises检验统计量计算两条曲线之间的距离(7):
哪里D类增量为0.01。如果X(X)=Y(Y),则ΔCXY公司应与Δ无显著差异C在两个样本之间随机洗牌序列后计算,X(X)和Y(Y)。通常,序列会被随机洗牌大量(N个)时间(例如。,N个=999)和ΔCXY公司在每次洗牌后计算。随机值加上Δ的经验值CXY公司从最大到最小排序,然后P(P)价值估计为第页/(N个+1),其中第页表示Δ经验值的等级CXY公司(5). 当P(P)< 0.05. 我们已经创建了一个计算机程序(LIBSHUFF),它使用一个排序的距离矩阵,其中包含X(X)和Y(Y)作为输入并返回覆盖曲线CX(X)(D) ,CY(Y)(D) ,CXY公司(D)、和CYX公司(D),以及P(P)两个Δ的值CXY公司和ΔCYX公司,根据Δ的分布C此外(CX(X)−CXY公司)2具有D类看起来信息丰富,也给出了(见下文)。计算机程序LIBSHUFF是用Perl编写的,可以在下载时附带有关其使用的详细说明http://www.arches.uga.edu/~whitman/libshuff.html.
对该方法进行了第一次测试,以确保来自同一个库的样本不会显示出差异。因此,克隆序列的集合(n个=275)来自土壤群落研究(6)根据加入数(138比数和137比数)分为两个样本。尽管该研究包含两个样本点(SL和SAF克隆)的序列,但将这两个位点的序列放入每个数据集中,以形成几乎相等的样本。Δ的比较C赔率/赔率至ΔC值导致P(P)=0.871,这表明两个样品没有显著差异(图。A) ●●●●。Δ的结果类似C偶数/赔率和其他任意划分的序列库(表). 因此,正如预期的那样,从同一个库中提取的样本没有发现差异。
表1
站点(参考) | 同源的(X(X))
| 异源的(Y(Y))
| P(P)b条 |
---|
克隆 | n个 | 克隆 |
---|
草地土壤(6) | 可能性一 | 138 | 埃文斯一 | 0.871 |
| 埃文斯一 | 137 | 可能性一 | 0.933 |
| 苏丹武装部队 | 138 | SL公司 | 0.120 |
| SL公司 | 137 | 苏丹武装部队 | 0.135 |
生物反应器(1) | 可能性一 | 95 | 埃文斯一 | 0.853 |
| 埃文斯一 | 94 | 可能性一 | 0.623 |
| SBR1型 | 97 | SBR2型 | 0.308 |
| SBR2型 | 92 | SBR1型 | 0.824 |
干旱土壤(2) | 可能性一c(c) | 56 | 埃文斯一 | 0.251 |
| 埃文斯一 | 56 | 可能性一c(c) | 0.516 |
| 二氧化碳 | 59 | 第0期 | 0.042 |
| 第0期 | 53 | 二氧化碳 | 0.398 |
草地土壤/生物反应器 | 苏丹武装部队 | 138 | SBR1型 | 0.001 |
| SBR1型 | 97 | 苏丹武装部队 | 0.002 |
| SL公司 | 137 | SBR1型 | 0.001 |
| SBR1型 | 97 | SL公司 | 0.001 |
为了证明该程序能够正确区分来自不同文库的样本,从活性污泥(SBR1;n个= 97; 参考1)与草原土壤SL无性系进行了比较。发现SBR1克隆与SL克隆有显著差异(P(P)=0.001;图。B) 。通过检查(CX(X)−CXY公司)2具有D类(图。B) 。处于低位D类,实际(CX(X)−CXY公司)2超过了可比值P(P)=计算Δ时获得的0.05C这一结果表明,图书馆在D类<0.10,但共享许多深层分类群。然而,在D类>0.3表明并非在两个文库中都发现了所有的深层系统发育类群。其他土壤和生物反应器库的比较也获得了类似的结果(表和数据未显示)。
对由多个样本组成的三个序列收集进行分析,以确定是否可以检测到样本之间的差异(表). 从磷酸盐释放(SBR1)和非磷释放(SBR2)生物反应器微生物种群衍生的克隆库在某些类群的丰度上存在差异(1). 然而,通过我们的方法,这些差异并不显著(表). 改良(SL)和未改良(SAF)旱地草地土壤微生物群落的文库组成没有发现显著差异(6). 我们也通过我们的方法得出了相同的结论(表). 最后,对来自干旱土壤的两个克隆文库C0和S0的限制性片段长度类型进行比较,结果表明C0比S0更具多样性(2). 我们对本研究获得的序列的分析与这一结论一致,并进一步表明S0是C0的一个子集。ΔCS0/C0类不显著,这表明S0中存在的所有分类群也存在于C0中(表). 然而,倒数ΔC二氧化碳/二氧化硫显著;因此,C0还包含S0中未发现的一个或多个分类群的序列。(CX(X)−CXY公司)2具有D类进一步表明,C0中的额外分类群代表中等深度的系统发育类群,0.15<D类<0.25(图。C) ●●●●。
样本大小应该对库的比较有重大影响。区分两个不同库所需的最小序列数预计会随着库的复杂性增加而增加,随着差异的大小而减少。通过使用两个具有高度多样性和差异性的库对这一点进行了详细检查。从文库SBR1或SL中随机选择不同数量的克隆序列(Y(Y))和对面的图书馆相比(X(X))、和P(P)测定了10个重复的值。分别需要来自SBR1和SL的大约20个和25个序列来区分这两个文库(P(P)<0.05)时X(X)分别由97和137个序列表示(图。). 还进行了测试,以调查X(X)(SBR1)当Y(Y)(SL)较小。发现当SL文库(Y(Y))由20个序列表示(数据未显示)。当两个库的大小不同时,当SBR1(X(X))和SL(Y(Y))文库分别由≥40和≥30个序列表示(数据未显示)。虽然这些结果可能并不适用于所有环境样本,但它们应该是不同社区图书馆的代表性比较,例如土壤和生物反应器中的图书馆。重要的是,这些结果表明,与本研究中使用的那些复杂度相似的微生物群落中规模较小的文库将通过这种方法加以区分。
样本大小对图书馆鉴别的影响。草原土壤SL库的比较(Y(Y);n个=变量)至生物反应器库SBR1(X(X);n个=97)(●)和SBR1的比较(Y(Y);n个=变量)库到SL(X(X);n个=137)显示库(○)。每个点代表10次重复的平均值,误差线为1个标准偏差。虚线表示P(P)= 0.05.