跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
核酸研究。2008年4月;36(7): 2230–2239.
2008年2月19日在线发布。 数字对象标识:10.1093/nar/gkn038
预防性维修识别码:项目经理2367736
PMID:18285365

环境DNA短片段的系统发育分类

摘要

宏基因组学为微生物群落生态学提供了引人注目的见解。最近开发的大规模平行454焦磷酸测序技术为以低成本、无克隆偏见快速获得宏基因组序列提供了机会。然而,对产生的短文进行系统发育分析是一个重大的计算挑战。描述了用于预测环境454读源生物的系统发育算法CARMA。该算法在样本的未组装读取中搜索保守的Pfam结构域和蛋白质家族。这些基因片段(环境基因标签,EGT)根据每个匹配的Pfam家族的系统发育树的重建被分类为高阶分类法。该方法对广泛的分类群具有较高的准确性,短至27个氨基酸的EGT可按属级进行系统发育分类。将该算法应用于通过454焦磷酸测序获得的三个水生微生物样品的比较研究。这些样品在分类组成上的深刻差异可以清楚地揭示出来。

简介

在宏基因组学中,来自自然微生物群落的集体基因组是从环境中随机取样并随后测序的(1–3). 通过直接获取共存微生物物种的基因组DNA,这些方法有潜力全面了解自由生活微生物的进化、生活方式和多样性(4–7). 此外,考虑到绝大多数微生物抗拒传统方法的培养(8–10)宏基因组学有潜力极大地扩大我们了解微生物隐藏世界的窗口。

454生命科学公司最近开发的大规模并行焦磷酸测序系统大大降低了DNA测序的时间和成本限制(11). 焦磷酸测序不仅以低成本产生大量数据,而且无需事先克隆步骤即可对环境DNA进行测序(12,13). 尽管有这些优点,454技术的主要缺点是,目前只获得了短读取(GS 20≈100 bp,GS FLX系统为250–300 bp)。读取长度短、种群内固有的遗传异质性、种间基因保守性以及物种丰富度和均匀度可变,所有这些都使得将环境454个读取序列组装成更长的连续DNA序列(contigs)成为一个基本的计算挑战。

评估微生物群落的分类组成是宏基因组学的一个基本问题;但仍处于初级阶段。在这项研究中,提出了一种新的方法来对环境样本的454个未组装读取进行系统发育分类。所获得的分类图谱反过来可以用于定量表征潜在的微生物群落。

自Carl Woese和同事的开创性工作以来(14,15)16S rRNA和18S rRNA通常用于确定生物体之间的进化关系。类似地,一种策略使用16S rRNA、18S rRNA或其他缓慢进化的标记基因作为“系统发育锚”来预测环境基因组片段的分类起源(,16). 虽然这些方法通常具有较高的准确性,但根据所用标记基因数据库的大小,只有一小部分片段可以进行分类特征描述。为了克服这一局限性,最近设计了新的方法来分析短寡核苷酸或基序的存在,从而将环境DNA序列划分为分类群(17,18). 这些方法能够准确推断DNA较长片段的源生物体,但据我们所知,这些方法不能应用于短于1000 bp的基因组序列。另一方面,仅根据最佳BLAST命中率对基因组片段进行简单分类,只有在近亲可供比较的情况下才能产生可靠的结果(19). 最近发布的MEGAN软件通过基于最低共同祖先算法对DNA片段进行分类来解决这个问题(20).

本文提出的系统发育算法使用所有Pfam(21)以结构域和蛋白家族为系统发育标记,鉴定源生物体中短至80bp的环境DNA片段。该方法由两部分组成:第一部分使用Pfam轮廓隐马尔可夫模型(pHMM)识别未组装样本读取中的结构域和蛋白质家族片段。轮廓HMM对于检测弱功能信号和短保守功能序列非常准确,这使得该技术特别适合分析未组装的454个读取。在这项研究中,在环境样本的读数中鉴定的环境结构域和蛋白质家族片段被定义为环境基因标签(EGT),可用于定量表征宏基因组。在第二部分中,为每个匹配的Pfam家族重建一个系统发育树。环境基因标签根据其与具有已知分类从属关系的家族成员的系统发育关系被划分为高阶分类。

该算法在合成数据集上进行了广泛评估。短至27个氨基酸的环境基因标签可以准确分类,其平均特异性从超级王国的97%到订单的93%不等。平均灵敏度从超级王国的84%到订单的61%不等。此外,通过对三个水生微生物生态系统的比较分析,证明了该方法在研究环境样品分类组成方面的威力。分析清楚地揭示了不同水生生境微生物群落分类组成的深刻差异。所有源代码都可以从http://www.cebitec.uni-bielefeld.de/brf/carma/carma.html

材料和方法

数据集

Pfam片段pHMM库(Pfam_fs)、Pfam MySQL数据库、每个Pfam家族的完全多重对齐以及Pfam的fasta版本;基本序列数据库(pfamseq)从Pfam网站(Pfam版本20.0)下载。成员少于10人的家庭被排除在数据集中。从每次多重比对中删除重复序列:如果存在一个生物体相同序列的多个副本(例如,来自不同菌株的100%相同序列),则只保留其中一个。

为了评估我们算法的分类准确性,从GenBank下载了77个完整的基因组(22). 该数据集中包含的基因组来源于Pfam数据库中过度和不足的分类群。这些生物的分类起源来自美国国家生物技术信息中心(NCBI)分类数据库(23). 通过使用ReadSim软件(R.Schmid)对77个完整基因组进行分割,构建了一个合成的宏基因组作为真理的标准等。,已提交发布)。在本研究中,该软件被应用于使用GS 20系统模拟焦磷酸测序。使用ReadSim,从77个具有2倍覆盖率的完整基因组中随机提取长度在80到120 bp之间的片段。平均片段长度设置为100 bp,对应于GS 20测序器产生的平均读取长度。此外,根据内部误差模型,在均聚物处引入了人工测序误差。ReadSim软件下载自http://www-ab.informatik.uni-tuebingen.de/software/readsim/.

从SDSU通用微生物测序中心下载了三个“真实”微生物样本的454个读数,即珊瑚礁样本、太阳盐场样本和叠层石样本(http://scums.sdsu.edu/). 珊瑚礁样品是从位于中太平洋北部列岛的金曼环礁的珊瑚礁水域中分离出来的(坐标:−162.3347833 W 6.38566667 N;Dinsdale等。,已提交以供发布)。太阳盐场样品采集自加利福尼亚州圣地亚哥的太阳盐场(坐标:−117.107356 W,32.599040 N;Rodriguez-Brito等。,未发布的数据)。叠层石样品取自墨西哥Rios Mesquites(坐标:−102.066390 W 26.985876 N;Desnues)等。,未发布的数据)。所有三个样本的总社区DNA均按别处所述进行了纯化(12)在他们的论文中,由美国康涅狄格州布兰福德454生命科学公司使用焦磷酸测序法进行了测序。

算法

该方法依赖于两个算法组件:第一个用于检测环境样本中保守的Pfam结构域和蛋白家族片段(EGT)。第二种方法为每个匹配的Pfam家族重建系统发育树(家谱)。这些树包括所有先前检测到的与该家族匹配的EGT(匹配EGTs)以及所有具有已知分类学起源的家族成员,称为taxaknown公司成员。环境基因标签是根据其相对于基因组的位置进行系统发育分类的taxaknown公司重建树中的成员。

检测EGT

使用来自Pfam数据库的剖面隐马尔可夫模型(pHMM)识别环境基因标签。Pfam是一个人工管理的结构域和蛋白质家族的综合数据库(21). 每个家族都由所有已知家族成员的完全多重排列以及pHMM表示,pHMM可用于搜索新的未知家族成员。

首先,对Pfam的每个样本读取进行相似性搜索;使用BLASTX的底层序列数据库(24)使用“−w 15”帧移位选项。这将计算6帧翻译,预测帧移位,并确定Pfam家族的候选成员。读取时未命中BLASTE类-值≤10不包括在进一步分析中。该预处理步骤大大减少了在使用pHMM进行搜索时需要进行的计算工作量。与此同时E类-BLAST搜索期间的值截止值为10,这确保了该方法的整体灵敏度仅对少数家庭降低。

在BLAST预处理步骤之后,使用高精度的Pfam-pHMM筛选所有剩余的读取以获得保守的Pfam结构域和蛋白质家族。每次读取都根据其最佳BLASTX命中(即在命中读取帧中)进行翻译,包括BLASTX预测的所有帧移位。如果一个read对多个Pfam系列有BLASTX点击,则会为每个点击系列单独翻译。随后,使用Pfam_fs数据库中的本地pHMM将翻译后的序列与匹配的族对齐(E类-值截止值为0.01)。通过使用局部pHMM,甚至可以识别仅被read部分覆盖的结构域和蛋白质家族。使用hmmer包中的hmmalign将所有已识别Pfam家族片段(EGT)的序列添加到匹配Pfam系列的多重比对中(25).

短EGT的系统发育分类

基于系统发育树的重建,EGT被划分为一个高阶分类系统。The multiple alignments oftaxaknown公司每个Pfam家族的成员和匹配EGT用于计算所有组合的成对距离taxaknown公司成员和匹配的EGT。两个序列之间的距离定义为它们的成对序列一致性,即对齐区域中相同氨基酸的分数。如果两个EGT的序列没有足够的重叠,则按照下面的“非重叠EGT的距离估计”一节所述估计其距离。使用邻接聚类方法[使用PHYLIP包中的neighbor程序]从成对距离重建未根的系统发育树(26)]. Nguyen开发的算法的改编版本等。(27)用于解析重建的树。EGT的分类取决于它们在以下方面的系统发育关系税务已知成员如果EGT在以下组中本地化taxaknown公司共享公共分类单元的成员t吨,然后被归类为t吨。否则,它被归类为“未知分类单元’ (图1).

保存图片、插图等的外部文件。对象名为gkn038f1.jpg

根据玩具实例多重比对重建无根系统发育树。所示的多重线形由taxaknown公司特定Pfam家族成员(PF公司1,…,PF公司7) 以及与该家族相匹配的心电图(EGT公司1,EGT公司2,EGT公司3). 右侧显示了根据比对重建的系统发育树。环境基因标签EGT公司1位于子树中c(c)*(EGT公司1) 蓝藻(用蓝色表示)。因此,它被归类为“细菌蓝细菌”。作为c(c)*(EGT公司1) 含有不同属的蓝藻,EGT公司1被归类为未知分类单元在属的等级上。

具体来说,让T型是一个无根的、有节点的二叉家谱树对于EGT,让c(c)*()表示的子树T型数量最少的taxaknown公司成员,同时满足以下两个条件:

  1. c(c)*()
  2. c(c)*()至少有三个taxaknown公司成员

值得注意的是,对于未根的二叉树,每个内部节点会产生三个不同的子树。对于每个分类等级(超王国、门、纲、目和属),如果taxaknown公司的成员c(c)*()共享一个共同的分类单元t吨,然后也被归类为t吨,否则分类为“未知分类单元’. 用于内部参数的值是在算法的优化阶段确定的。

非重叠EGT距离的估计

极短的读取(例如100 bp长)通常仅部分覆盖Pfam家族。这种EGT的序列在计算的多重对准中可能不会重叠(例如,EGT公司2和EGT公司3英寸图1). 由于无法从比对中评估非重叠EGT的成对序列身份,因此其距离估计如下:S公司是多重比对中包含的所有序列的集合,并且d日(,′)是两个序列的成对距离,′∈S公司.如果序列,′∈S公司在两个重叠少于10个氨基酸的EGT中,它们的距离是由Landry提出的加性估计估计的等。(28):

方程式图像

加法估计背后的主要思想是,如果对于给定的距离矩阵d日一棵树T型代表d日,即任意两个节点的树距离T型对应于它们的成对距离d日,则对于表示为d日四点条件必须保持:

方程式图像

因此,中缺少值d日可以用加性估计进行估计。

测量精确度

利用已知分类起源的短DNA片段评估CARMA的分类准确性。通过将预测分类群与已知分类群进行比较,评估其敏感性、特异性、假阴性率、假阳性率和未知率。对于分类类,让P(P)是来自的EGT总数;T型P(P)正确分类的EGT数量;F类P(P)错误分配给的EGT数量;F类N个来自的EGT数量被错误归类为某类j个; U型来自的EGT数量分类为未知分类单元。请注意P(P)=TP(转移定价)+FN公司+U型. The敏感测量正确分类的EGT比例。对于分类群,定义为=TP/P(P). The特异性衡量分类的可靠性,定义为服务提供商=TP/TP(转移定价)+FP公司. The假阴性率定义为F比率=FN/P(P)它测量来自分类类别的EGT的比例被错误分配给任何类的j个. The未知速率测量不能进行系统发育分类的EGT的比例,定义为乌拉特=U/P(P). The假阳性率是错误分配给类的EGT的比例。定义为F速率=FP公司/∑j个 P(P)j个.

测量合成宏基因组的准确性

在第一次实验中,对一个合成的元基因组进行了完整算法的准确性评估,该元基因组由来自广泛分类群的片段组成,平均长度为100 bp。使用我们的完整分类算法预测片段的分类起源:首先,在100 bp片段中识别出EGT(Pfam家族片段),然后进行分类。通常,环境样本中有很大一部分读数来自尚未测序的基因组。为了说明这一点,属于77个完整基因组集合中所代表物种的所有已知Pfam成员都被排除在完全多重比对之外。因此,在属的等级上,高比例的EGT不能被划分为它们的分类群。因此,在本实验中,只对性能进行了等级评估。

测量短EGT系统发育分类的准确性

在第二个实验中,使用10倍交叉验证方法对Pfam数据库中表示的所有分类群评估了EGT系统发育分类的准确性。如前所述,每个Pfam蛋白家族由所有已知家族成员的完全多重比对表示。在交叉验证期间,每个家族的所有已知成员被随机分为10个子样本。从完全多重比对中提取10个子样本,并分类如下:从每个提取序列中,仅随机选择33个相邻氨基酸作为人工EGT将这些人工EGT再次添加到其余九个子样本的多重比对中。根据得到的多重比对,每个人工EGT都按照前一节“短EGT的系统发育分类”中的描述进行分类。在每个分类等级(超王国、门、纲、目和属)上分别评估准确性。

一般来说,CARMA的准确性在很大程度上取决于Pfam数据库中分类群的表示。在绩效评估中,分别评估了代表性较好(≥4000名Pfam成员)和代表性较差的分类群(<4000名Pfam成员)的准确性。值得注意的是,一些代表性很强的分类群只由一个已测序的生物体代表。

测量多样性

传统上,多样性和均匀度是按物种等级来衡量的。然而,由于本研究分析的三个水生环境样品没有定量的物种信息,因此使用香农氏法在门、纲、目和属的等级上测量了原核生物的多样性和均匀性;多样性指数(29)(也称为香农-维纳指数)。在本工作的背景下,对于分类等级第页香农氏;多样性指数定义为

方程式图像

哪里第页是分类为-第个等级分类群第页. The物种均匀度可以定义为

方程式图像

哪里H(H)最大值是排名中发现的分类单元总数第页.

16S rDNA锚的系统发育分析

在第三个实验中,通过使用在这些样品中发现的16S rDNA片段作为系统发育锚来表征太阳盐场、叠层石和珊瑚礁样品的组成。与核糖体数据库项目(RDP)II的rRNA数据库(9.54版)相比,在每个样本的所有读取的BLAST搜索中检测到16S rDNA基因片段(30). 所有读操作子区域都有一个显著的BLAST命中(E类-值截止值为10− 5)使用RDP分类器进行系统发育分类,RDP分类器是Wang及其同事描述的一种朴素的贝叶斯rRNA分类器(31).

结果

合成宏基因组的准确性

在第一个实验中,在由77个完整基因组的短DNA片段组成的合成宏基因组上评估了完整的算法,即EGT的检测及其系统发育分类。为了在GS 20系统上模拟焦磷酸测序,从长度为80–120 bp、平均长度为100 bp的完整基因组中随机取样片段;为了解释454系统产生的测序错误,在均聚物中引入了人工测序错误。所创建的合成宏基因组代表了一个复杂的微生物群落,其序列片段来自古生菌和细菌,10门,11纲,29目和62属。

在分析的270万个片段中,约15%的片段中发现了EGT。由于碎片长度较短,因此达到了较高的分类精度(图2). 平均而言,在已鉴定的EGT中,84%(超王国)到61%(目)的分类起源被正确预测。虽然正确分类的EGT比例从超王国到有序递减,但所有分类等级的误分类EGT比例(假阴性率)约为7%。相反,不能归属于任何分类群的EGT的比例(未知率)从超王国级的10%增加到秩序级的31%。对于所有分类等级,都获得了可靠的预测,平均特异性在90%到97%之间。假阳性率,即EGT被错误划分为某一分类群的概率,取决于该组在Pfam蛋白家族数据库中的表示(图3). 例如,对于代表性较好的蛋白杆菌和硬枝菌,假阳性率分别为3.8%和0.6%,而对于代表性较低的欧亚纲和克雷纳恰纲,假阳性比率分别为0.25%和0.02%。平均假阳性率从超级王国的2.5%到订单的0.1%不等,最高测量假阳性率为4.7%(细菌)。

保存图片、插图等的外部文件。对象名为gkn038f2.jpg

从77个完整基因组中获得80–120 bp长片段的分类分配准确性。敏感性(Sens)、特异性(Spec)、假阴性率(FNrate)和不能归属于任何分类群(Urate)的EGT比例显示为彩色条。

保存图片、插图等的外部文件。对象名为gkn038f3.jpg

77个完整基因组中80–120 bp长片段的系统发育分类的假阳性率。图中显示了四个分类等级(超王国、门、纲和目)中误分类为不同分类群的EGT的比例。

短EGT系统发育分类的准确性

在第二个实验中,对短EGT的分类进行了广泛的分类评估,包括古生菌、细菌、真核生物和病毒的DNA片段。总的来说,EGT可以准确地划分到属的等级(补充图1和2). 对于代表性较好的类群(所有四个超王国、20门、27纲、59目和69属),预测分类群的97%(超王国)和68%(属)之间是正确的(特异性)。平均灵敏度为90%(超王国)至40%(属)。7%(超界)至44%(属)的EGT不能归属于任何分类群,因此被分类为未知分类群.

准确性取决于分类类在Pfam数据库中的表现程度。来自代表性较差的类的EGT分类群通常无法从系统发育树中推断出来,在这种情况下,EGT应分类为未知分类群不出所料,代表性差的类的平均敏感度显著下降(至8-19%),而未知率增加(门级为34%,属级为63%)。此外,对于代表性较差的类群,获得了可靠的预测,在所有分类等级中的平均特异性为84%至65%。值得注意的是,被认为具有良好代表性的分类群(≥4000个Pfam成员)也可能仅由一个测序生物体代表。例如,这对大多数具有良好代表性的真核生物属来说都是如此,这解释了我们的算法对这些类群的低灵敏度。

通过假阳性率(即EGT偶然被错误分类到该组的概率)来测量每个分类组的预期背景噪声。该实验还表明,假阳性率在很大程度上取决于Pfam中代表分类群的成员数量(补充图3和4). 总之,对于代表性较好的分类群,平均假阳性率从超王国级的0.7%到属级的0.12%不等。对于代表性较差的分类群,所有分类等级的平均假阳性率低于0.004%。值得注意的是,特别是鉴于测序技术的进步,长度为200 bp和400 bp的较长片段导致准确性(敏感性、特异性、假阴性率和未知率)略有提高(数据未显示)。

不同水生环境中微生物群落的比较分析

为了确定不同水生环境中微生物群落的分类趋势,本文提出的方法被应用于对从金曼珊瑚礁、圣地亚哥太阳盐场和里奥斯·梅斯克特斯叠层石中分离出的三个短读宏基因组的比较分析。使用GS 20焦磷酸测序系统对所有三个样品进行测序。由于在这三个样品中鉴定出的EGT比例很高,预测其分类起源范围为75-92%(超王国)到33-42%(属)(表1). 系统发育特征表明样品的分类组成存在显著差异(图4). 珊瑚礁和叠层石样品以细菌为主(分别占EGT的68%和79%),相比之下,太阳盐场样品中49%的EGT被归类为古生菌,只有20%被归类为细菌。

保存图片、插图等的外部文件。对象名为gkn038f4.jpg

通过454焦磷酸测序获得的三个环境样品的分类特征。条形图显示了划分为不同分类群的EGT的比例。pEGT是分类为细菌或古菌的EGT的一部分。

表1。

通过454焦磷酸测序获得的三个宏基因组的分类特征。显示了样本大小(产生的读取数)、已识别EGT的数量以及在不同分类等级上预测分类起源的EGT的比例

样品大小EGT(EGT)分类分配的EGT比例

超级王国(%)门(%)类别(%)订单(%)属(%)
珊瑚礁188.4453.5777566535333
叠层石124.6947.4149277727037
太阳能盐场582.68155.6059271575642
平均8668616037

对于EGTs的原核部分(pEGTs),珊瑚礁样品获得了最高的预测多样性和均匀度(表2). 虽然蛋白菌是最丰富的门(59%的pEGT),但很大一部分pEGT也被归入放线菌(4%的pEGTs)、类杆菌(4%的pEGTs”)、蓝藻(4%的“pEGTs”)、硬壁菌(4%)和扁平菌(3%的“pEGTs””)。在目和属的等级上,珊瑚礁样品具有高度多样性,红杆菌目(占pEGT的11%)是最常见的目硅细菌(5%的pEGT)和比雷卢拉(3%的pEGT)是最丰富的属。

表2。

原核生物多样性(H′)和均匀度(J型)在门、纲、目和属的三个水生微生物样品中

等级订单




样品H′J型H′J型H′J型H′J型
珊瑚礁1.20.461.70.553.90.814.20.83
叠层石1.10.421.160.372.70.553.60.70
太阳能盐场0.80.3110.321.40.282.60.45

叠层石样品对EGT原核组分的多样性和均匀性具有中间预测值(表2). 在门的等级上,主要以蓝藻为主(占pEGT的57%)。此外,相当一部分pEGT被分类为蛋白杆菌(pEGT的15%)和硬壁菌(pEGTs的4%)。念珠菌目(占pEGT的20%)和嗜铬球菌目(占p EGT的17%)是数量最多的目。

根据我们的预测,太阳盐场样品的原核生物多样性和均匀性最低(表2). 大多数pEGT被分配给不同的盐生细菌(58%的pEGT),即自然单胞菌属(pEGT的14%),嗜盐小盒菌属(12%的pEGT),盐杆菌属(8%的pEGT)和卤虫属(pEGT的1%)。在门的等级上,广亚纲(pEGTs的69%)是最常见的类群,其次是蛋白杆菌(pEGT的12%)。其余门的代表性较差(≤2%的pEGT)。

结果清楚地揭示了珊瑚礁和叠层石环境中蓝藻组成的差异(图4).聚球藻属-类似物种被预测为叠层石样品中最普遍的蓝藻(pEGT的6%),但原绿球菌-珊瑚礁样本中的优势蓝藻(占pEGTs的2%)预计为同类。叠层石样品中的大部分pEGT被归为蓝藻群的不同属:聚球藻属(6%),Nostoc公司(5%),鳄鱼目(4%),阿纳巴埃纳(4%),粘杆菌属(1%),协同孢子虫(2%),束毛藻(2%)和原绿球菌(0.7%). 相比之下,珊瑚礁样本原绿球菌(2%的pEGT),聚球藻属(0.2%的pEGT)和协同孢子虫(0.2%的pEGT)是唯一具有大量指定pEGT的蓝藻。

这些发现反映了采集样本的环境。据报道,海洋微生物群落复杂多样,蛋白质菌和蓝藻的比例很高(原绿球菌聚球藻属) (). 叠层石是由蓝藻形成的(32). 然而,与一些早期的叠层石研究相比(33),在Rios Mesquites叠层石中预测的蓝藻比例非常高。另一方面,太阳盐场样品中发现的高比例的不同盐细菌反映了高盐浓度造成的胁迫条件,形成了该栖息地的群落组成。

样本中真核生物DNA的数量高度影响可以进行系统发育分类的读数比例。这可以解释为真核生物基因组中基因间和非编码区的比例很高。根据我们的预测,太阳盐场样品的真核DNA比例最低(约为EGT的6%,图4)以及可识别EGT的最高读取百分比(≈10%)。叠层石样品的真核DNA比例中等(≈11%),在≈6%的读数中发现了EGT。珊瑚礁样本的真核DNA比例最高(≈23%),但携带EGT的读码百分比最低(≈2%)。另一方面,与三个水生样本相比,本研究中使用的合成元基因组(仅包含细菌和古生菌的DNA片段)携带EGT的读码比例要高得多(≈15%)。

值得注意的是,使用所提出的方法,只能评估来自Pfam数据库中代表的分类群的生物的多样性和均匀性。例如,如果构成样本的大部分生物来自没有Pfam代表的属,我们的方法可能会错误地测量该分类等级上的低多样性。然而,在本研究中分析的三个水生样品中,测得多样性最低的两个样品(叠层石和太阳盐田样品)的ETG比例最高,可以进行系统发育分类(表1),指示所预测的低分集不是所应用的方法的伪影。由于Pfam中代表的分类群数量不断增加,我们的方法将能够在未来提供更全面的样本总体多样性图片。

与16S rDNA衍生分类特征的比较

作为真相的标准,太阳盐场、叠层石和珊瑚礁样品的成分用16S rDNA片段作为系统发育锚来表征。获得的分类图谱反过来用于验证前一节中提出的Pfam蛋白家族片段的系统发育分类结果。在太阳盐场样品中总共鉴定出151个16S rDNA基因片段,在叠层石中鉴定出9个,在珊瑚礁样品中鉴定出4个。由于发现的16S rDNA片段数量较少,叠层石样品的成分仅为门级,珊瑚礁样品仅为超王国级。太阳盐场样品的特征达到了属的等级。

Pfam蛋白家族和16S rDNA片段的系统发育分类显示了相似的组成趋势(图4补充图5). 这两种方法都表明,太阳盐田样品以古生菌为主,而叠层石和珊瑚礁样品以细菌为主。根据这两种方法,广角藻门、类杆菌门和蛋白菌门是最丰富的门;盐杆菌、鞘氨醇杆菌和γ-蛋白杆菌是最常见的类群;盐杆菌目和鞘氨醇杆菌目是最常见的目。在属的等级上,这两种方法都预测太阳盐场样品以不同的嗜盐古菌和嗜盐细菌为主。根据这两种方法,叠层石样品以蓝藻为主。

尽管两种方法得出的结果具有惊人的高度一致性,但仍可以确定一定程度的差异。例如,通过16S rDNA分析,在太阳盐场样本中,盐杆菌被预测为最丰富的属,但通过我们的系统发育算法,它是第四丰富的属。发现的差异可能是由于太阳盐场样品中鉴定出的16S rDNA片段数量较少,因此只能提供其分类组成的大致情况。第二种可能的解释是,对于100 bp长的片段,这两种方法在秩属上的分类精度都很低。对于等级属100 bp片段的分类,RDP分类器的准确率达到70%(31)我们的算法对于表现良好的分类群的平均特异性为68%,对于表现较差的分类群为72%(补充图2). 发现差异的第三个原因可能是,通过16S rDNA分类获得的分类图谱受到构成样本的基因组中rRNA拷贝数不同的影响。相反,通过Pfam蛋白家族的系统发育分类获得的图谱表征了宏基因组的整个基因内容的组成,因此受到基因组大小变化的影响。总的来说,这两种方法预测了所研究的三个水生环境样品的相似分类趋势,但来自Pfam蛋白家族的片段的系统发育分类提供了样品中存在的分类群的更深入和更详细的图片。

结论

开发了新的软件CARMA,用于预测短环境DNA片段的分类起源。在第一阶段,使用Pfam轮廓隐马尔可夫模型在样本的未组装读取中识别结构域和蛋白质家族片段(EGT)。在第二阶段,为每个匹配的Pfam家族重建系统发育树(家谱)。EGT根据其在各自家谱中的位置进行系统发育分类。通过这种策略,不适合推断系统发育的家族,如快速进化的家族或其成员经常通过水平基因转移遗传的家族,都会被隐含地识别出来。从这些科重建的树具有“混合子树”,其成员来自不同的分类群。在这种情况下,包含的EGT被分类为“未知分类群’.

本研究的结果清楚地表明,Pfam结构域和蛋白质家族的短片段非常适合作为系统发育标记来推断短环境DNA片段的分类归属。与仅依赖少数标记基因的方法相比,如16S rDNA或记录A基因,所有Pfam家族的使用为环境微生物样品的分类组成提供了更深入的图景。在这项工作中,对三个水生微生物群落的比较研究表明,预测的分类剖面如何对使用454焦磷酸测序技术测序的环境样品的分类组成产生详细的见解。结合454焦磷酸测序,我们的方法可以快速且经济有效地检测微生物群落。

补充数据

补充数据可在NAR Online上获得。

致谢

L.K.得到了DFG Graduiertenkolleg 635 Bioinformatik、国际NRW生物信息学和基因组研究研究生院以及联邦教育和研究部(BMBF)项目0313805A的支持。部分工作是在罗布·爱德华兹(Rob Edwards)和福里斯特·罗华(Forest Rohwer)对L.K.进行研究访问期间进行的;加州圣地亚哥州立大学(San Diego State University,CA.A.G.)对BMBF的财务支持表示感谢。N.N.D.得到了德国学术交流服务(DAAD)的支持。我们感谢Christelle Desnues、Elizabeth Dinsdale和Beltran Rodriguez-Brito在发布之前共享数据。我们还要感谢Eric R.Alegre对开发原始树解析算法的帮助,以及Björn Fischer、Achim Neumann、Ralf Nolte、Volker Tölle和Torsten Kasch对在生物技术中心运行我们的软件的支持。作者还要感谢匿名评论员的宝贵意见。支付开放获取出版费用的资金由DFG Graduiertenkolleg 635 Bioinformatik和生物技术中心生物信息研究所(IfB)提供。

利益冲突声明。未声明。

参考文献

1Breitbart M、Salamon P、Andresen B、Mahaffy JM、Segall AM、Mead D、Azam F、Rohwer F。未培养海洋病毒群落的基因组分析。程序。国家。阿卡德。科学。美国。2002;99:14250–14255. [PMC免费文章][公共医学][谷歌学者]
2Tyson GW、Chapman J、Hugenholtz P、Allen EE、Ram RJ、Richardson PM、Solovyev VV、Rubin EM、Rokhsar DS、Banfield JF。通过从环境中重建微生物基因组实现群落结构和代谢。自然。2004;428:37–43。[公共医学][谷歌学者]
三。Venter JC、Remington K、Heidelberg JF、Halpern AL、Rusch D、Eisen J、Wu D、Paulsen I、Nelson KE、NelsonW等。马尾藻海环境基因组鸟枪测序。科学。2004;304:66–74。[公共医学][谷歌学者]
4BéjáO、Aravind L、Koonin EV、Suzuki MT、Hadd A、Nguyen LP、Jovanovich SB、Gates CM、Feldman RA、Spudich j等。细菌视紫红质:海洋中一种新型光养作用的证据。科学。2000;289:1902–1906.[公共医学][谷歌学者]
5Gill SR、Pop M、Deboy RT、Eckburg PB、Turnbaugh PJ、Samuel BS、Gordon JI、Relman DA、Fraser-Ligett CM、Nelson KE。人类远端肠道微生物组的宏基因组分析。科学。2006;312:1355–1359. [PMC免费文章][公共医学][谷歌学者]
6Hansen SK,Rainey PB,Haagensen JAJ,Molin S.生物膜群落中物种相互作用的进化。自然。2007;445:533–536.[公共医学][谷歌学者]
7Martín HG、Ivanova n、Kunin V、Warnecke F、Barry KW、McHardy AC、Yeates C、He S、Salamov AA等。两个强化生物除磷(EBPR)污泥群落的宏基因组分析。自然生物技术。2006;24:1263–1269.[公共医学][谷歌学者]
8Hugenholtz P.探索基因组时代的原核多样性。基因组生物学。2002;审查S0003。[PMC免费文章][公共医学][谷歌学者]
9Hugenholtz P,Goebel BM,Pace NR.非培养研究对细菌多样性新兴系统发育观的影响。《细菌学杂志》。1998;180:4765–4774. [PMC免费文章][公共医学][谷歌学者]
10RappéMS,Giovannoni SJ。未培养微生物的大多数。年。微生物版。2003;57:369–394.[公共医学][谷歌学者]
11Margulies M、Egholm M、Altman WE、Attiya S、Bader JS、Bemben LA、Berka J、Braverman MS、Chen Y-J等。微加工高密度微晶反应器中的基因组测序。自然。2005年;437:376–380. [PMC免费文章][公共医学][谷歌学者]
12Edwards RA、Rodriguez-Brito B、Wegley L、Haynes M、Breitbart M、Peterson D、Saar M、Alexander S、Alexander EC、Rohwer F。利用焦测序揭示极端水文地质条件下的深部矿井微生物生态。BMC基因组学。2006;7:57. [PMC免费文章][公共医学][谷歌学者]
13Turnbaugh PJ、Ley RE、Mahowald MA、Magrini V、Mardis ER、Gordon JI。一种与肥胖相关的肠道微生物组,具有更强的能量获取能力。自然。2006;444:1027–1031.[公共医学][谷歌学者]
14沃斯CR.细菌进化。微生物。版次。1987;51:221–271。 [PMC免费文章][公共医学][谷歌学者]
15Woese CR,Fox GE。原核结构域的系统发育结构:初级王国。程序。国家。阿卡德。科学。美国。1977;74:5088–5090. [PMC免费文章][公共医学][谷歌学者]
16Tringe SG,Rubin EM。宏基因组学:环境样品的DNA测序。Nat.Rev.基因。2005年;6:805–814.[公共医学][谷歌学者]
17McHardy AC、Martín HG、Tsirigos A、Hugenholtz P、Rigoutsos I。可变长度DNA片段的准确系统发育分类。自然方法。2007;4:63–72.[公共医学][谷歌学者]
18Teeling H,Meyerdierks A,Bauer M,Amann R,Glöckner FO.四核苷酸频率在基因组片段分配中的应用。环境。微生物。2004;6:938–947.[公共医学][谷歌学者]
19Koski LB、Golding GB。最近的爆炸袭击往往不是最近的邻居。《分子进化杂志》。2001年;52:540–542.[公共医学][谷歌学者]
20Huson DH,Auch AF,Qi J,Schuster SC.MEGAN宏基因组数据分析。基因组研究。2007;17:377–386. [PMC免费文章][公共医学][谷歌学者]
21Finn RD、Mistry J、Schuster-Böckler B、Griffiths-Jones S、Hollich V、Lassmann T、Moxon S、Marshall M、Khanna A等。Pfam:部族、网络工具和服务。核酸研究。2006;34:D247–D251。 [PMC免费文章][公共医学][谷歌学者]
22Benson DA、Karsch-Mizrachi I、Lipman DJ、Ostell J、Wheeler DL。GenBank。核酸研究。2007;35:D21–D25。 [PMC免费文章][公共医学][谷歌学者]
23Wheeler DL、Barrett T、Benson DA、Bryant SH、Canese K、Chetvernin V、Church DM、DiCuccio M、Edgar R等。国家生物技术信息中心数据库资源。核酸研究。35:D5–12。 [PMC免费文章][公共医学][谷歌学者]
24Altschul SF、Gish W、Miller W、Myers EW、Lipman DJ。基本本地对齐搜索工具。分子生物学杂志。1990;215:403–410.[公共医学][谷歌学者]
25Eddy SR.描述隐马尔可夫模型。生物信息学。1998;14:755–763.[公共医学][谷歌学者]
26Felsenstein J.Phylip:系统发育推理包(3.2版)分支系统学。1989;5:164–166. [谷歌学者]
27Nguyen TX,Alegre ER,Kelley ST。一般细菌孔蛋白的系统发育分析:系统发育案例研究。《分子微生物学杂志》。生物技术。2006;11:291–301.[公共医学][谷歌学者]
28Landry P-A、Lapointe F-J、Kirsch JAW。从缺陷距离矩阵估计系统发育:加性估计优于超量估计。分子生物学。埃沃。1996;13:818–823. [谷歌学者]
29Shannon CE、Weaver W。沟通的数学理论。伊利诺伊州厄本纳:厄本纳,伊利诺伊大学出版社;1963[谷歌学者]
30Cole JR、Chai B、Farris RJ、Wang Q、Kulam-Syed-Mohideen AS、McGarrell DM、Bandela AM、Cardenas E、Garrity GM、Tiedje JM。核糖体数据库项目(RDP-II):引入myRDP空间和质量控制公共数据。核酸研究。2007;35:D169–D172。 [PMC免费文章][公共医学][谷歌学者]
31Wang Q,Garrity GM,Tiedje JM,Cole JR。Naive Bayesian分类器,用于将rRNA序列快速分配到新的细菌分类中。申请。环境。微生物。2007;73:5261–5267. [PMC免费文章][公共医学][谷歌学者]
32Allwood AC、Walter MR、Kamber BS、Marshall CP、Burch IW。澳大利亚早太古代的叠层石礁。自然。2006;441:714–718.[公共医学][谷歌学者]
33Papineu D,Walker JJ,Mojzsis SJ,Pace NR.澳大利亚西部鲨鱼湾Hamelin池叠层石微生物群落的组成和结构。申请。环境。微生物。2005年;71:4822–4832. [PMC免费文章][公共医学][谷歌学者]

文章来自核酸研究由以下人员提供牛津大学出版社