20世纪90年代初的基因组革命以研究微生物、植物和动物的单个基因组为目标。虽然这种类型的分析几乎已成为常规,但复杂生物混合物的基因组分析仍然具有挑战性。宏基因组学被定义为“通过从微生物集合中直接提取和克隆DNA对微生物进行基因组分析”(Handelsman 2004年)它的重要性源于99%或更多的微生物被认为是不可培养的。宏基因组研究的目标包括评估环境生物的编码潜力,量化(已知)物种的相对丰度,以及估计尚未描述物种或仅描述远亲的未知序列信息(环境序列)的数量。将Handelsman的定义扩展到包括高等生物和微生物的序列是有用的,从而打开了“环境取证”的大门。通过大幅扩展数据库中当前可用的序列,宏基因组学有望发现在生物技术和医学中具有有用应用的新基因(斯蒂尔和斯特里特2005).
早期宏基因组学项目(Béja等人,2000年,2001)由于DNA提取和克隆方法而产生的潜在偏见(Martiny等人,2006年). 利用磷载体和BAC载体作为DNA繁殖和扩增的载体,从环境DNA构建克隆文库。随后对文库进行特定系统发育标记筛选,并对感兴趣的克隆进行配对测序。重叠的克隆,在其实体中测序,被构建成超对照,提供生物体基因组特征的快照,如GC含量、密码子使用或编码密度。这一策略很快得到了使用“鸟枪”方法进行全(元)基因组测序的补充(Venter等人,2004年)它利用质粒库的克隆和配对测序。基于这些方法的近期项目包括来自酸性矿山生物膜的数据集(Tyson等人,2004年),海水样本(Venter等人,2004年;DeLong等人,2006年)、深海沉积物(Hallam等人,2004年),或泥土和鲸鱼坠落(Tringe等人,2005年).
这些项目都使用基于克隆的“桑格测序”、荧光双脱氧核苷酸和毛细管电泳(梅尔特伦2000a,b条). 最近,发布了一种新的“按顺序合成”策略(Margulies等人,2005年;Zhang等人,2006年). 该方法使用大量DNA片段的基于乳液的PCR扩增和高通量的并行热测序。在一次测序运行中,可以以低于Sanger-based方法的每基价格生成超过2000万个碱基对的序列。该方法目前的缺点是读取长度短,为~100 bp,与使用Sanger测序的~800 bp相比,测序错误率稍高,因为难以确定均聚物延伸中的碱基对数量,并且测序对端读取时读取长度大幅缩短。宏基因组学新测序方法最重要的优点是它不需要克隆目标DNA片段,因此避免了因有毒序列杀死其克隆宿主而导致的克隆偏差。
在本研究中,我们提出了一种新的方法来初步分析宏基因组数据集,避免了与环境集合或使用有限数量的系统发育标记相关的问题。无论使用何种测序技术,我们的策略都可以应用于任何宏基因组学项目框架内收集的DNA读取,从而为其他类型的分析提供了一种易于部署的替代方案。我们提供一个名为MEGAN的新计算机程序(我助教克烯醇安alyzer),允许单个科学家分析大型数据集。在预处理步骤中,使用BLAST等比较工具将DNA读取(或连续)集与已知序列的数据库进行比较(请参见). 然后使用MEGAN估计和交互式探索数据集的分类内容,使用NCBI分类法对结果进行总结和排序。该程序使用一个简单的算法,将每次读取分配给它在比较中遇到的分类群集合的最低共同祖先(LCA)(请参阅). 因此,物种特异性序列被分配给NCBI树叶子附近的分类群,而广泛保守的序列被分配到更靠近根的高阶分类群。
对于给定的生物体样本,随机选择DNA片段的集合进行测序。然后使用适当的序列比较程序(如BLAST)将结果读取与一个或多个参考数据库进行比较(Altschul等人,1990年). 所得数据由MEGAN进行处理,以对样本的分类内容进行交互式分析。
上正确的,我们列出了为特定读取获得的三个BLASTX匹配第页从庞大的数据集,到表示红嘴鸥弯曲杆菌,肝螺杆菌、和沃利内拉分别为。LCA分配算法分配第页到分类单元弯曲杆菌目,显示在左边,因为它是三个匹配物种中最低的共同分类祖先。
我们首先通过将其应用于马尾藻海数据集的子集来说明这种方法(Venter等人,2004年)通过Sanger测序获得。然后,我们将其应用于从猛犸骨骼样本中获得的一组约300000读数(Poinar等人2006),使用了“合成测序”方法。最后,我们解决了这样一个问题,即是否可以通过个人的简短阅读,利用大肠杆菌和噬菌蛭弧菌.
易用性是MEGAN的主要设计标准。只需打开BLAST程序系列的任何成员的输出文件,或从其他一些序列比较工具中,即可启动分析,然后通过图形用户界面以交互方式执行分析。该程序经过精心设计,即使在处理大型数据集时,也能在笔记本电脑上快速响应。为了实现最大的可移植性,该程序是用Java编写的,学术界可以从http://www-ab.informatik.uni-tuebingen.de/software/megan.
结果
MEGAN处理管道
图示了一个典型的处理管道,其中MEGAN用于对宏基因组样本进行初始分析。首先,使用任意随机枪协议从样本中采集读数。其次,使用BLAST或类似的比较工具,将所有读取与一个或多个已知读取的数据库进行序列比较。第三,MEGAN对比较结果进行处理,收集对已知序列的所有读取结果,并根据NCBI分类法为每个序列分配一个分类单元ID。这将生成一个MEGAN文件,其中包含分析和生成图形和统计输出所需的所有信息。第四,用户与程序交互以运行最低公共祖先(LCA)算法(参见),以分析数据,根据点击次数检查对分类单元的单个读取分配,并生成NCBI分类法不同级别的结果摘要(请参阅和–(见下文)。
MEGAN计算的马尾藻海序列的系统发育多样性。通过将样品1与混合样品2、3和4进行比较,研究样品1的微观异质性(Venter等人,2004年). (A类)从样品1中随机选择10000个读数进行分析。(B类)从样本2中随机选择10000个读数进行分析。(C,D类)样本1和样本2-4的更详细视图,分别说明了希瓦氏菌属和伯克氏菌属两个数据集中的物种。在所有这些图中,每个圆圈表示NCBI分类法中的一个分类单元,并用其名称和直接分配给该分类单元或通过其其中一个子分类单元间接分配的读取数进行标记。圆圈的大小按对数缩放,以表示直接分配给该分类单元的读取数。
基于BLASTX对302692个读数与NCBI-NR数据库的比较,对猛犸象数据集进行MEGAN分析的高级总结。
MEGAN对2000篇文章的分析B.噬菌体HD100使用罗氏GS20测序。(A类)基于BLASTX与NCBI-NR对比的分析(B类)相同的分析,但所有命中匹配的数据库序列表示B.噬菌体HD100基因组被移除,模拟了读取源于NCBI-NR中没有表示的基因组的情况。
由于不同的宏基因组学项目需要使用不同的比对工具和数据库,我们设计了MEGAN,让用户在这方面有不受限制的选择。在我们的研究中,我们使用了BLAST比较(Altschul等人,1990年)针对NCBI-NR、NCBI-NT、NCBI-ENV-NR和NCBI-ENV-NT数据库(Benson等人,2006年)以及其他适当的基因组特定数据库。
虽然序列比较已经建立,而且执行起来很简单,但它是宏基因组分析中的主要计算瓶颈,并且随着数据集和数据库的规模不断增长,它将变得越来越关键。需要考虑一个权衡:与针对特定系统发育标记的项目相比,全基因组方法更容易执行,并可能提供更好的分类分辨率,但额外的计算负担可能是巨大的。
马尾藻海数据集的再分析
在马尾藻海项目中(Venter等人,2004年)采集海水样本,提取大小为0.1–3μm的生物体,生成宏基因组数据集。使用Sanger测序法从四个单独的采样点测定了约166万条平均长度为818 bp的读数。利用环境组合,并通过分析6个特定的系统发育标记(rRNA、RecA/RadA、HSP70、RpoB、EF-Tu和EF-G),测量生物多样性和物种丰富度。通过该方法生成的16个分类群的物种分布图显示,在其余14个分类群中,α蛋白杆菌和γ蛋白杆菌的流行率为2-4倍,只有蓝藻明显高于其余分类群。
这个Venter等人(2004)这项研究开创了对环境样本进行随机基因组测序的先河。他们对数据的分析依赖于单个物种对支架和contigs的贡献频率,或者与六个已建立的系统发育标记相匹配。MEGAN进行的分析使用了独立的统计方法,得出了与物种分布非常相似的结果。在根据每个数据集10000次读取的两个子集,我们分别给出了样本1和合并样本2-4的MEGAN分析结果。这些结果与Venter等人(2004年)。在,我们报告了16个分类群中每个分类群的6个系统发育标记的平均加权百分比,根据Venter等人(2004),并将结果与MEGAN生成的相应值进行比较。
MEGAN计算的样本1、合并样本2-4的读取数分布以及这两个数据集的加权平均数超过16个主要的系统发育类群。为了进行比较,图表还显示了生物对这些类群的相对贡献,根据Venter等人(2004)将报告的所有六个基因的值平均。
证明MEGAN可以很容易地检测到样本1和集合样本2-4之间的采样偏差,尽管只分析了一小部分(20000次读取,约占总数据集的1%)。这种差异被称为“微观异质性”Venter等人(2004),涉及蛋白质菌群成员的过度代表性希瓦氏菌属和伯克氏菌属在样品1中(德隆2005). 预计这两种细菌不会出现在中上层海洋样品中,因为它们要么生活在富含营养的水生环境中(希瓦氏菌属)或在地面环境中找到(伯克氏菌属) (Hicks等人,2000年;尼尔森和斯科特2003;德隆2005).
为了更详细地描述我们的过程,首先,我们从DDBJ/EMBL/GenBank(登录号:AACY0100000)下载了整套马尾藻海洋样品1-4。然后,我们从样本1中选择了前10000次读取,并从样本2-4中随机选择了一组10000次读取。在这两个数据集上,我们使用默认参数与NCBI-NR数据库进行了BLASTX比较。对于样本1数据集,只有1%的读取没有命中(13)或保持未分配(1051)。同样,对于样本2-4数据集,<3%的读取没有命中(69)或保持未分配(2778)。
我们使用位核阈值100对两个数据集进行了MEGAN分析(最小磁芯过滤器;有关这些参数的更多详细信息,请参见方法)并仅保留比特分数在最佳分数5%以内的点击(最高百分比过滤器)。此外,所有独立的赋值(即仅被一次读取命中的分类单元)都被丢弃(最小支持过滤器)。对于样品1,所有阅读中约83%(8336)被分配给比王国级更具特异性的分类群,其中大多数(8298)被分配到细菌组。对于样品2-4,所有读数中的~59%(5195)被分配到比王国级更特异的分类群,其中大多数(5709)被分配给细菌组。在这两种情况下,分配给真核生物和病毒的读取数都很小,这很容易用大小过滤来解释。然而,尺寸过滤并不能解释为什么古细菌的数量比远洋环境中采样的细菌数量小100倍。观察到的频率差异可以部分解释为,公共数据库中的细菌序列信息至少是古菌的10倍。剩余的10倍差异是否反映了环境中的真实情况,目前是一个悬而未决的问题。
年对16个分类群进行的分析Venter等人(2004)不提供允许分配给分类组的读取绝对数量的估计。MEGAN可以很容易地生成这样的统计数据,因为LCA算法明确地将每个单独的读取分配给NCBI分类法中的某些分类单元,而不管读取是否适合作为系统发育标记。作为指定读取的量化示例,在样本1的10000次读取中,总共有8743次读取被分配给标记为“细菌”的节点或该节点的一个后代。此外,7445个读数被分配给变形杆菌,其中1774、2885、2417、21、2和3分别被更具体地分配给α、β、γ、δ、ε和未分类的变形杆菌(参见).
猛犸象数据集分析
在(Poinar等人,2006年),我们使用了罗氏GS20测序技术(Margulies等人,2005年)从一头长毛象的1克骨样本中随机测序DNA,该骨样本在永久冻土中保存了28000年。我们获得302692个读数,平均长度为95 bp。我们将其称为“猛犸数据集”。由于类似样本除宿主DNA外还包含大量环境序列,因此该研究被设计为宏基因组学项目。
为了确定那些来自猛犸象基因组的读数,我们进行了BLASTZ(Schwartz等人,2003年)大象、人类和狗的基因组序列比较,下载自网址:http://www.genome.ucsc.edu根据这一计算结果,我们估计至少45.4%的读数代表猛犸象的DNA(Poinar等人,2006年). 其余部分可能来自环境生物,如细菌、真菌、变形虫和线虫。这些生物可能生活在猛犸象的尸体上,并可能促成了腐化过程。
为了确定样本中环境序列的分布,我们首先使用BLASTX将所有读数与NCBI-NR(“非冗余”)蛋白质数据库进行比较(Benson等人,2006年)它不包含来自大象基因组项目的任何序列信息。此计算产生了一个大小为1.4 GB的文件,其中包含2911587个读取到数据库中序列的本地对齐。在302692次读取中,52179次导致一次或多次对齐(17.2%)。然后,我们将BLASTX搜索的结果加载到MEGAN的初步版本中,并应用LCA算法计算对分类单元的读取分配,从而获得样本分类内容的估计。
在这里,我们提供了MEGAN分析的详细信息,使用位核阈值30,并放弃任何孤立的赋值,即任何只分配了一个读取的分类单元。LCA算法将50093个读取分配给分类单元,2086个仍然没有分配,要么是因为它们的匹配比特率低于阈值,要么是由于它们产生了一个孤立的命中率。
共有19841个读码被分配给真核生物,其中7969个被分配给Gnathostomata(颚脊椎动物),因此可能来自猛犸序列。此外,总共16972个读数被分配给细菌,761个读数被指定给Archea,152个读数被分别分配给病毒。这些数字略低于Poinar等人(2006年)因为我们的新滤波器,因此强调了LCA方法的内在稳健性。
和展示MEGAN在NCBI分类法的不同层次上总结结果的能力。该程序的一个显著特点是,当用户更改LCA算法的参数或扩展或折叠分类法的部分内容时,这些摘要是动态计算的。某个节点或叶上读数的相对丰度通过表示该节点的圆圈的大小或数字标签直观地指示。MEGAN生成的枝状图可被视为“物种概况”,并可作为表格生成,例如,用于系列样品的并排比较(参见).
从短文中识别物种
有几家公司正在开发新的测序技术,有望以大幅降低的成本生产高通量测序,尽管测序长度短至35 bp。去年引入的罗氏GS20测序技术产生的平均读取长度(Margulies等人,2005年),为~100 bp,当前Sanger测序获得的读数为~800 bp(Franca等人,2002年). 因此,问题是需要什么样的读取长度才能可靠地识别宏基因组样本中的物种。
解决这一问题的一个简单方法是从已知基因组中收集一组读取数据,将数据处理为元基因组数据集(如上所述),然后评估赋值的准确性。为此,两种生物的基因组序列大肠杆菌K12和B.噬菌体HD100使用。我们选择了大肠杆菌因为它在大多数基于克隆的测序项目中用作克隆主机,因此可能会错误地出现在几个不同的数据库序列中。第二种测试生物,嗜细菌芽孢杆菌,在序列上与其他变形杆菌非常不同,并且没有目前在序列数据库中表示的近亲。因此,它的宏基因组分析应该比大肠杆菌.
我们展示了两个基因组的模拟研究结果(大肠杆菌) (Blattner等人,1997年)和(B.噬菌体) (Rendulic等人,2004年). 对于每个基因组,我们使用长度为35 bp、100 bp、200 bp和800 bp的序列间隔,因为这些长度对应于即将到来或现有的测序技术。我们模拟了每个数据点的5000次随机枪读,使用BLASTX将其与NCBI-NR数据库进行比较,然后使用MEGAN处理读取,使用位核阈值35,只保留那些在最佳读取命中率20%以内的命中,并放弃所有孤立的分配。分类为肠杆菌科的reads的百分比从22%到85%不等,γ-蛋白杆菌从24%到94%,变形杆菌从25%到96%大肠杆菌。读取的假阳性分配数为0%。在以下情况下B.噬菌体,分类为的读取百分比B.噬菌体范围为25%至98%,Deltaproteobacteria为26%至99%,Proteobacteria为26%到~100%。未检测到假阳性点击。结果表明,一般来说,短阅读可以用于宏基因组分析,但代价是药物不足率很高。
使用Roche GS20测序技术,我们对2000个随机位置的测试集进行了测序大肠杆菌K12基因组长度约为100 bp。显示了这些数据的MEGAN分析的详细信息,该分析基于BLASTX与NCBI-NR数据库的读取比较,使用与上述相同的参数。在2000次读取中,约25%(432次)没有命中,110次读取没有分配。在剩下的1458个读数中,约75%(1052)被归入肠杆菌科,因此在科的分类水平上作出了正确的归入。除两个读数外,所有其他读数都被指定为超峰值,因此即使预测越来越弱,也会产生正确的预测。
MEGAN对2000篇文章的分析大肠杆菌K12使用Roche GS20测序,基于BLASTX与NCBI-NR数据库的比较。
对的两个假阳性赋值睡眠嗜血杆菌似乎是由于NCBI-NR数据库中的错误条目:这两个数据库序列被标记为“假想蛋白质”;然而,其中一个与16S rRNA序列相同大肠杆菌另一个与中的23S rRNA序列相同大肠杆菌.
在第二个实验中,我们考虑了从B.噬菌体HD100使用相同的测序技术。在,我们显示了最终的MEGAN分析,该分析基于BLASTX读取与NCBI-NR数据库的比较,使用与上述相同的参数。在2000次读取中,约20%(397次)没有点击,5%(106次)没有分配。剩余1498个读数中,约70%(1360)被分配给B.噬菌体HD100。所有其他读取都分配给超轴,再次生成正确的预测(如果越来越弱)。没有假阳性预测。
在,我们展示了使用NCBI-NR数据库副本时获得的类似MEGAN分析,其中所有序列表示B.噬菌体HD100基因组已被删除。这模拟了从数据库中尚未表示的基因组中获取读数的情况。在2000次阅读中,约65%(1361次)没有点击,约13%(253次)没有分配。少量假阳性出现在细菌水平。
虽然这两个对已知系统发育距离的生物体进行的实验证明了LCA算法的稳健性,但它在未知、亲缘关系更远的序列上的性能只能估计。然而,考虑到LCA算法的逻辑结构,我们预测假阳性分配的比率很低,代价是产生相当多的非特定分配或没有命中。独立于MEGAN的设计,每次分析的结果都会因所用数据库的内容而有所偏差,并且只会随着序列数据库的完善而有所改进。除了生成更多序列数据外,还需要新的算法来构建环境内容数据库,因为目前无法评估未知生物的分类单元频率。
通过物种特异基因进行物种和菌株鉴定
对于深入的宏基因组分析,将分类树分解到物种级别尤其重要,如通过对随机读数的分析,人们可以区分密切相关的物种和菌株,从而获得使用系统发育标记无法获得的分辨率。这是因为随机测序也以物种和菌株特异性基因为目标,而这些基因通常不用于系统发育分析。此外,在许多情况下,致病菌株和非致病菌株之间的区别只能基于基因内容,而不是基于共享基因的相似性。明确区分致病性变体和共生性变体的读数的存在将有助于理解环境中的潜在病原体。为此,可以使用Find工具搜索感兴趣的物种或分类群(),并且可以查看一个物种已知菌株的读数分布(). 可以手动检查基础序列对齐(),可以使用其他工具提取单个序列进行评估。
(A类)MEGAN提供了一个查找工具来搜索感兴趣的特定分类群。(B类)搜索结果在分析的详细摘要中突出显示。(C)MEGAN提供了一个Inspector工具,用于查看对特定分类单元分配特定读取所依据的单个序列比较。
讨论
早期的宏基因组研究依赖于环境文库的筛选,以寻找已知的系统发育标记,并随后对感兴趣的克隆进行测序(Béja等人,2000年,2001;Rondon等人,2000年;Quaiser等人,2003年;Treusch等人,2004年).Venter等人(2004)率先对环境样本进行随机基因组测序,生成更大规模的数据,并将重点从短支架转移到数十千碱基长的高覆盖率连续序列。这种类型的序列信息允许对感兴趣的微生物群落的代谢能力进行粗略注释,并且可以在种群遗传学背景下使用这种集合的统计数据来区分离散物种和密切相关的生物类型的种群。
已使用成熟的系统发育标记,如核糖体基因(16S、18S和23S rRNA)或细胞转录或翻译机制中涉及的基因编码序列(如recA/radA、hsp70、EF-Tu、EF-g、rpoB),解决了混合生物体中物种识别的问题。根据定义,这些标记是基于进化缓慢的基因,旨在区分进化距离较远的物种,因此不适合解析密切相关的生物体。
MEGAN偏离了先前的宏基因组分析管道的分析模式,并建立在将随机序列区间与未知系统发育特性与已知序列数据库进行比较的统计能力之上。这项研究表明,即使考虑到目前DNA、蛋白质和环境数据库的不完整和有偏见的状态,对随机读取进行有意义的分类也可能成为元基因组数据的有用的首次系统发育分析。当然,物种识别能力取决于数据库中是否存在密切相关的序列,如去除源基因组B.噬菌体HD100从数据库中获得的数据导致完全未分配的读取数增加了三倍,而在变形杆菌水平上仅产生少量假阳性鉴定。这突出表明MEGAN对分类单元鉴定采取了保守的方法。缺乏数据可能会导致严重的预测不足或大量未分配的读取,但不会导致大量的预测过高。
笔记本电脑分析
宏基因组分析的早期方法经常涉及大型生物信息学家团队,他们生成了具有复杂输出的复杂分析管道。
无论使用何种测序技术,MEGAN都可以用于分析在任何宏基因组学项目框架内收集的DNA读数。在预处理步骤中,使用BLAST或其他比较工具将DNA读取(或连续)集与已知序列的数据库进行比较。这项需要计算的任务通常将在高性能计算机集群上执行。完成后,生成的文件可以下载到笔记本电脑或工作站上,然后使用MEGAN进行交互分析。
假设读取是从宏基因组样本中随机选择的,MEGAN分析可以被视为具有几个吸引人的特征的统计方法。由于读取数据是从具有不同保存水平的基因组随机区域中独立取样的,因此这种类型的分析在分类的所有级别上,尤其是在物种和品系级别上,都会比基于一小套系统发育标记的分析显示出更好的分辨率,因为它们的进化速度比平均速度慢。由于分析不需要将读取的数据组合成连续序列,因此避免了所有与从潜在非常相似的基因组组合中组合数据相关的问题。
该软件易于部署,因为它对现有和广泛可用的用于比对的生物信息学软件工具(如BLAST、BLASTZ和其他比较工具)和公共可访问的数据资源(序列数据库和NCBI分类法)生成的数据进行操作。由于序列比较需要大量计算且耗时,因此应使用足够宽松的对齐参数仅执行一次。MEGAN提供了过滤器,以便稍后将严格程度调整到适当的水平。研究人员可以对大型宏基因组数据集进行详细分析,并手动检查每个分类的正确性,而无需在不同的截止水平重新进行序列比较。
当前宏基因组分析的内在偏差
分析管道中的三个关键要素是序列数据库、用于序列比较的比对软件和公认的已知生物分类法。第一个要素由公共序列数据库组成,由NCBI、EBI和DDBJ管理。这些数据库的内容受到以人类为中心的研究重点的严重偏见,只能很差地反映这个星球的生物多样性。这一事实在任何宏基因组分析中引入了最大的偏差,目前无法避免。第二个组件,序列比对工具,对于分析的计算成本来说是最关键的。随着序列数据库的不断增长和宏基因组项目规模的增加,计算成本也将增加。然而,随着数据库开始提供对生命多样性的更好覆盖,执行这些分析的计算成本实际上可能再次开始下降,因为更严格的全球比对将开始取代不太严格(因此成本更高)的本地比较。
第三部分是所用物种的分类。我们的方法基于NCBI分类系统,该系统由一组分类专家维护和更新,他们结合了基于序列和非基于序列的分类信息。然而,MEGAN也允许集成其他分类系统。
当前问题和未来扩展
MEGAN旨在对一个或多个数据库的一组序列比较结果进行后处理,并且对读取类型、序列比较方法或使用的数据库没有明确的限制。因此,我们预计,即使在这些领域引入创新,我们的方法也将保持有效。
当前的LCA分配算法仅基于读取和分类之间是否存在命中。我们目前正在考虑一种更复杂的方法,它不仅会考虑点击的存在或不存在,还将利用匹配的质量和给定基因在给定序列分支中的典型相似性水平。
有趣的是,基于BLASTN或BLASTX进行的局部比对的分类赋值有多可靠和正确。虽然这些工具从未指定系统发育相关性的序列间隔中创建可变长度的比对,但统计的威力克服了潜在的问题。默认情况下,MEGAN要求在一个分类单元被认为存在之前,至少为该分类单元分配两次读取,这有助于防止误报。此外,根据设计,短而高度保守的域将导致非特定的赋值,而不是错误的赋值。
对任何宏基因组数据集的分析都会产生一组重要的序列,这些序列无法分配给任何已知的分类单元,问题是如何估计未知物种的数量。根据我们的经验(未显示数据),与BLASTX和NCBI-NR相比,10%到90%的所有读取可能无法产生任何点击。要估计这些读取中有多少实际上来自未知物种,必须考虑到大多数已知物种在当前数据库中仅部分表示。例如,如果一个物种的基因组只有10%存在于数据库中,那么对于每一个正确识别的读数,将有多达九个不产生点击。由于关于基因组大小的信息不足,无法准确进行此类估算,因此尚未在MEGAN中实施此类计算。
短序列间隔能识别一个物种吗?
目前可用的测序技术提供从35 bp(即将推出的测序-合成方法)到~800 bp(桑格测序)的测序读数。基于小于~50 bp的极短读取的赋值将具有较低的置信度(例如BLAST情况下的位分数),而长度为~100 bp的读取可以具有合理的置信度水平(BLASTX位分数为30或更高)。如所示和,MEGAN分析正确地分配了短至35bp的片段。然而,较短的读取长度会导致严重的预测不足,这将降低新技术的成本效率。虽然我们的工作表明,读取35 bp和100 bp的长度足以识别一个物种,但来自和这表明,200 bp可能是在药物不足率和此类阅读的生产成本之间的最佳权衡。
虽然测序技术的新发展将继续在成本和吞吐量方面影响宏基因组项目,但我们相信MEGAN分析将仍然是分析新数据的宝贵工具,并将帮助科学家剖析其环境样品的序列信息。
方法
序列比较
在我们的研究中,我们使用默认设置的BLASTX对非冗余蛋白质序列的NCBI-NR数据库进行了序列比较,使用默认设置下的BLASTN对核苷酸序列进行了NCBI-NT数据库的序列比较,并使用BLASTZ对从狗、大象和人身上获得的全基因组序列进行了序列对比。序列比较是一项具有计算挑战性的任务,随着数据库的不断增长和更大的宏基因组数据集的分析,这项任务的要求可能会越来越高。例如,在64个CPU的集群上,将庞大的数据集与NCBI-NR进行比较几乎需要180个小时的实时时间。我们估计,对整个马尾藻海数据集的160万次读取执行相同的计算需要在我们的系统上实时约1000小时。
使用MEGAN进行分析
在启动时,MEGAN加载完整的NCBI分类法,目前包含280000个以上的分类单元,然后可以使用定制的树导航功能对其进行交互式浏览。然而,MEGAN的主要应用是处理读取与已知序列数据库的比较结果。该程序解析由BLASTX、BLASTN或BLASTZ生成的文件,并将结果保存为程序特定图元文件中的一系列读取分类单元匹配。(可以添加其他解析器来处理其他序列比较方法生成的结果。)
程序使用LCA算法将读取分配给分类单元,然后显示归纳的分类法。分类法中的节点可以折叠或展开,以在分类法的不同级别生成摘要。此外,该程序还提供了一个搜索工具来搜索特定的分类群,以及一个Inspector工具来查看单个BLAST匹配(请参见).
该方法使用多个阈值。首先最小磁芯filter为计算中必须考虑的对齐必须达到的分数设置阈值。对于长度~100 bp的读数,并使用BLASTX与NCBI-NR进行比较,建议最小值为35或更高;而对于长度~800bp的读取,最小核数100更合适。第二,为了区分序列一致性和同源性引起的点击最高百分比过滤器用于仅保留给定读取的那些命中第页其分数在涉及第页(请注意,这与保持一定的命中率不同。)设定值越小,计算的赋值越具体,但生成过度预测也就是说,由于数据库中缺少真正的分类单元,因此预测是错误的。有用的值范围是10%-20%。第三,awin-score公司阈值可以设置为,对于任何给定的读取,如果任何匹配得分高于阈值,那么对于该读取,只有那些匹配得分高于该阈值。第四,为了帮助减少误报最小支持过滤器用于为必须分配给分类单元的最小读取数设置阈值t吨或其在分类树中的任何后代。主计算后,分配给不满足此要求的分类单元的所有读取都将重新分配给特殊分类单元“未分配”。默认情况下,此参数设置为2。
LCA算法的结果作为部分分类法呈现给用户T型这是由已确定的一组分类群诱导的(参见). 该程序通过提供折叠和扩展分类法不同部分的方法,允许用户在许多不同的分类级别上探索结果T型。中的每个节点T型代表一个分类单元t吨并可以查询以确定哪些读取已直接分配给t吨,以及分配给下面分类单元的读取次数t吨此外,该程序允许用户查看特定赋值所依据的序列比对(参见).