介绍
随着基因组序列数量的快速积累,原核生物间横向基因转移猖獗的证据急剧增加[1−4]. 在理解这种进化现象方面取得了重大进展,目前的研究旨在了解基因转移的影响,而不是证明其发生[5−8]. 虽然关于横向基因转移的范围和影响的推断依赖于对假定外源基因的准确和一致的鉴定,但很难设计出客观、稳健的横向基因转移量化方法。与基因鉴定不同,在这种鉴定中,可以通过实验验证预测,但很难确定基因的进化历史。此外,还没有平台可用于测试鉴定外源基因方法的功效和性能。因此,将基因分类为天然或横向转移使用了各种间接证据,每种方法的范围和客观性都有争议[9−13].
检测横向基因转移引入的基因有两种主要策略:参数方法和系统发育方法[三,14]. 系统发育方法通过在其他不相关分类群中发现的基因之间的过大相似性和/或紧密相关分类群缺乏直系同源性来检测假定转移的基因。因此,这种方法的效率和可靠性依赖于序列数据库的深度和广度,并且通常依赖于对系统发育树反映的关系差异的解释,这些差异本身是对关系集合的不完善总结[15]. 相反,参数化方法使用生物体的基因组序列来检测相对于基因组中大多数基因非典型的基因;常用的判别标准包括单核苷酸组成(SNC)、二核苷酸组成(DNC)和密码子使用偏差(CUB)。
虽然这两种方法经常被用于估计转移到基因组中的遗传物质的数量[三,14]参数方法经常被用来评估特定基因是否最近获得,因为这些分析只使用目标基因组中包含的信息,因此不需要姐妹分类群进行比较。此外,结果似乎更容易解释。然而,参数方法的有效性在于其区分典型和非典型基因的能力,迄今为止,还没有提供客观标准来衡量参数方法的稳健性。这在一定程度上是由于缺乏基因组,而基因组中所有基因的进化历史都是已知的。
因此,关键问题仍然与通过不同方法发现的任何物种不一致的非典型基因集有关[9,10]. 两个Ragan[9]以及Lawrence和Ochman[14]推测不同的方法测试不同的零假设,从而导致不一致的结果。此外,每种参数化方法都必须平衡这两类分类错误(由于某些外源基因与本地基因相似而无法识别某些外源基因,以及由于某些不寻常的特征而将本地基因误分类为外源基因)。由于检测阈值不同,这将导致识别出不一致的假定外源基因集。虽然可以通过使用多种识别方法并将其分类错误率标准化来缓解这些缺点,但大多数方法的偏差和错误率尚不清楚。
在这里,我们开发了一种方法来评估参数化方法检测非典型基因的能力,从而为使用多个互补参数化方法建立识别横向转移基因的统一方法提供了途径。为此,我们开发了一种使用广义隐马尔可夫模型(HMM)创建人工嵌合基因组的方法[16−19]. 这些人工基因组再现了真实基因组序列的关键统计特性,因此可作为评估检测横向转移基因的新方法和现有方法的有效测试床。首先,通过使用基于Akaike信息准则(AIC)的新型基因聚类算法,获得构成基因组核心的基因,即那些可能未通过横向基因转移引入的基因,从而代表该基因组固有突变特征的谱[20,21]; 核心基因根据其核苷酸组成、DNC和CUB模式被归类为“典型”基因。其次,使用k个-表示使用相对熵作为距离度量来决定算法收敛性的聚类算法[22]. 第三,根据这些组导出了多个基因模型,因此可以通过广义HMM生成人工基因组,使用这些基因模型来表示真正的“核心”基因之间的变异。
获得了一组模仿真正细菌基因组的人工基因组。嵌合基因组是从不同的人工基因组中随机取样的基因的镶嵌集合。因此,在这些基因组中,“原生”或“转移”基因的进化史是确定的。利用这些人工嵌合基因组,我们测试了几种现有参数化方法检测假定外源基因的性能,以及基于AIC的非典型基因鉴定的新方法。我们讨论了一个整合多种方法的框架,从而允许更稳健地鉴定外源基因。
结果
生成人工基因组序列
构建了一个人工基因组生成器,该生成器使用基于真实细菌基因组序列训练的马尔可夫模型生成蛋白质编码序列和基因间序列。蛋白质编码序列由多个五阶非均匀马尔可夫模型创建;非编码序列是由非编码序列的齐次马尔可夫模型创建的,该模型考虑了六聚体统计。针对领先和滞后链上的基因推导出了单独的模型。基因组模型中不包括结构RNA、启动子、转录终止子和其他不常用于鉴定外源基因的特征。编码区和非编码区的长度分布与建模基因组的长度分布一致。
细菌基因组中的所有基因序列都不能用单一的模型准确描述;HMM的概率特性必然会导致人工基因组无法代表真实基因组中基因序列的变异性。例如,正品大肠杆菌基因组中包含的可变基因远远多于用单一模型创建的人工基因组中所含的可变基因,该模型仅考虑两条DNA链上编码的基因之间的变异(A和B) ●●●●。真正基因组中的基因谱是由作用于单个基因组中基因的众多选择性机制造成的;例如,基因经历了一系列CUB选择[23,24]. 为了解决这个问题,蛋白质编码序列的马尔可夫模型是在反映不同方向突变偏差的基因集上训练的。为了创建合适的训练集,根据核苷酸组成、DNC或CUB的相似性对真基因组中的基因进行分组;通过k个-Hayes和Borodovsky描述的均值聚类算法[22]使用相对熵作为距离度量。正如预期的那样,当使用多个基因模型时,HMM生成的人工基因组开始重现真实基因组中的变异性;例如,如果大肠杆菌基因组由三个或九个模型描述,由此产生的人工基因组包含更具代表性的基因分类(C和D) 而不是由单个基因模型生成的人工基因组(B) ●●●●。
真品和人造品的可变性大肠杆菌用可变数目的基因模型创建基因组基因第三密码子位置GC百分比的变异性显示在真大肠杆菌基因组(A),以及使用一个(B)、三个(C)和九个(D)基因模型创建的人工基因组。根据框架特异性DNC对基因进行聚类;μ和σ表示分布的平均值和标准偏差。为了进行图形之间的比较,颜色划分了GC含量的相应范围。
优化HMM生成基因组序列
虽然增加模型的数量可以更准确地表示真实基因组的变异性,但这种策略必然会在每个模型的训练集中提供更少的基因。为了优化HMM的基因模型数量,我们比较了HMM生成的人工基因组中基因核苷酸组成和CUB的分布及其真正对应物中的分布。随着人工基因组变得越来越复杂,这些参数在基因之间的变异性开始接近其同源真实基因组中的变异性。为了测量人工基因组和真实基因组之间的差异,我们计算了累积χ2使用这些值在真实基因组中的分布作为“预期”值,对三种特定框架的GC百分比分布的差异进行分析。累积χ2绘制值作为基因模型数量的函数;该曲线中的最小值用于确定包含基因组中隐含的定向突变偏差所需的最小数量的基因模型。
人工分析大肠杆菌基因组显示累积χ2随着基因模型数量的增加,差异急剧减小,直到达到最佳模型数量()之后,增加HMM中的基因模型数量不会导致任何显著变化。由于使用了大量的基因模型2差异增加,因为分配给每个模型的基因数量减少,HMM的准确性降低k个-均值聚类算法,核苷酸组成在大肠杆菌通过使用大约10–12个基因模型可以非常接近基因组(). 最接近的近似值使用了数量稍大的基因模型,但拟合度的改进只是微乎其微;人工神经网络的最优数大肠杆菌根据SNC、DNC和CUB标准形成的聚类,基因组分别为12、14和9个模型。
用可变数量基因模型创建的真基因组和人工基因组之间的良好匹配正品中的基因大肠杆菌基因组通过核苷酸组成、框架特异性DNC或CUB模式进行聚类。真实基因组和人工基因组之间的对应关系计算为χ2三个密码子位置的GC百分比分布。小χ2值对应更接近的近似值。
在用最佳数量的基因模型构建的人工基因组中,每个密码子位置的核苷酸组成的变异性与真基因组中的相似大肠杆菌基因组;第三顺位GC百分比图如所示,尽管使用CUB标准进行聚类的效果较差(请参见和D) ●●●●。为了检查CUB中的变异性,我们使用McInerney开发的软件从对应分析的第一轴和第二轴创建了因子图[25]. 在真正的阴谋中大肠杆菌基因(A) 梅迪格等人首次描述了现在著名的“兔头”的形状[26],这是显而易见的。在这里,大多数大肠杆菌基因共享一个相似的CUB,高表达基因形成一个“耳朵”,横向转移基因携带更多不寻常的CUB形成另一个“耳”
真实和人工范围内的可变性大肠杆菌使用不同基因模型集的基因组真核细胞内基因第三密码子位置的GC百分比分布大肠杆菌基因组(A),以及人工大肠杆菌基因组生成自大肠杆菌由SNC(B)、DNC(C)或CUB(D)聚集的基因。使用最佳数量的基因模型构建人工基因组(参见); μ和σ表示分布的平均值和标准偏差。为了进行图形之间的比较,颜色划分了GC含量的相应范围。
CUB的对应分析第一轴在59个同义密码子中诱导使用的变异性-绘制为真密码子大肠杆菌基因(A)和来自人工基因组的基因(参见)根据SNC(B)、DNC(C)或CUB(D)标准聚集的基因样本组的基因模型创建。
这种形状在根据DNC和CUB标准聚类的基因创建的人工基因组的因子图中也很明显(). 然而,这种分布在核苷酸组成相似性聚集的基因中并不明显(B) ,表示CUB信息丢失。也就是说,这些集合包含具有不同CUB的基因,导致信息量较少的模型。基于CUB标准聚类的基因的基因组因子图似乎也更零碎(D) 很可能是因为每个模型都是在一组具有高度相似CUB特征的基因上训练的。这些观察结果使我们得出结论,使用DNC作为判别标准对基因进行聚类后得到的HMM和基因模型,在建模原核生物特有的突变偏向模式时最有效。也就是说,它捕获了核苷酸组成和结构的基因复杂性。
基因组核心基因的提取
在开发用于评估检测非典型基因的参数方法的人工基因组时,我们希望用不同人工基因组“捐赠”的基因创建嵌合基因组,每个基因组都以不同的真实基因组为模型。然而,大多数真正的基因组包括外来基因和本地基因[三,27]这可能会混淆为代表基因组内本地基因的变异性而选择的训练集。因此,我们必须从HMM训练集中消除最近可能通过横向基因转移引入的任何非典型基因。而垂直遗传基因的数量会随着比较远缘相关基因而减少[27],细菌基因组中的大多数基因已经在那里停留了足够的时间,以获得类似的序列特征[28−30]。也就是说,如果首先排除最不典型的基因,则可以创建代表基因组内本地基因变异谱的稳健模型。
我们使用基于AIC的参数聚类方法(参见材料和方法). 正如预期的那样,核心基因组中的基因数量取决于用于聚类的标准。例如,通过将AIC基因聚类算法应用于一组4255大肠杆菌当分别使用框架特异性单核苷酸偏倚、框架特异性二核苷酸偏斜和CUB作为判别标准时,蛋白编码基因、3026、2643和3031基因被鉴定为本地基因。在这里,我们选择了由所有三个标准确定的2141个基因集,代表核心基因的高置信度集;AIC生成的岩芯用于后续分析。
岩芯对应分析大肠杆菌基因组,类似于,表明代表非典型基因和高表达天然基因的兔头“耳朵”已经消失(图S1). 从大肠杆菌核心基因组既不是意外的,也不是多余的。因为高度保守的基因转移的频率都较低[8]由于其易于识别的功能,更容易被识别为“本地”,因此没有必要细化参数方法来检测它们。因此,核心基因组代表了一个可以检测所有非典型基因的框架。
除了它们的序列特性外,基因的身份还包括和排除在大肠杆菌核心遵循可预测的模式。正如预期的那样,指导氨基酸生物合成和中枢代谢的“管家”代谢基因包含在核心基因组中。有三类基因被排除在外。首先,移动遗传元件(转座子和原噬菌体内的基因)被排除在外,可能是因为它们不寻常的CUB。第二,通过参数分析确定的其他已知外来基因[31]或系统发育分析[13],也被排除在外(例如phn、rhs、hsd、rfb、,和紫胶操纵子)。第三,如对应分析预测的那样,也排除了高表达基因,例如编码核糖体蛋白和延伸因子的基因。总的来说,核心基因组中的基因数量与相互共享的蛋白质编码基因数量相当大肠杆菌及其姊妹分类单元,沙门氏菌,长度大于300个核苷酸。这些数据表明,这种方法确实提供了一个合理的基因集合,反映了本地突变偏倚谱的主要部分。更重要的是,必须针对这种变异性检测非典型基因;因此,这些基因是构建人工基因组的理想候选基因。
人工核心基因组和嵌合基因组的生成
细菌基因组的核心基因如上所述获得,并通过k个-指以特定于帧的DNC作为判别准则的基因聚类算法。鉴于HMM在代表完整基因组内的变异性方面的表现,我们期望在从训练集中排除最不典型的基因时表现更好。使用上述优化技术选择基因模型的数量。从这些簇衍生出的基因模型被用于HMM,以生成反映同源真正核心基因组特征的人工核心基因组;每个基因模型产生的基因数量与其训练集中的基因数量成正比。与整个基因组建模时的情况一样,参数属性,如框架特异性核苷酸组成(图S2)和CUB(请参见图S1)人工核心基因组中的基因反映了正在建模的真正核心基因组的基因。人工核心基因组中的基因变异反映了真正核心基因组中所见的范围,这证明HMM具有多基因模型。
为了创建经历了模拟横向基因转移事件的人工基因组,基因组生成器对几个原核生物的核心基因组进行了建模;对于每个核心基因组,使用了最佳数量的基因模型。然后,嵌合基因组被生成为以预定比例从几个合成基因组中随机提取的基因的镶嵌。通过这种方式,可以使用来自大量来源的不同比例的外源基因创建人工基因组。更重要的是,这些人工基因组中的基因历史——例如,基因是“本土”还是“外来”——是绝对确定的。由于每个核心基因组都由多个基因模型描述,数百个基因模型甚至可用于创建最简单的嵌合体基因组,从而提供在真实基因组中观察到的基因之间的高度变异性。
检测非典型基因的参数方法评估
通过参数化方法生成并分析了大量嵌合基因组,以检测非典型基因(参见材料和方法). 我们在这里展示了包含4000个基因的镶嵌人工基因组的分析结果,其中大多数(85%)是由大肠杆菌核心基因模型。这些“外来”基因是根据来自富氏古球虫(1%),枯草芽孢杆菌(1%),耐辐射球菌(2%),流感嗜血杆菌Rd(2%),詹氏甲烷球菌(1%),淋病奈瑟菌(1%),青枯菌(2%),草木犀中华根瘤菌(2%),协同孢子虫PCC6803(1%),以及海洋热藻(2%). 我们采用了几种方法来识别非典型基因;在这种情况下,人工大肠杆菌85%的核心基因组被认为是受体基因组,其他10个人工基因组被认为为模拟横向基因转移事件的供体。为了评估每种方法的性能,考虑了两个错误率。I型错误(假阴性)计算为100–灵敏度,其中灵敏度是正确识别为外源基因的百分比。II型错误(假阳性)被计算为100–特异性,其中特异性是预测的外源基因中实际外源基因的百分比,即,由接受非特异性训练的模型创建大肠杆菌基因。
正如预期的那样,I型错误和II型错误之间存在权衡,即随着检测外源基因的方法变得更加敏感(I型错误较低),它们也不那么特异,并且将更多本地基因误分类为假定的外源基因(II型错误较高)。例如,A显示了卡林二核苷酸法的结果[32]阈值参数决定了哪些基因被认为是非典型的,从而被认为是外来的。这种权衡适用于所有检查的方法(B) ●●●●。正如预期的那样,越保守的阈值导致II类错误越低,I类错误越高。人工基因组的使用使这些算法的用户能够在将这些方法应用于真正的基因组序列之前评估其阈值标准的严格性。或者,可以使用该方法的差异性能将置信值分配给非典型基因分配,即在低阈值下被声明为“外来”的基因将比在高阈值下被宣布为外来的基因具有更高的置信度,后者的II型误差更大。为了比较不同方法的性能,我们建立了将平均错误率降至最低的最佳阈值标准(A) ●●●●。
非典型基因检测方法中错误率的权衡(A) 根据Karlin的DNC方法预测外源基因的I型误差、II型误差和平均误差[32]; 虚线表示最小平均误差。
(B) 几种基因检测方法的错误率权衡。
比较了几种识别外源基因的方法的性能,每种方法都使用使平均错误率最小的阈值标准有几个结果值得注意。首先,很明显,检测外源基因的效率取决于基因的来源。例如,卡林的密码子使用方法在识别来自A.fulgidus、R.solanacearum,和詹纳西伊先生但在鉴定捐献的基因方面相对较差枯草杆菌、淋病奈瑟菌、,或协同孢子虫PCC6803型(). 第二,一些参数化方法检测到的外源基因集没有被其他方法检测到。例如,卡林的二核苷酸方法在鉴定从协同孢子虫PCC6803,但不来自D.耐辐射药物;卡林的CUB方法有相反的趋势,在识别来自协同孢子虫PCC6803并与来自D.耐辐射药物第三,很明显,至少在从这个测试集识别基因方面,一些方法比其他方法更稳健;平均错误率显示出显著的变化。一些方法最小化了I型和II型错误(在B作为接近轴交点的曲线)优于其他曲线。作为一个比较点,仅根据非典型核苷酸组成识别外源基因可能显示出非常低的II型错误(表明很少有可疑外源基因实际上是本地基因),但I型错误非常高(表明许多外源基因未被识别)。
表1
参数化方法检测人工非典型基因的错误率大肠杆菌基因组
这个k个-均值聚类算法无法从可变源中识别基因
这个k个-means聚类算法已在真基因组上实现,将基因分为两个或三个簇,其中一个簇标记为外来[22]. 当应用于嵌合人工基因组时,该方法产生了两种类型的高误差值k个=2(两组,). 这一结果并不意外,因为并非所有非典型基因都是相似的,也不会被分离成单个簇。对于k个=3,三个簇中有一个簇主要包含(>95%)本地基因,另一个簇则主要包含(>95%)外来基因。第三个簇通常包含大约60%的本地基因,将第三个基因簇指定为本地或外来会产生高I型或高II型错误。
如果k个-means方法在于人工基因组中外源基因的高变异性,因此降低人工基因组的复杂性应该提高该方法的性能。因此,我们构建了另一组75%的人工基因组大肠杆菌−衍生基因和其他五个人工基因组的剩余基因(模仿A.fulgidus、M.jannaschii、B.subtilis、R.solanacearum、,和流感嗜血杆菌,每个基因组丰度为3%–6%)。使用这些不太复杂的基因组k个-均值聚类算法的性能更好,与其他方法相比,平均误差为13.0%(). 此外,Hayes和Borodovsky[22]使用从GenMark算法派生的聚类种子开始分析,我们发现随机聚类种子同样有效(). 当大肠杆菌基因增加到85%,II型误差保持不变,I型误差略微增加到24.5%(数据未显示)。我们的结论是,当外源基因的多样性较低时k个-意味着该方法性能更好。其他方法没有观察到类似的改进()基于AIC的方法仍然是最稳健的。
表2
参数化方法检测人工非典型基因的错误率大肠杆菌基因组
利用AIC鉴定非典型基因
我们使用人工基因组作为平台,测试使用AIC检测外源基因的新方法的实现[20]. 这里,嵌合体人工基因组中的基因使用核苷酸组成、DNC或CUB作为判别标准进行聚类(参见材料和方法). 最初,基因被分配给单个基因簇(即包含单个基因的簇)。使用AIC评估簇之间的成对距离,如果ΔAIC为负,即如果N–1集群模型比N个集群模型。重复这一过程,直到集群合并不再重要(参见材料和方法).
据推测,最大的簇包含“本地”基因,因为本地基因是基因组中数量最多的基因;较小的簇被推断包含因其非典型序列特征而未能与主簇合并的外源基因。这种分配单个本地基因簇的方法对于人工基因组的分析很有效,其中不寻常的本地基因被排除在“核心”基因组之外(参见图S1). 当应用于真正的基因组时,含有高表达基因的额外簇也将被表示为天然簇;这个分配不应该有问题或争议,因为这些基因的祖先很少有疑问[33].
基于AIC的方法有两个显著特征。首先,通过此方法到达的簇的数量不是预先确定的k个-均值算法[22]. 由于外源基因的数量和特征无法预测,基于AIC的聚类方法避免了将基因任意分配到簇中。其次,如果簇从未与其他基因簇合并,则簇可能包含单个基因。这样,与其他基因不相似的外源基因仍然被认为是外源基因。也就是说,AIC聚类方法并没有导出外来基因的描述并将它们聚类在一起;相反,典型的基因被鉴定并分组在一起,而外来基因则是那些不属于本地基因簇。第三,彼此相似的外源基因是集群,作为一种验证形式。也就是说,具有疑似共同外源基因的基因群,例如大肠杆菌phn操纵子[34]或沙门氏菌操纵子[35]-应该属于同一个集群。
新的基于AIC的基因聚类方法产生的错误率表明,它们表现得非常好,优于所描述的其他方法(参见B类;和). 例如,在使用来自十个来源的横向转移基因检查人工基因组时()基于AIC的方法的平均错误率(12%−15%)远低于Karlin的二核苷酸(37%–39%)或CUB(26%−28%)方法。总的来说,使用DNC的AIC聚类方法在这些数据上表现最好,最大限度地减少了I型和II型错误(B) ●●●●。在分析五个供体基因组病例时也看到了类似的结果(). 此外,该方法的总体性能并不严重依赖于“调优”参数的值(请参阅材料和方法),类似于其他方法的阈值参数。如中所示,所有方法都显示了I型和II型错误之间的折衷;对于基于AIC的方法,微调参数的微小调整并不会显著改变性能。基于AIC的方法的性能不能反映核心基因组的组成,这些基因组是通过基于AIC聚类算法生成的。当使用Kullback-Leibler(K-L)距离提取的核心基因组用于训练用于生成人工基因组的Markov模型时,获得了几乎相同的结果(图S3).
短开放阅读框架的分类性能
当应用参数方法时,短的开放阅读框架通常被错误地归类为假定的外来基因[14]. 虽然短基因可以在其结构中封装有用的生物信息,但在统计分析中它们可能会作为噪声出现。必须有一个最小长度,超过这个长度,基因就不能为统计分析提供可靠的数据,但这个阈值并不明显;在许多分析中,它被任意设置为400个核苷酸[14]. 此外,不同的方法可能对短基因有不同的敏感性。我们检查了用于检测非典型基因的方法的性能,作为基因长度的函数(). 对于大多数方法,人们很容易得出结论,超过250个核苷酸的基因可以很容易地分类;因此,400个核苷酸的阈值是有效的,尽管有些保守。这种趋势的例外是Karlin的CUB方法,该方法在短基因分类方面表现不佳,但随着基因长度的增加而改进(). 这种行为不仅仅是CUB为短基因鉴定提供的信息不足的结果;基于AIC的聚类方法使用CUB作为判别标准,在识别短外源基因方面表现良好。
参数化方法在短基因分类中的应用针对嵌合体、人工基因组中的基因,评估了根据基因长度将基因正确分类为本地或外来的错误率。
讨论
人工基因组提供了一个有用的评估平台
通过使用嵌合人工基因组的测试系统评估了几种方法的性能,这使我们能够批判性地分析检测横向转移基因的参数方法的局限性。这些结果为我们提供了参数方法能力的首次比较评估。已经评估了I型和II型错误之间的权衡,并证明了在检测不同来源基因组中的基因时的差异性能。此外,使用相同判别标准的方法,例如,由Karlin等人实施的CUB[36]这里描述的基于AIC的方法显示了显著不同的结果,表明使用类似数据的替代分析方法值得追求。
基因组是极其复杂的序列,公平的做法是考虑基因的偶数域来表示具有独特选择性约束的序列。此外,基因被组织成操纵子,并在复杂的网络中受到调控;每一级的复杂性都赋予了可以在序列级建模的特征细节。考虑到相互作用是在基因组水平上的系统发育模式,因此无需考虑更突出的复杂性水平,在类似条件下进化的基因可以用一个独特的模型来描述。而基于核苷酸或六聚体统计的人工基因组构建的简单模型(例如。,GenRGenS基因[网址:http://www.lri.fr/~丹尼斯/GenRGenS/])适用于检查调节相互作用或人工生命模拟的性能[37,38]需要更复杂的模型来准确评估算法在检测真实基因组中非典型基因方面的性能。
我们利用驱动基因组进化的定向突变偏差来优化HMM以获得最少数量的基因模型。我们构建的人工基因组简化了基因组的复杂性。与实际基因组的连续分布相比,人工基因组的基因因子图显示出一些不连续性,代表了集群的中心(参见). 用于训练基因模型的基因簇数量有限,无法再现细菌基因组的微妙复杂性;相反,基因簇代表了核心基因之间观察到的主要趋势。一些明显不寻常(非典型)的基因未经核心提取方法过滤,因此无法在人工基因组中显示。人工基因组旨在为检测外源基因所利用的基因之间的某些特征变异建模。基因组序列的其他复杂性没有建模,但如果它们被认为有用或重要,则可以包括在内。
非典型基因鉴定方法的性能可以在包含或不包含额外的、更复杂的信息的情况下进行检查。例如,我们的人工基因组生成器中包含了链偏差,但可以生成缺乏链身份的人工基因组(参见图S4); 因此,可以直接测定方法对基因组复杂性这一方面的敏感性。该优化HMM是为评估参数化方法性能而开发的测试系统的核心。嵌合体、人工基因组为参数化方法提供了一个公平的平台,以供执行和评估,即,我们期望在检测人工基因组中非典型基因方面表现良好的方法在对真实基因组中的基因进行分类方面表现良好。
使用我们开发的测试系统对参数方法进行的比较评估提供了一些见解。我们观察到,卡林的二核苷酸方法优于使用密码子偏差作为判别标准的方法(参见B) ●●●●。然而,我们还发现,在基于AIC的聚类算法中实现的帧特异性二核苷酸测量比任何其他算法实现的密码子偏差测量更好地区分本地和外来基因。因此,方法的性能既取决于统计数据的选择,也取决于所使用的方法。方法如k个-平均值聚类显示,随着供体基因组数量的增加,性能发生了显著变化(参见和)、和设置k个=2似乎不是区分外源基因库和本地基因库的合适选择。源于一个源基因组的供体基因相对于其他基因具有明显的变异性,因此双聚类方法可能并不总是可行的选择;增加的k个可以允许该方法根据基因组中固有的基因型变异性创建更多的基因聚集中心。事实上,我们已经看到,具有多基因模型的HMM由基因簇衍生而来,使用k个-means方法生成一个人工基因组,该基因组具有真正对应物的特征变异。
推断基因祖先的其他方法
理论上,将一个生物体的基因清单与一个近亲的基因清单进行比较,可以提供一种衡量标准,即哪些基因是本地基因(两个基因组之间共享的基因),哪些基因是外来基因(感兴趣的基因组所特有的基因)。该方法已成功应用于外源基因检测的分析[13]. 这种系统发育方法有几个弱点,可能会影响调整非典型基因检测方法性能或验证任何一个基因组序列分析的尝试。首先,许多生物体的近亲尚未测序;在这些情况下,没有合适的基因组来提供比较的基础。第二,仅在感兴趣的分类单元中存在一个基因可能是由于该谱系中的增益或姊妹谱系的丢失;这个事件的极性只能通过分析三个或更多个基因组来确定。第三,即使在非常密切相关的分类群(例如大肠杆菌在物种基因库中所占比例不到一半[29,39]-这将混淆谱系特异性基因的鉴定。
最后也是最重要的一点是,两个基因组之间共享的基因只有从它们存在于这两个菌株的共同祖先的角度来看才是“本地的”。也就是说,如果鼠伤寒沙门菌基因组与伤寒沙门菌基因组大肠杆菌基因组,或鼠疫耶尔森菌基因组。为了验证和校准检测横向转移基因的参数方法,将基因指定为“外来”或“本地”不应依赖于指定特定的外类群分类单元。
检测外源基因的组合方法
在真实基因组中,不同的参数化方法可识别不同组假定的外源基因[9,10]由此推测,不同的方法检测不同的外源基因亚群。我们认为,这一假设得到了我们的发现的支持,即检测外来基因的不同方法在检测来自不同来源的基因时表现出明显的差异(见). 因为在人工基因组中,外来基因的身份是确定无疑的,所以我们可以测试这样一个假设,即在单独使用时,性能不同的方法组合可能会优于每种方法。然后可以实施两种战略。一种选择是放宽非典型基因检测方法的判别标准,从而识别更多外来基因,但代价是将更多本地基因误分类为潜在外来基因(参见). 最后一组假定的外源基因将被定义为通过所有方法识别的基因(所有基因集的交集)。我们不赞成这种方法,因为每种方法都很难识别特定的外源基因,而且人们也不会期望它们出现在所有的集合中。
或者,可以使用更严格的阈值标准进行非典型基因检测,从而错误分类更少的本地基因,并将II型错误降至最低。最后一组假定的外源基因将包括所有检测到的非典型基因(所有基因集的联合)。我们赞成这种方法,因为一种方法应该识别一些其他方法无法识别的外源基因。此外,错误率分析(参见)允许我们为每种方法选择保守的阈值标准。为此,我们使用Karlin的两种方法,即使用DNC和CUB作为判别标准,在嵌合人工基因组中鉴定了假定的外源基因。这两种方法在鉴定不同供体基因组中的基因方面表现出互补的优势和劣势(参见).
为了合并结果,我们选择了比最佳值更保守的阈值标准,即更少的本地基因被误分类为外来基因,而牺牲了更少的外来基因被正确识别。然而,当两种方法的结果相结合时,即我们宣布通过任一方法鉴定的任何基因为外来基因,则组合方法的结果优于单独使用任一方法的结果(). 组合方法的平均误差率(22.9%)也低于组分方法在各自最佳阈值下的平均误差(卡林二核苷酸和密码子偏置方法分别为37.7%和26.1%)。因此,我们认为人工基因组平台证明了组合外源基因鉴定方法的概念是合理的,即通过不同方法鉴定的基因集的结合被表示为“外源”。我们认为,在检测非典型基因方面的强大改进反映了这些方法的“互补性”,即。,用一种方法检测出的非典型基因在另一种方法中检测不到,反之亦然。三种基于AIC的方法显示出较少的互补性(参见). 当这些方法一起使用时,观察到AIC核苷酸和AIC密码子偏置方法的组合在性能上的最显著改进(AIC核苷酸的最佳阈值和AIC编码子偏置方法分别为14.9和15.2,平均错误率为13.8;和S1(第一阶段)). 可以理解,添加AIC二核苷酸方法并没有产生额外的改进(表S1)这可能是因为该方法不会增加对其他两种方法组合后未检测到的基因类别的检测。该分析的一个显著特点是,在所有情况下,I型误差都大幅度减小,而平均误差率几乎与最优阈值下的分量法相同或更小(和S1(第一阶段)). 因此,这些方法的组合适用于大幅提高灵敏度,同时将假阳性结果的数量保持在最低水平。
一种检测外源基因的新方法
基于AIC的新型基因聚类算法[20]也有人提出。这些方法使用AIC通过任何参数测量(例如DNC)对基因进行聚类。这些方法与现有的非典型基因检测参数方法相比,表现良好,在我们的测试集中明显优于它们(参见和;B) ●●●●。鉴于k个-means聚类算法选择任意数量的簇(k)基于AIC的聚类算法将基因分为不同的基因类,反映了给定基因组的固有复杂性。与当前仅检测异常基因的参数化方法不同,它能够区分不同类别的获得基因,即,它能够识别以特定方式非典型的基因集。这一特性可能有助于识别从相似来源获得的基因,从而具有相似的序列特征。此外,该特征可作为一种验证技术,其中外源基因的操纵子将包含属于相同AIC定义簇的基因。
基于AIC的方法的性能不受AIC在识别用于训练马尔可夫模型以生成人工基因组的“核心”基因的方法中的使用的影响。为了确保这些方法的独立性,我们使用基于K-L距离的方法提取了核心基因组(见材料和方法). 的核心大肠杆菌通过K-L方法选择的基因组包含2445个基因,其中1788个基因与AIC生成的核心共享。由于两种方法产生的核心基因组包含许多相同的基因,因此用于选择核心的方法似乎不会影响核心的组成。相反,这些差异反映了选择方法的相对严格性。当使用使用这些核心基因组模型创建的嵌合基因组评估检测非典型基因的方法时,没有检测到显著差异(参见图S3; 与…相比B) ●●●●。这些结果支持这样一种假设,即核心基因组的组成几乎没有任何偏差,如果有的话,任何偏差都会在利用数百个马尔可夫模型创建的基因创建嵌合人工基因组时消除。因此,我们得出结论,该方法为评估参数化方法检测细菌基因组中非典型基因的性能提供了一个强大的平台。
结论
识别基因的非典型特征是识别和量化横向基因转移事件的第一步。尽管参数化方法已被证明在分类外源基因方面非常有效,但降低误差幅度仍然是一个挑战。我们的概率方法是通过使用不同的零假设的参数方法评估基因非典型性的一个进步,并为开发一个集成的方法系统提供了一个平台,该系统可以为被称为典型或非典型的基因指定置信值,从而为横向基因流的量化开辟了一个新的方向。HMM的使用允许在给定任何一组原核基因组的情况下生成人工嵌合基因组。这为评估新提出的非典型基因检测方法的性能提供了一个客观的测试平台。