Use of Artificial Genomes in Assessing Methods for Atypical Gene Detection

Rajeev K Azad; Jeffrey G Lawrence

doi:10.1371/journal.pcbi.0010056

公共科学图书馆计算生物学。2005年11月；1（6）：e56。

2005年11月11日在线发布。数字对象标识：10.1371/日记.pcbi.0010056

预防性维修识别码：项目经理1282332

PMID：16292353

人工基因组在非典型基因检测评估方法中的应用

拉杰夫·卡扎德和杰弗里·劳伦斯^*

马克·博罗多夫斯基，编辑器

作者信息文章注释版权和许可证信息 PMC免责声明

关联数据

补充资料: 图S1：CUB的对应分析第一轴在59个同义密码子中诱导使用变异-绘制了4255个大肠杆菌基因（A），2141大肠杆菌代表“核心”基因组（B）的基因和2141个包含人工大肠杆菌核心基因组（C）。人工基因组是由框架特异性DNC聚集的基因创建的。
（826 KB TIF）
pcbi.0010056.sg001.tif（827000）
GUID:BF4D67BE-379E-4E7B-838A-7C74839F8189
图S2：真品和人造品的可变性大肠杆菌基因组第三密码子位置的GC百分比绘制为4255大肠杆菌基因（A），2141“核心”大肠杆菌基因（B）和人工“核心”中的2141个基因大肠杆菌基因组（C）。人工核心基因组由框架特异性DNC聚集的基因创建；μ和σ表示分布的平均值和标准偏差。
（388 KB TIF）
pcbi.0010056.sg002.tif（389千）
GUID:9FAB515D-F8FD-444B-BAE9-6C33EADA2E92
图S3：几种基因检测方法的错误率权衡——人工基因组是根据使用K-L距离方法提取的核心基因组训练的马尔可夫模型生成的。与进行比较图5B。
（142 KB TIF）
pcbi.0010056.sg003.tif（142K）
制导：31BF36BD-24FC-41AC-BE2D-D66EF173BB0E
图S4：真实和人造的累计GC-Skew图大肠杆菌基因组对于每个基因，GC偏斜计算为（%G–%C）/（%G+%C）第三密码子位置，并根据转录方向进行校正。从基因组序列中的第一个基因开始，获得累积偏差，作为前几个基因偏差值的总和。真正的大肠杆菌基因组包含4255个蛋白质编码基因，而人工基因组包含4000个基因。累计GC-扭曲图显示为人工大肠杆菌有和无基因模型的基因组可解释训练期间的链偏倚。链偏倚明显表现为真核细胞中富含G-或C-基因的大域大肠杆菌基因组和人工基因组中的链同一性被纳入模型。
（273 KB TIF）
pcbi.0010056.sg004.tif（273000）
指南：79A5B0BB-AB37-4896-B563-58D90627C84A
表S1：原核基因组（42KB DOC）中非典型基因联合参数检测方法的性能
pcbi.0010056.st001.doc文件（43000）
GUID:99DB6588-26B9-4716-8D7A-9F93AB86327F

摘要

识别横向转移基因的参数化方法利用了每个基因组特有的方向突变偏差。然而，新的、更稳健的方法的开发，以及现有方法的评估和正确实施，都依赖于使用真实基因组对性能的任意评估，其中基因的进化历史未知。我们使用广义隐马尔可夫模型的框架来创建仿照真实基因组的人工基因组。为了对基因组进行建模，基于Akaike信息标准，通过一种新的基因聚类方法来识别“核心”基因，即那些显示大量基因之间共享突变偏见模式的基因。来自多个“核心”基因簇的基因模型用于生成模拟真实基因组特性的人工基因组。嵌合人工基因组是指通过结合多个人工基因组中的基因而创建的具有横向基因转移经历的基因组，直接评估鉴定“非典型”基因的参数化方法的性能。我们发现，一个包含多个基因模型的隐马尔可夫模型，每个模型都训练在代表基因组内基因型变异范围的一组基因上，可以产生模拟真实基因组特性的人工基因组。此外，检测外源基因的不同方法表现不同，即在鉴定嵌合体人工基因组中的非典型基因时，它们具有不同的优势和劣势。

简介

细菌基因组包含来自两个来源的基因；虽然大多数基因在细胞分裂时直接从亲本细胞遗传，但其他基因可能来自无关的生物体。通常，这些外源基因可以被检测到，因为它们的序列具有不同于基因组中其他基因的组成特性。检测非典型基因的方法很难评估，因为没有真正的基因组，其中所有基因的历史都是已知的。在这里，作者描述了一种创建模拟真实基因组特性的人工基因组的方法，包括包含“外来”基因。研究人员使用这些结构（a）评估现有的基于非典型属性的外源基因发现方法，以及（b）测试一种新的非典型基因发现方法。研究人员发现，现有的方法在检测不同来源基因的能力上存在差异，并且结合不同的方法可以提高整体性能。发现非典型基因的新方法，也鉴定出了一组具有不寻常特性的基因，在鉴定人工嵌合基因组中潜在的外源基因方面效果很好。

介绍

随着基因组序列数量的快速积累，原核生物间横向基因转移猖獗的证据急剧增加[1−4]. 在理解这种进化现象方面取得了重大进展，目前的研究旨在了解基因转移的影响，而不是证明其发生[5−8]. 虽然关于横向基因转移的范围和影响的推断依赖于对假定外源基因的准确和一致的鉴定，但很难设计出客观、稳健的横向基因转移量化方法。与基因鉴定不同，在这种鉴定中，可以通过实验验证预测，但很难确定基因的进化历史。此外，还没有平台可用于测试鉴定外源基因方法的功效和性能。因此，将基因分类为天然或横向转移使用了各种间接证据，每种方法的范围和客观性都有争议[9−13].

检测横向基因转移引入的基因有两种主要策略：参数方法和系统发育方法[三,14]. 系统发育方法通过在其他不相关分类群中发现的基因之间的过大相似性和/或紧密相关分类群缺乏直系同源性来检测假定转移的基因。因此，这种方法的效率和可靠性依赖于序列数据库的深度和广度，并且通常依赖于对系统发育树反映的关系差异的解释，这些差异本身是对关系集合的不完善总结[15]. 相反，参数化方法使用生物体的基因组序列来检测相对于基因组中大多数基因非典型的基因；常用的判别标准包括单核苷酸组成（SNC）、二核苷酸组成（DNC）和密码子使用偏差（CUB）。

虽然这两种方法经常被用于估计转移到基因组中的遗传物质的数量[三,14]参数方法经常被用来评估特定基因是否最近获得，因为这些分析只使用目标基因组中包含的信息，因此不需要姐妹分类群进行比较。此外，结果似乎更容易解释。然而，参数方法的有效性在于其区分典型和非典型基因的能力，迄今为止，还没有提供客观标准来衡量参数方法的稳健性。这在一定程度上是由于缺乏基因组，而基因组中所有基因的进化历史都是已知的。

因此，关键问题仍然与通过不同方法发现的任何物种不一致的非典型基因集有关[9,10]. 两个Ragan[9]以及Lawrence和Ochman[14]推测不同的方法测试不同的零假设，从而导致不一致的结果。此外，每种参数化方法都必须平衡这两类分类错误（由于某些外源基因与本地基因相似而无法识别某些外源基因，以及由于某些不寻常的特征而将本地基因误分类为外源基因）。由于检测阈值不同，这将导致识别出不一致的假定外源基因集。虽然可以通过使用多种识别方法并将其分类错误率标准化来缓解这些缺点，但大多数方法的偏差和错误率尚不清楚。

在这里，我们开发了一种方法来评估参数化方法检测非典型基因的能力，从而为使用多个互补参数化方法建立识别横向转移基因的统一方法提供了途径。为此，我们开发了一种使用广义隐马尔可夫模型（HMM）创建人工嵌合基因组的方法[16−19]. 这些人工基因组再现了真实基因组序列的关键统计特性，因此可作为评估检测横向转移基因的新方法和现有方法的有效测试床。首先，通过使用基于Akaike信息准则（AIC）的新型基因聚类算法，获得构成基因组核心的基因，即那些可能未通过横向基因转移引入的基因，从而代表该基因组固有突变特征的谱[20,21]; 核心基因根据其核苷酸组成、DNC和CUB模式被归类为“典型”基因。其次，使用k个-表示使用相对熵作为距离度量来决定算法收敛性的聚类算法[22]. 第三，根据这些组导出了多个基因模型，因此可以通过广义HMM生成人工基因组，使用这些基因模型来表示真正的“核心”基因之间的变异。

获得了一组模仿真正细菌基因组的人工基因组。嵌合基因组是从不同的人工基因组中随机取样的基因的镶嵌集合。因此，在这些基因组中，“原生”或“转移”基因的进化史是确定的。利用这些人工嵌合基因组，我们测试了几种现有参数化方法检测假定外源基因的性能，以及基于AIC的非典型基因鉴定的新方法。我们讨论了一个整合多种方法的框架，从而允许更稳健地鉴定外源基因。

结果

生成人工基因组序列

构建了一个人工基因组生成器，该生成器使用基于真实细菌基因组序列训练的马尔可夫模型生成蛋白质编码序列和基因间序列。蛋白质编码序列由多个五阶非均匀马尔可夫模型创建；非编码序列是由非编码序列的齐次马尔可夫模型创建的，该模型考虑了六聚体统计。针对领先和滞后链上的基因推导出了单独的模型。基因组模型中不包括结构RNA、启动子、转录终止子和其他不常用于鉴定外源基因的特征。编码区和非编码区的长度分布与建模基因组的长度分布一致。

细菌基因组中的所有基因序列都不能用单一的模型准确描述；HMM的概率特性必然会导致人工基因组无法代表真实基因组中基因序列的变异性。例如，正品大肠杆菌基因组中包含的可变基因远远多于用单一模型创建的人工基因组中所含的可变基因，该模型仅考虑两条DNA链上编码的基因之间的变异(图1A和和1B）。1B） ●●●●。真正基因组中的基因谱是由作用于单个基因组中基因的众多选择性机制造成的；例如，基因经历了一系列CUB选择[23,24]. 为了解决这个问题，蛋白质编码序列的马尔可夫模型是在反映不同方向突变偏差的基因集上训练的。为了创建合适的训练集，根据核苷酸组成、DNC或CUB的相似性对真基因组中的基因进行分组；通过k个-Hayes和Borodovsky描述的均值聚类算法[22]使用相对熵作为距离度量。正如预期的那样，当使用多个基因模型时，HMM生成的人工基因组开始重现真实基因组中的变异性；例如，如果大肠杆菌基因组由三个或九个模型描述，由此产生的人工基因组包含更具代表性的基因分类(图1C和和1D）1D）而不是由单个基因模型生成的人工基因组(图1B） ●●●●。

保存图片、插图等的外部文件。对象名称为pcbi.0010056.g001.jpg

在单独的窗口中打开

图1

真品和人造品的可变性大肠杆菌用可变数目的基因模型创建基因组

基因第三密码子位置GC百分比的变异性显示在真大肠杆菌基因组（A），以及使用一个（B）、三个（C）和九个（D）基因模型创建的人工基因组。根据框架特异性DNC对基因进行聚类；μ和σ表示分布的平均值和标准偏差。为了进行图形之间的比较，颜色划分了GC含量的相应范围。

优化HMM生成基因组序列

虽然增加模型的数量可以更准确地表示真实基因组的变异性，但这种策略必然会在每个模型的训练集中提供更少的基因。为了优化HMM的基因模型数量，我们比较了HMM生成的人工基因组中基因核苷酸组成和CUB的分布及其真正对应物中的分布。随着人工基因组变得越来越复杂，这些参数在基因之间的变异性开始接近其同源真实基因组中的变异性。为了测量人工基因组和真实基因组之间的差异，我们计算了累积χ²使用这些值在真实基因组中的分布作为“预期”值，对三种特定框架的GC百分比分布的差异进行分析。累积χ²绘制值作为基因模型数量的函数；该曲线中的最小值用于确定包含基因组中隐含的定向突变偏差所需的最小数量的基因模型。

人工分析大肠杆菌基因组显示累积χ²随着基因模型数量的增加，差异急剧减小，直到达到最佳模型数量(图2)之后，增加HMM中的基因模型数量不会导致任何显著变化。由于使用了大量的基因模型²差异增加，因为分配给每个模型的基因数量减少，HMM的准确性降低k个-均值聚类算法，核苷酸组成在大肠杆菌通过使用大约10–12个基因模型可以非常接近基因组(图2). 最接近的近似值使用了数量稍大的基因模型，但拟合度的改进只是微乎其微；人工神经网络的最优数大肠杆菌根据SNC、DNC和CUB标准形成的聚类，基因组分别为12、14和9个模型。

保存图片、插图等的外部文件。对象名称为pcbi.0010056.g002.jpg

在单独的窗口中打开

图2

用可变数量基因模型创建的真基因组和人工基因组之间的良好匹配

正品中的基因大肠杆菌基因组通过核苷酸组成、框架特异性DNC或CUB模式进行聚类。真实基因组和人工基因组之间的对应关系计算为χ²三个密码子位置的GC百分比分布。小χ²值对应更接近的近似值。

在用最佳数量的基因模型构建的人工基因组中，每个密码子位置的核苷酸组成的变异性与真基因组中的相似大肠杆菌基因组；第三顺位GC百分比图如所示图3，尽管使用CUB标准进行聚类的效果较差（请参见图2和和3D）。三D） ●●●●。为了检查CUB中的变异性，我们使用McInerney开发的软件从对应分析的第一轴和第二轴创建了因子图[25]. 在真正的阴谋中大肠杆菌基因(图4A）梅迪格等人首次描述了现在著名的“兔头”的形状[26]，这是显而易见的。在这里，大多数大肠杆菌基因共享一个相似的CUB，高表达基因形成一个“耳朵”，横向转移基因携带更多不寻常的CUB形成另一个“耳”

保存图片、插图等的外部文件。对象名称为pcbi.0010056.g003.jpg

在单独的窗口中打开

图3

真实和人工范围内的可变性大肠杆菌使用不同基因模型集的基因组

真核细胞内基因第三密码子位置的GC百分比分布大肠杆菌基因组（A），以及人工大肠杆菌基因组生成自大肠杆菌由SNC（B）、DNC（C）或CUB（D）聚集的基因。使用最佳数量的基因模型构建人工基因组（参见图2); μ和σ表示分布的平均值和标准偏差。为了进行图形之间的比较，颜色划分了GC含量的相应范围。

保存图片、插图等的外部文件。对象名称为pcbi.0010056.g004.jpg

在单独的窗口中打开

图4

CUB的对应分析

第一轴在59个同义密码子中诱导使用的变异性-绘制为真密码子大肠杆菌基因（A）和来自人工基因组的基因（参见图2)根据SNC（B）、DNC（C）或CUB（D）标准聚集的基因样本组的基因模型创建。

这种形状在根据DNC和CUB标准聚类的基因创建的人工基因组的因子图中也很明显(图4). 然而，这种分布在核苷酸组成相似性聚集的基因中并不明显(图4B），表示CUB信息丢失。也就是说，这些集合包含具有不同CUB的基因，导致信息量较少的模型。基于CUB标准聚类的基因的基因组因子图似乎也更零碎(图4D）很可能是因为每个模型都是在一组具有高度相似CUB特征的基因上训练的。这些观察结果使我们得出结论，使用DNC作为判别标准对基因进行聚类后得到的HMM和基因模型，在建模原核生物特有的突变偏向模式时最有效。也就是说，它捕获了核苷酸组成和结构的基因复杂性。

基因组核心基因的提取

在开发用于评估检测非典型基因的参数方法的人工基因组时，我们希望用不同人工基因组“捐赠”的基因创建嵌合基因组，每个基因组都以不同的真实基因组为模型。然而，大多数真正的基因组包括外来基因和本地基因[三,27]这可能会混淆为代表基因组内本地基因的变异性而选择的训练集。因此，我们必须从HMM训练集中消除最近可能通过横向基因转移引入的任何非典型基因。而垂直遗传基因的数量会随着比较远缘相关基因而减少[27]，细菌基因组中的大多数基因已经在那里停留了足够的时间，以获得类似的序列特征[28−30]。也就是说，如果首先排除最不典型的基因，则可以创建代表基因组内本地基因变异谱的稳健模型。

我们使用基于AIC的参数聚类方法（参见材料和方法). 正如预期的那样，核心基因组中的基因数量取决于用于聚类的标准。例如，通过将AIC基因聚类算法应用于一组4255大肠杆菌当分别使用框架特异性单核苷酸偏倚、框架特异性二核苷酸偏斜和CUB作为判别标准时，蛋白编码基因、3026、2643和3031基因被鉴定为本地基因。在这里，我们选择了由所有三个标准确定的2141个基因集，代表核心基因的高置信度集；AIC生成的岩芯用于后续分析。

岩芯对应分析大肠杆菌基因组，类似于图4，表明代表非典型基因和高表达天然基因的兔头“耳朵”已经消失(图S1). 从大肠杆菌核心基因组既不是意外的，也不是多余的。因为高度保守的基因转移的频率都较低[8]由于其易于识别的功能，更容易被识别为“本地”，因此没有必要细化参数方法来检测它们。因此，核心基因组代表了一个可以检测所有非典型基因的框架。

除了它们的序列特性外，基因的身份还包括和排除在大肠杆菌核心遵循可预测的模式。正如预期的那样，指导氨基酸生物合成和中枢代谢的“管家”代谢基因包含在核心基因组中。有三类基因被排除在外。首先，移动遗传元件（转座子和原噬菌体内的基因）被排除在外，可能是因为它们不寻常的CUB。第二，通过参数分析确定的其他已知外来基因[31]或系统发育分析[13]，也被排除在外（例如phn、rhs、hsd、rfb、，和紫胶操纵子）。第三，如对应分析预测的那样，也排除了高表达基因，例如编码核糖体蛋白和延伸因子的基因。总的来说，核心基因组中的基因数量与相互共享的蛋白质编码基因数量相当大肠杆菌及其姊妹分类单元，沙门氏菌，长度大于300个核苷酸。这些数据表明，这种方法确实提供了一个合理的基因集合，反映了本地突变偏倚谱的主要部分。更重要的是，必须针对这种变异性检测非典型基因；因此，这些基因是构建人工基因组的理想候选基因。

人工核心基因组和嵌合基因组的生成

细菌基因组的核心基因如上所述获得，并通过k个-指以特定于帧的DNC作为判别准则的基因聚类算法。鉴于HMM在代表完整基因组内的变异性方面的表现，我们期望在从训练集中排除最不典型的基因时表现更好。使用上述优化技术选择基因模型的数量。从这些簇衍生出的基因模型被用于HMM，以生成反映同源真正核心基因组特征的人工核心基因组；每个基因模型产生的基因数量与其训练集中的基因数量成正比。与整个基因组建模时的情况一样，参数属性，如框架特异性核苷酸组成(图S2)和CUB（请参见图S1)人工核心基因组中的基因反映了正在建模的真正核心基因组的基因。人工核心基因组中的基因变异反映了真正核心基因组中所见的范围，这证明HMM具有多基因模型。

为了创建经历了模拟横向基因转移事件的人工基因组，基因组生成器对几个原核生物的核心基因组进行了建模；对于每个核心基因组，使用了最佳数量的基因模型。然后，嵌合基因组被生成为以预定比例从几个合成基因组中随机提取的基因的镶嵌。通过这种方式，可以使用来自大量来源的不同比例的外源基因创建人工基因组。更重要的是，这些人工基因组中的基因历史——例如，基因是“本土”还是“外来”——是绝对确定的。由于每个核心基因组都由多个基因模型描述，数百个基因模型甚至可用于创建最简单的嵌合体基因组，从而提供在真实基因组中观察到的基因之间的高度变异性。

检测非典型基因的参数方法评估

通过参数化方法生成并分析了大量嵌合基因组，以检测非典型基因（参见材料和方法). 我们在这里展示了包含4000个基因的镶嵌人工基因组的分析结果，其中大多数（85%）是由大肠杆菌核心基因模型。这些“外来”基因是根据来自富氏古球虫(1%),枯草芽孢杆菌(1%)，耐辐射球菌(2%),流感嗜血杆菌Rd（2%），詹氏甲烷球菌(1%),淋病奈瑟菌(1%),青枯菌(2%),草木犀中华根瘤菌(2%),协同孢子虫PCC6803（1%），以及海洋热藻(2%). 我们采用了几种方法来识别非典型基因；在这种情况下，人工大肠杆菌85%的核心基因组被认为是受体基因组，其他10个人工基因组被认为为模拟横向基因转移事件的供体。为了评估每种方法的性能，考虑了两个错误率。I型错误（假阴性）计算为100–灵敏度，其中灵敏度是正确识别为外源基因的百分比。II型错误（假阳性）被计算为100–特异性，其中特异性是预测的外源基因中实际外源基因的百分比，即，由接受非特异性训练的模型创建大肠杆菌基因。

正如预期的那样，I型错误和II型错误之间存在权衡，即随着检测外源基因的方法变得更加敏感（I型错误较低），它们也不那么特异，并且将更多本地基因误分类为假定的外源基因（II型错误较高）。例如，图5A显示了卡林二核苷酸法的结果[32]阈值参数决定了哪些基因被认为是非典型的，从而被认为是外来的。这种权衡适用于所有检查的方法(图5B） ●●●●。正如预期的那样，越保守的阈值导致II类错误越低，I类错误越高。人工基因组的使用使这些算法的用户能够在将这些方法应用于真正的基因组序列之前评估其阈值标准的严格性。或者，可以使用该方法的差异性能将置信值分配给非典型基因分配，即在低阈值下被声明为“外来”的基因将比在高阈值下被宣布为外来的基因具有更高的置信度，后者的II型误差更大。为了比较不同方法的性能，我们建立了将平均错误率降至最低的最佳阈值标准(图5A） ●●●●。

保存图片、插图等的外部文件。对象名称为pcbi.0010056.g005.jpg

在单独的窗口中打开

图5

非典型基因检测方法中错误率的权衡

（A）根据Karlin的DNC方法预测外源基因的I型误差、II型误差和平均误差[32]; 虚线表示最小平均误差。

（B）几种基因检测方法的错误率权衡。

比较了几种识别外源基因的方法的性能，每种方法都使用使平均错误率最小的阈值标准表1有几个结果值得注意。首先，很明显，检测外源基因的效率取决于基因的来源。例如，卡林的密码子使用方法在识别来自A.fulgidus、R.solanacearum，和詹纳西伊先生但在鉴定捐献的基因方面相对较差枯草杆菌、淋病奈瑟菌、，或协同孢子虫PCC6803型(表1). 第二，一些参数化方法检测到的外源基因集没有被其他方法检测到。例如，卡林的二核苷酸方法在鉴定从协同孢子虫PCC6803，但不来自D.耐辐射药物；卡林的CUB方法有相反的趋势，在识别来自协同孢子虫PCC6803并与来自D.耐辐射药物第三，很明显，至少在从这个测试集识别基因方面，一些方法比其他方法更稳健；平均错误率显示出显著的变化。一些方法最小化了I型和II型错误（在图5B作为接近轴交点的曲线）优于其他曲线。作为一个比较点，仅根据非典型核苷酸组成识别外源基因可能显示出非常低的II型错误（表明很少有可疑外源基因实际上是本地基因），但I型错误非常高（表明许多外源基因未被识别）。

表1

参数化方法检测人工非典型基因的错误率大肠杆菌基因组

保存图片、插图等的外部文件。对象名称为pcbi.0010056.t001.jpg

在单独的窗口中打开

这个k个-均值聚类算法无法从可变源中识别基因

这个k个-means聚类算法已在真基因组上实现，将基因分为两个或三个簇，其中一个簇标记为外来[22]. 当应用于嵌合人工基因组时，该方法产生了两种类型的高误差值k个=2（两组，表1). 这一结果并不意外，因为并非所有非典型基因都是相似的，也不会被分离成单个簇。对于k个=3，三个簇中有一个簇主要包含（>95%）本地基因，另一个簇则主要包含（>95%）外来基因。第三个簇通常包含大约60%的本地基因，将第三个基因簇指定为本地或外来会产生高I型或高II型错误。

如果k个-means方法在于人工基因组中外源基因的高变异性，因此降低人工基因组的复杂性应该提高该方法的性能。因此，我们构建了另一组75%的人工基因组大肠杆菌−衍生基因和其他五个人工基因组的剩余基因（模仿A.fulgidus、M.jannaschii、B.subtilis、R.solanacearum、，和流感嗜血杆菌，每个基因组丰度为3%–6%）。使用这些不太复杂的基因组k个-均值聚类算法的性能更好，与其他方法相比，平均误差为13.0%(表2). 此外，Hayes和Borodovsky[22]使用从GenMark算法派生的聚类种子开始分析，我们发现随机聚类种子同样有效(表2). 当大肠杆菌基因增加到85%，II型误差保持不变，I型误差略微增加到24.5%（数据未显示）。我们的结论是，当外源基因的多样性较低时k个-意味着该方法性能更好。其他方法没有观察到类似的改进(表2)基于AIC的方法仍然是最稳健的。

表2

参数化方法检测人工非典型基因的错误率大肠杆菌基因组

保存图片、插图等的外部文件。对象名称为pcbi.0010056.t002.jpg

在单独的窗口中打开

利用AIC鉴定非典型基因

我们使用人工基因组作为平台，测试使用AIC检测外源基因的新方法的实现[20]. 这里，嵌合体人工基因组中的基因使用核苷酸组成、DNC或CUB作为判别标准进行聚类（参见材料和方法). 最初，基因被分配给单个基因簇（即包含单个基因的簇）。使用AIC评估簇之间的成对距离，如果ΔAIC为负，即如果N–1集群模型比N个集群模型。重复这一过程，直到集群合并不再重要（参见材料和方法).

据推测，最大的簇包含“本地”基因，因为本地基因是基因组中数量最多的基因；较小的簇被推断包含因其非典型序列特征而未能与主簇合并的外源基因。这种分配单个本地基因簇的方法对于人工基因组的分析很有效，其中不寻常的本地基因被排除在“核心”基因组之外（参见图S1). 当应用于真正的基因组时，含有高表达基因的额外簇也将被表示为天然簇；这个分配不应该有问题或争议，因为这些基因的祖先很少有疑问[33].

基于AIC的方法有两个显著特征。首先，通过此方法到达的簇的数量不是预先确定的k个-均值算法[22]. 由于外源基因的数量和特征无法预测，基于AIC的聚类方法避免了将基因任意分配到簇中。其次，如果簇从未与其他基因簇合并，则簇可能包含单个基因。这样，与其他基因不相似的外源基因仍然被认为是外源基因。也就是说，AIC聚类方法并没有导出外来基因的描述并将它们聚类在一起；相反，典型的基因被鉴定并分组在一起，而外来基因则是那些不属于本地基因簇。第三，彼此相似的外源基因是集群，作为一种验证形式。也就是说，具有疑似共同外源基因的基因群，例如大肠杆菌phn操纵子[34]或沙门氏菌操纵子[35]-应该属于同一个集群。

新的基于AIC的基因聚类方法产生的错误率表明，它们表现得非常好，优于所描述的其他方法（参见图5B类；表1和和2）。2). 例如，在使用来自十个来源的横向转移基因检查人工基因组时(表1)基于AIC的方法的平均错误率（12%−15%）远低于Karlin的二核苷酸（37%–39%）或CUB（26%−28%）方法。总的来说，使用DNC的AIC聚类方法在这些数据上表现最好，最大限度地减少了I型和II型错误(图5B） ●●●●。在分析五个供体基因组病例时也看到了类似的结果(表2). 此外，该方法的总体性能并不严重依赖于“调优”参数的值（请参阅材料和方法)，类似于其他方法的阈值参数。如中所示表2，所有方法都显示了I型和II型错误之间的折衷；对于基于AIC的方法，微调参数的微小调整并不会显著改变性能。基于AIC的方法的性能不能反映核心基因组的组成，这些基因组是通过基于AIC聚类算法生成的。当使用Kullback-Leibler（K-L）距离提取的核心基因组用于训练用于生成人工基因组的Markov模型时，获得了几乎相同的结果(图S3).

短开放阅读框架的分类性能

当应用参数方法时，短的开放阅读框架通常被错误地归类为假定的外来基因[14]. 虽然短基因可以在其结构中封装有用的生物信息，但在统计分析中它们可能会作为噪声出现。必须有一个最小长度，超过这个长度，基因就不能为统计分析提供可靠的数据，但这个阈值并不明显；在许多分析中，它被任意设置为400个核苷酸[14]. 此外，不同的方法可能对短基因有不同的敏感性。我们检查了用于检测非典型基因的方法的性能，作为基因长度的函数(图6). 对于大多数方法，人们很容易得出结论，超过250个核苷酸的基因可以很容易地分类；因此，400个核苷酸的阈值是有效的，尽管有些保守。这种趋势的例外是Karlin的CUB方法，该方法在短基因分类方面表现不佳，但随着基因长度的增加而改进(图6). 这种行为不仅仅是CUB为短基因鉴定提供的信息不足的结果；基于AIC的聚类方法使用CUB作为判别标准，在识别短外源基因方面表现良好。

保存图片、插图等的外部文件。对象名称为pcbi.0010056.g006.jpg

在单独的窗口中打开

图6

参数化方法在短基因分类中的应用

针对嵌合体、人工基因组中的基因，评估了根据基因长度将基因正确分类为本地或外来的错误率。

讨论

人工基因组提供了一个有用的评估平台

通过使用嵌合人工基因组的测试系统评估了几种方法的性能，这使我们能够批判性地分析检测横向转移基因的参数方法的局限性。这些结果为我们提供了参数方法能力的首次比较评估。已经评估了I型和II型错误之间的权衡，并证明了在检测不同来源基因组中的基因时的差异性能。此外，使用相同判别标准的方法，例如，由Karlin等人实施的CUB[36]这里描述的基于AIC的方法显示了显著不同的结果，表明使用类似数据的替代分析方法值得追求。

基因组是极其复杂的序列，公平的做法是考虑基因的偶数域来表示具有独特选择性约束的序列。此外，基因被组织成操纵子，并在复杂的网络中受到调控；每一级的复杂性都赋予了可以在序列级建模的特征细节。考虑到相互作用是在基因组水平上的系统发育模式，因此无需考虑更突出的复杂性水平，在类似条件下进化的基因可以用一个独特的模型来描述。而基于核苷酸或六聚体统计的人工基因组构建的简单模型（例如。,GenRGenS基因[网址：http://www.lri.fr/~丹尼斯/GenRGenS/])适用于检查调节相互作用或人工生命模拟的性能[37,38]需要更复杂的模型来准确评估算法在检测真实基因组中非典型基因方面的性能。

我们利用驱动基因组进化的定向突变偏差来优化HMM以获得最少数量的基因模型。我们构建的人工基因组简化了基因组的复杂性。与实际基因组的连续分布相比，人工基因组的基因因子图显示出一些不连续性，代表了集群的中心（参见图4). 用于训练基因模型的基因簇数量有限，无法再现细菌基因组的微妙复杂性；相反，基因簇代表了核心基因之间观察到的主要趋势。一些明显不寻常（非典型）的基因未经核心提取方法过滤，因此无法在人工基因组中显示。人工基因组旨在为检测外源基因所利用的基因之间的某些特征变异建模。基因组序列的其他复杂性没有建模，但如果它们被认为有用或重要，则可以包括在内。

非典型基因鉴定方法的性能可以在包含或不包含额外的、更复杂的信息的情况下进行检查。例如，我们的人工基因组生成器中包含了链偏差，但可以生成缺乏链身份的人工基因组（参见图S4); 因此，可以直接测定方法对基因组复杂性这一方面的敏感性。该优化HMM是为评估参数化方法性能而开发的测试系统的核心。嵌合体、人工基因组为参数化方法提供了一个公平的平台，以供执行和评估，即，我们期望在检测人工基因组中非典型基因方面表现良好的方法在对真实基因组中的基因进行分类方面表现良好。

使用我们开发的测试系统对参数方法进行的比较评估提供了一些见解。我们观察到，卡林的二核苷酸方法优于使用密码子偏差作为判别标准的方法（参见图5B） ●●●●。然而，我们还发现，在基于AIC的聚类算法中实现的帧特异性二核苷酸测量比任何其他算法实现的密码子偏差测量更好地区分本地和外来基因。因此，方法的性能既取决于统计数据的选择，也取决于所使用的方法。方法如k个-平均值聚类显示，随着供体基因组数量的增加，性能发生了显著变化（参见表1和和2），2)、和设置k个=2似乎不是区分外源基因库和本地基因库的合适选择。源于一个源基因组的供体基因相对于其他基因具有明显的变异性，因此双聚类方法可能并不总是可行的选择；增加的k个可以允许该方法根据基因组中固有的基因型变异性创建更多的基因聚集中心。事实上，我们已经看到，具有多基因模型的HMM由基因簇衍生而来，使用k个-means方法生成一个人工基因组，该基因组具有真正对应物的特征变异。

推断基因祖先的其他方法

理论上，将一个生物体的基因清单与一个近亲的基因清单进行比较，可以提供一种衡量标准，即哪些基因是本地基因（两个基因组之间共享的基因），哪些基因是外来基因（感兴趣的基因组所特有的基因）。该方法已成功应用于外源基因检测的分析[13]. 这种系统发育方法有几个弱点，可能会影响调整非典型基因检测方法性能或验证任何一个基因组序列分析的尝试。首先，许多生物体的近亲尚未测序；在这些情况下，没有合适的基因组来提供比较的基础。第二，仅在感兴趣的分类单元中存在一个基因可能是由于该谱系中的增益或姊妹谱系的丢失；这个事件的极性只能通过分析三个或更多个基因组来确定。第三，即使在非常密切相关的分类群（例如大肠杆菌在物种基因库中所占比例不到一半[29,39]-这将混淆谱系特异性基因的鉴定。

最后也是最重要的一点是，两个基因组之间共享的基因只有从它们存在于这两个菌株的共同祖先的角度来看才是“本地的”。也就是说，如果鼠伤寒沙门菌基因组与伤寒沙门菌基因组大肠杆菌基因组，或鼠疫耶尔森菌基因组。为了验证和校准检测横向转移基因的参数方法，将基因指定为“外来”或“本地”不应依赖于指定特定的外类群分类单元。

检测外源基因的组合方法

在真实基因组中，不同的参数化方法可识别不同组假定的外源基因[9,10]由此推测，不同的方法检测不同的外源基因亚群。我们认为，这一假设得到了我们的发现的支持，即检测外来基因的不同方法在检测来自不同来源的基因时表现出明显的差异（见表1). 因为在人工基因组中，外来基因的身份是确定无疑的，所以我们可以测试这样一个假设，即在单独使用时，性能不同的方法组合可能会优于每种方法。然后可以实施两种战略。一种选择是放宽非典型基因检测方法的判别标准，从而识别更多外来基因，但代价是将更多本地基因误分类为潜在外来基因（参见图5). 最后一组假定的外源基因将被定义为通过所有方法识别的基因（所有基因集的交集）。我们不赞成这种方法，因为每种方法都很难识别特定的外源基因，而且人们也不会期望它们出现在所有的集合中。

或者，可以使用更严格的阈值标准进行非典型基因检测，从而错误分类更少的本地基因，并将II型错误降至最低。最后一组假定的外源基因将包括所有检测到的非典型基因（所有基因集的联合）。我们赞成这种方法，因为一种方法应该识别一些其他方法无法识别的外源基因。此外，错误率分析（参见图5)允许我们为每种方法选择保守的阈值标准。为此，我们使用Karlin的两种方法，即使用DNC和CUB作为判别标准，在嵌合人工基因组中鉴定了假定的外源基因。这两种方法在鉴定不同供体基因组中的基因方面表现出互补的优势和劣势（参见表1).

为了合并结果，我们选择了比最佳值更保守的阈值标准，即更少的本地基因被误分类为外来基因，而牺牲了更少的外来基因被正确识别。然而，当两种方法的结果相结合时，即我们宣布通过任一方法鉴定的任何基因为外来基因，则组合方法的结果优于单独使用任一方法的结果(表3). 组合方法的平均误差率（22.9%）也低于组分方法在各自最佳阈值下的平均误差（卡林二核苷酸和密码子偏置方法分别为37.7%和26.1%）。因此，我们认为人工基因组平台证明了组合外源基因鉴定方法的概念是合理的，即通过不同方法鉴定的基因集的结合被表示为“外源”。我们认为，在检测非典型基因方面的强大改进反映了这些方法的“互补性”，即。，用一种方法检测出的非典型基因在另一种方法中检测不到，反之亦然。三种基于AIC的方法显示出较少的互补性（参见表1). 当这些方法一起使用时，观察到AIC核苷酸和AIC密码子偏置方法的组合在性能上的最显著改进（AIC核苷酸的最佳阈值和AIC编码子偏置方法分别为14.9和15.2，平均错误率为13.8；表1和S1（第一阶段）). 可以理解，添加AIC二核苷酸方法并没有产生额外的改进(表S1)这可能是因为该方法不会增加对其他两种方法组合后未检测到的基因类别的检测。该分析的一个显著特点是，在所有情况下，I型误差都大幅度减小，而平均误差率几乎与最优阈值下的分量法相同或更小(表3和S1（第一阶段）). 因此，这些方法的组合适用于大幅提高灵敏度，同时将假阳性结果的数量保持在最低水平。

表3

联合参数法检测原核基因组中非典型基因的性能

保存图片、插图等的外部文件。对象名称为pcbi.0010056.t003.jpg

在单独的窗口中打开

一种检测外源基因的新方法

基于AIC的新型基因聚类算法[20]也有人提出。这些方法使用AIC通过任何参数测量（例如DNC）对基因进行聚类。这些方法与现有的非典型基因检测参数方法相比，表现良好，在我们的测试集中明显优于它们（参见表1和和2；2;图5B） ●●●●。鉴于k个-means聚类算法选择任意数量的簇（k）基于AIC的聚类算法将基因分为不同的基因类，反映了给定基因组的固有复杂性。与当前仅检测异常基因的参数化方法不同，它能够区分不同类别的获得基因，即，它能够识别以特定方式非典型的基因集。这一特性可能有助于识别从相似来源获得的基因，从而具有相似的序列特征。此外，该特征可作为一种验证技术，其中外源基因的操纵子将包含属于相同AIC定义簇的基因。

基于AIC的方法的性能不受AIC在识别用于训练马尔可夫模型以生成人工基因组的“核心”基因的方法中的使用的影响。为了确保这些方法的独立性，我们使用基于K-L距离的方法提取了核心基因组（见材料和方法). 的核心大肠杆菌通过K-L方法选择的基因组包含2445个基因，其中1788个基因与AIC生成的核心共享。由于两种方法产生的核心基因组包含许多相同的基因，因此用于选择核心的方法似乎不会影响核心的组成。相反，这些差异反映了选择方法的相对严格性。当使用使用这些核心基因组模型创建的嵌合基因组评估检测非典型基因的方法时，没有检测到显著差异（参见图S3; 与…相比图5B） ●●●●。这些结果支持这样一种假设，即核心基因组的组成几乎没有任何偏差，如果有的话，任何偏差都会在利用数百个马尔可夫模型创建的基因创建嵌合人工基因组时消除。因此，我们得出结论，该方法为评估参数化方法检测细菌基因组中非典型基因的性能提供了一个强大的平台。

结论

识别基因的非典型特征是识别和量化横向基因转移事件的第一步。尽管参数化方法已被证明在分类外源基因方面非常有效，但降低误差幅度仍然是一个挑战。我们的概率方法是通过使用不同的零假设的参数方法评估基因非典型性的一个进步，并为开发一个集成的方法系统提供了一个平台，该系统可以为被称为典型或非典型的基因指定置信值，从而为横向基因流的量化开辟了一个新的方向。HMM的使用允许在给定任何一组原核基因组的情况下生成人工嵌合基因组。这为评估新提出的非典型基因检测方法的性能提供了一个客观的测试平台。

材料和方法

基因组。

几种原核生物的完整基因组序列-A.富列杜斯DSM4304，枯草杆菌168,D.耐辐射药物R1染色体I，大肠杆菌K12，流感嗜血杆菌KW20路，詹纳西伊先生DSM2661，淋病奈瑟菌FA1090，青枯菌GMI1000，梅利洛蒂链球菌1021,协同孢子虫特殊PCC6803，以及T.海事MSB8-已从GenBank检索到。使用注释中提供的坐标提取开放阅读框；为了将基因分配给领先和滞后的链，使用累积核苷酸偏斜定位复制的起源和终点[40,41].

广义HMM作为基因组序列的描述符。

马尔可夫模型已成功应用于破译基因组的复杂结构和功能单元[42]. Borodovsky等人[43]以密码子位置特定的非齐次马尔可夫模型的形式提供了一个严格的数学框架，用于描述蛋白质编码序列，而齐次马尔柯夫模型用于描述非编码序列。马尔可夫模型在原核和真核基因组的基因发现算法中得到了广泛应用[19,44−47]. 这些算法的核心是HMM，它包含不同序列类型的模型。这个问题被表述为破译DNA序列下面的“隐藏”状态序列（例如，蛋白质编码或非编码）。

给定模型参数，广义HMM可以用于预测测试序列中的期望特征（例如，找到类似基因的序列）或生成DNA序列（例如，创建类似基因的序列）。一个简单、通用的HMM(图7)可以通过选择寡核苷酸生成基因组序列保存图片、插图等的外部文件。对象名称为pcbi.0010056.ex001.jpg (O（运行）∈,={A，T，C，G}，其中我和j个根据输出概率分布分别指示DNA序列中寡核苷酸的起始和结束位置问处于状态S公司_我发射序列的长度由不同状态类型序列的长度分布决定（例如。,基因的长度或非编码序列的长度）。从状态转换S公司_我到S公司_k个（例如，从蛋白质编码状态到非编码状态）是根据状态之间转换的概率分布进行的；重复这一过程，直到获得所需长度的基因组序列L（左）生成。

保存图片、插图等的外部文件。对象名称为pcbi.0010056.g007.jpg

在单独的窗口中打开

图7

HMM体系结构

椭圆形表示隐藏状态，方形表示观察序列。每个状态都会发射一串核苷酸，然后转换到另一个状态。隐藏状态之间允许的转换由线箭头显示，观测序列的发射由块箭头显示。这种HMM产生一条基因组；通过包括蛋白质编码序列的反向互补模型（“影子”），HMM封装了DNA螺旋两链上的序列信息。“反向启动”和“反向停止”状态分别对应于启动密码子和停止密码子的反向补码。

使用GenBank序列中提供的注释导出训练集，并获得模型参数作为最大似然估计。对于基因模型，初始概率P（P）^我(O（运行） ₁ ^米)观察寡核苷酸O（运行） ₁ ^米估计为

哪里N个^我(O（运行） ₁ ^米)是寡核苷酸的出现次数O（运行） ₁ ^米同相我在训练数据中（阶段我对应于我寡核苷酸第一碱基的th密码子位置）。N–米+1是所有大小的可能寡核苷酸的计数米在训练数据中_.转移概率估计的最大似然估计保存图片、插图等的外部文件。对象名称为pcbi.0010056.ex002.jpg 由提供

在这里，保存图片、插图等的外部文件。对象名称为pcbi.0010056.ex003.jpg 和是寡核苷酸的计数和分别同相i、。对于非编码序列，省略了相位考虑。所有其他概率参数（包括状态初始概率和转移概率）的值作为训练集的最大似然估计值获得。根据GenBank注释估计同一方向上基因数量的分布，以及蛋白质编码序列和非编码序列的长度分布。

具有单个基因模型的HMM无法表示基因组内基因的变异性。有不同类别的基因在不同的选择约束下进化，包括编码在领先和滞后链上的基因，以及密码子使用上的选择差异，这要求HMM具有多个基因模型。用于创建人工基因组的HMM包括前导链和滞后链上的蛋白质编码序列（其反向互补或蛋白质编码阴影）的单独的多个模型、非编码序列的模型和基因定向的模型（见图S4).

通过k个-表示使用K-L发散的算法。

为了建立多基因模型，基因被分离成不同的基因类别，表示不同的突变偏见。我们改编了k个-Hayes和Borodovsky提出的平均基因聚类方法[22]以执行此任务。两个基因的（不）相似性可以根据其核苷酸组成或密码子使用模式进行量化。为了量化两个基因或基因簇之间核苷酸组成的差异，F类和问：，这种差异是以K-L散度的对称形式定义的[22]作为

哪里（f）_我和q个_我表示量化基因DNA序列核苷酸模式的相对频率F类和问：，分别是。为了量化密码子使用模式的差异，D类定义为

哪里（f）_c和q个_c是密码子频率，c、，在中标准化一它所属的同义密码子组，forF类和问：，分别；和n个_一是的大小一第四组同义密码子。请注意，对于基因簇，簇的中心由各自组中归一化的累积频率表示。

这个k个-means基因聚类算法是通过选择开放阅读框聚类种子，将基因随机分布在k个聚类和计算聚类中心。基因被重新分配到具有最近聚类中心的聚类（就D类[前||Q]距离），重新计算聚类中心，直到所有基因都位于中心最近的聚类中。对随机实现的多个簇种子重复此过程，以消除由于初始簇分配而产生的任何偏差；最小化距离函数Ψ的基因簇结构，

哪里C类表示选择的基因簇。

提取基因组核心基因的方法。

我们采用了两种替代方法来提取构成“核心”基因组的基因，这些基因经历了一系列自然赋予的突变偏差。首先，基因按照k个-指使用K-L散度作为簇之间距离度量的聚类算法（见上文）。将两个中心距离最近的簇合并，重复此过程，直到K-L距离发生相对变化，R、，最近的簇之间超过了已确定的阈值

哪里D类 _最小值(我)是位于我第次迭代。为三个判别标准中的每一个检索最大的聚类——核苷酸组成、DNC和CUB，并取这三组共同的基因来表示核心。

使用K-L距离度量来寻找基因簇的一个缺点是，一个基因簇从任意数量的基因簇开始，然后被合并；因此，最终基因组核心的成员将受到初始簇的组成和基因组内变异程度的影响。我们试图通过引入一种更严格的聚类形成方法来消除这种偏见，这种方法不是从任意将基因分配到固定数量的聚类开始的。相反，如果基因与该簇的其他成员相似，我们试图将其合并到簇中。可用于在模型之间进行选择的标准包括AIC[20]，最小描述长度[48]和贝叶斯信息准则[49]. 这些方法基于找到最简约模型的原则，从而避免了模型的不足或过拟合。在测试了每个模型选择标准后，我们将AIC用于识别核心基因，该AIC表现良好，在簇大小或组成方面没有偏差。AIC定义为

哪里保存图片、插图等的外部文件。对象名称为pcbi.0010056.ex007.jpg 是最大可能性和K（K）是模型中自由参数的数量；最佳拟合模型使AIC最小化。

我们使用AIC来确定单基因（集群）模型是否显著改进了双基因（簇）模型。在所有可能的基因簇配对中，选择一个最小化基因簇集可能性降低的配对，并重复此过程以将基因分离为不同的簇。AIC为聚类过程提供了停止标准。实际上，对于N个基因，N个对单个基因簇进行了检查，并合并了一对可能性最小的簇，结果是N–1个集群。重复此过程，直到合并集群模型的AIC不再小于单独集群模型的AIC。检索三个判别标准中的每一个的最大聚类——SNC、DNC和CUB，取这三组共有的基因代表核心基因组。

为了解释基本成分偏差，似然函数保存图片、插图等的外部文件。对象名称为pcbi.0010056.ex008.jpg 可以用位于特定密码子位置的核苷酸（或寡核苷酸）的频率表示。考虑到单核苷酸统计，一个包含元素频率的12维频率向量b∈{A_我,T型_我,C类_我,G公司_我},我=1，2，3，考虑了碱基同一性和密码子位置，用于计算最大似然保存图片、插图等的外部文件。对象名称为pcbi.0010056.ex009.jpg ;分离聚类模型的可能性为

合并集群模型的可能性如下所示

其中{第页(b)}以及{第页 ₁(b),第页 ₂(b)}是基数的概率b分别在合并集群和两个组件集群中。N个(b)表示基数b在各自的集群中。为了允许两个集群的合并，合并的集群模型的AIC应该小于两个集群模型的IAC。我们将此差异评估为

哪里K（K） ₁和K（K） ₂是自由参数的数量和保存图片、插图等的外部文件。对象名称为pcbi.0010056.ex010.jpg ₁和 ₂分别是两个随机聚类模型和一个随机聚类模型中的对应似然。对于寡核苷酸统计和CUB考虑，可以类似地获得似然函数和停止准则。

非典型基因的检测方法。

横向基因转移检测中使用的几种广泛的参数化方法实现如下。卡林二核苷酸偏倚[32]通过使用优势比进行评估：

哪里（f） _XY公司是二核苷酸XY的频率（f） _X（X）是核苷酸X的频率。两个DNA序列之间的二核苷酸平均相对丰度差异（f）和克定义为

如果δ如果一个基因与基因组中所有基因的平均值相比大于既定阈值，则该基因被归类为外来基因。卡林密码子使用差异[36]基因家族的F类相对于基因家族C类被量化为

其中{（f）(x、 y，z)}是基因家族的密码子频率集F、，{c(x、 y，z)}是基因家族的密码子频率集C、，和{第页_一(F类)}是以下基因的氨基酸频率集F类.

密码子频率归一化为每个氨基酸密码子家族中的一个密码子频率，因此

如果C类是所有基因的集合F类是一个单一基因，B类(F类|C类) =B类(F类|all）测量F类与所有基因的平均值相比。如果B类(F类|all）大于既定阈值，F类被归类为外源基因。

在k个-Hayes和Borodovsky的均值基因聚类算法[22]，其中相对熵被用作基因簇之间密码子使用差异的距离度量(见方程式4)在中k个-表示算法。我们还实现了基于AIC的基因聚类算法中的基本成分偏差和CUB作为判别标准。我们已经讨论了AIC在识别可能形成基因组天然核心的基因方面的作用。我们还测试了基于AIC的基因聚类算法在识别非典型基因方面的性能。注意，我们使用了AIC的通用版本，定义为

哪里n个是样本量和n个₀是一个正常数[50]. 对于n个 ₀ =n，通用版本采用标准AIC的形式(见方程式7). 调谐参数n个 ₀用于优化算法。

支持信息

图S1

CUB对应分析：

第一轴在59个同义密码子中诱导使用的变异性-绘制为4255大肠杆菌基因（A），2141大肠杆菌代表“核心”基因组（B）的基因，以及2141个包含人工基因的基因大肠杆菌核心基因组（C）。人工基因组是由框架特异性DNC聚集的基因创建的。

（826 KB TIF）

单击此处查看其他数据文件。^{（827K，tif）}

图S2

真品和人造品的可变性大肠杆菌基因组：

绘制了4255的第三顺位GC百分比大肠杆菌基因（A），2141“核心”大肠杆菌基因（B）和人工“核心”中的2141个基因大肠杆菌基因组（C）。人工核心基因组由框架特异性DNC聚集的基因创建；μ和σ表示分布的平均值和标准偏差。

（388 KB TIF）

单击此处查看其他数据文件。^{（389K，tif）}

图S3

几种基因检测方法的错误率权衡：

人工基因组是根据使用K-L距离法提取的核心基因组训练的马尔可夫模型生成的。与进行比较图5B。

（142 KB TIF）

单击此处查看其他数据文件。^{（142K，提夫）}

图S4

真实和人造的累计GC-Skew图大肠杆菌基因组：

对于每个基因，GC偏斜计算为（%G–%C）/（%G+%C）第三密码子位置，并根据转录方向进行校正。从基因组序列中的第一个基因开始，获得累积偏差，作为前几个基因偏差值的总和。真正的大肠杆菌基因组包含4255个蛋白质编码基因，而人工基因组包含4000个基因。累计GC-扭曲图显示为人工大肠杆菌有和无基因模型的基因组可解释训练期间的链偏倚。链偏倚明显表现为真核细胞中富含G-或C-基因的大域大肠杆菌基因组和人工基因组中的链同一性结合到模型中。

（273 KB TIF）

单击此处查看其他数据文件。^{（273K，tif）}

表S1

检测原核基因组中非典型基因的组合参数方法的性能：

（42 KB文档）

单击此处查看其他数据文件。^{（43K，文档）}

致谢

这项工作得到了国家科学基金会MCB-0217278的资助。我们感谢拉姆·拉马斯瓦米（Ram Ramaswamy）、安托万·丹钦（Antoine Danchin）、詹姆斯·麦金纳尼（James McInerney）和爱德华多·罗查（Eduardo Rocha）的有益讨论。

缩写

伊拉克语	Akaike信息准则
幼兽	密码子使用偏好
挪威船级社	二核苷酸组成
隐马尔可夫模型	隐马尔可夫模型
K-L公司	Kullback-Leibler公司
SNC公司	单核苷酸组成

脚注

相互竞争的利益。提交人声明，不存在相互竞争的利益。

作者贡献。RKA和JGL构思并设计了该实验。RKA进行了实验。RKA和JGL分析了数据并撰写了论文。

工具书类

杜立德WF。横向基因组学。趋势细胞生物学。1999;9：M5–M8。[公共医学][谷歌学者]
Doolittle WF、Boucher Y、Nesbo CL、Douady CJ、Andersson JO等。核基因组中哪些细胞器基因只是冰山一角，冰山有多大？Philos Trans R Soc Lond B生物科学。2003;358:39–57. [PMC免费文章][公共医学][谷歌学者]
Ochman H、Lawrence JG、Groisman E.横向基因转移和细菌创新的本质。自然。2000;405:299–304.[公共医学][谷歌学者]
Koonin EV，Makarova KS，Aravind L.原核生物水平基因转移：量化和分类。微生物年鉴。2001;55:709–742. [PMC免费文章][公共医学][谷歌学者]
Lawrence JG，Hendrickson H.横向基因转移：青春期何时结束？摩尔微生物。2003;50:739–749.[公共医学][谷歌学者]
Koonin EV.水平基因转移：成熟之路。摩尔微生物。2003;50:725–727.[公共医学][谷歌学者]
Gogarten JP、Doolittle WF、Lawrence JG。基因转移背景下的原核生物进化。分子生物学进化。2002;19:2226–2238.[公共医学][谷歌学者]
Nakamura Y、Itoh T、Matsuda H、Gojobori T。原核生物基因组中水平转移基因的生物学功能存在偏差。自然遗传学。2004;36:760–766.[公共医学][谷歌学者]
Ragan MA。关于检测横向基因转移的替代方法。FEMS微生物快报。2001;201:187–191.[公共医学][谷歌学者]
Ragan MA。微生物基因组间横向基因转移的检测。当前操作基因开发。2001;11:620–626.[公共医学][谷歌学者]
Wang B.成分分析法在鉴定水平转移基因方面的局限性。分子进化杂志。2001;53:244–250.[公共医学][谷歌学者]
Guindon S，Perrière G.在搜索水平转移基因时，基因组内碱基含量变化是潜在的偏差来源。分子生物学进化。2001;18:1838–1840.[公共医学][谷歌学者]
Koski LB、Morton RA、Golding GB。密码子偏差和碱基组成是水平转移基因的不良指标。分子生物学进化。2001;18:404–412.[公共医学][谷歌学者]
Lawrence JG，Ochman H.调和基因转移的许多方面。微生物趋势。2002;10:1–4.[公共医学][谷歌学者]
Lawrence JG、Hartl DL。水平遗传转移的推断：一种使用bootstrap的方法。遗传学。1992;131:753–760. [PMC免费文章][公共医学][谷歌学者]
关于语音识别中隐藏马尔可夫模型和选定应用的教程。IEEE程序。1989;77:257–286. [谷歌学者]
Borodovsky M，McIninch J.GenMark:两条DNA链的平行基因识别。Comp Chem.公司。1993;17:123–133. [谷歌学者]
Azad RK，Borodovsky M.原核基因组中基因识别的概率方法：与HMM理论的联系。简要生物信息。2004;5:118–130.[公共医学][谷歌学者]
Lukashin AV，Borodovsky M.GeneMark.hmm：基因发现的新解决方案。核酸研究。1998;26:1107–1115. [PMC免费文章][公共医学][谷歌学者]
Akaike H.统计模型识别的新视角。IEEE Trans Automat控制。1974;19:716–723. [谷歌学者]
Sakamoto Y、Ishiguro M、Kitagawa G。Akaike信息标准统计。柏林：施普林格；1999. 320. 第页。[谷歌学者]
Hayes WS，Borodovsky M.如何解释匿名细菌基因组：基因识别的机器学习方法。基因组研究。1998;8:1154–1171.[公共医学][谷歌学者]
夏普PM，李伟。密码子适应指数：衡量同义密码子使用偏向的方向及其潜在应用。核酸研究。1987;15:1281–1295. [PMC免费文章][公共医学][谷歌学者]
夏普PM。DNA序列差异的决定因素大肠杆菌和鼠伤寒沙门菌：密码子使用、地图位置和协同进化。分子进化杂志。1991;33:23–33.[公共医学][谷歌学者]
McInerney JO.GCUA：一般密码子使用分析。生物信息学。1998;14:372–373.[公共医学][谷歌学者]
Médigue C、Rouxel T、Vigier P、Hénaut A、Danchin A大肠杆菌物种形成。分子生物学杂志。1991;222:851–856.[公共医学][谷歌学者]
Charlebois RL，Doolittle WF。计算原核基因的普遍性：从灭绝中拯救核心。基因组研究。2004;14:2469–2477. [PMC免费文章][公共医学][谷歌学者]
Lawrence JG，Ochman H.细菌基因组的改良：变化率和交换率。分子进化杂志。1997;44:383–397.[公共医学][谷歌学者]
Konstantinidis KT，Tiedje JM。推进原核生物物种定义的基因组见解。美国国家科学院院刊。2005;102:2567–2572. [PMC免费文章][公共医学][谷歌学者]
Lerat E，Daubin V，Ochman H，Moran NA。细菌基因组序列的进化起源。《公共科学图书馆·生物》。2005;三：e130。内政部：10.1371/日志.pbio.0030130.[PMC免费文章][公共医学][谷歌学者]
Lawrence JG，Ochman H大肠杆菌基因组。美国国家科学院院刊。1998;95:9413–9417. [PMC免费文章][公共医学][谷歌学者]
Karlin S.全球二核苷酸签名和基因组异质性分析。当前操作微生物。1998;1:598–610.[公共医学][谷歌学者]
Jain R，Rivera MC，JA湖。基因组间水平基因转移：复杂性假说。美国国家科学院院刊。1999;96:3801–3806. [PMC免费文章][公共医学][谷歌学者]
Metcalf WW，Wanner BL.十四个基因的证据，菲律宾国家石油公司到菲律宾比索磷酸代谢位点大肠杆菌.基因。1993;129:27–32.[公共医学][谷歌学者]
Roth JR、Lawrence JG、Rubenfield M、Kieffer-Higgins S、Church GM。钴胺（维生素B）的表征₁₂)的生物合成基因鼠伤寒沙门菌.细菌杂志。1993;175:3303–3316. [PMC免费文章][公共医学][谷歌学者]
Karlin S，Mrazek J，Campbell AM大肠杆菌基因组。摩尔微生物。1998;29:1341–1355.[公共医学][谷歌学者]
Reil T.人工基因组中基因表达的动力学：生物学和人工个体发育的意义。收件人：Floreano D，Nicoud J-D，Mondada F，编辑。人工生命的进展。柏林：斯普林格·弗拉格；1999年，第457-466页。[谷歌学者]
Watson J、Geard N、Wiles J.基因调控研究中的生物突变操作。生物系统。2004;76:239–248.[公共医学][谷歌学者]
Welch RA，Burland V，Plunkett G，3rd，Redford P，Roesch P等。泌尿病理学全基因组序列揭示的广泛镶嵌结构大肠杆菌.美国国家科学院院刊。2002;99:17020–17024. [PMC免费文章][公共医学][谷歌学者]
Lobry JR。细菌两条DNA链中的不对称替代模式。分子生物学进化。1996;13:660–665.[公共医学][谷歌学者]
Salzberg SL、Salzberg-AJ、Kerlavage AR、Tomb JF。扭曲低聚物和复制起源。基因。1998;217:57–67.[公共医学][谷歌学者]
Durbin R、Eddy S、Krogh A、Mitchison G。生物序列分析：蛋白质和核酸的概率模型。剑桥：剑桥大学出版社；1998. 356. 第页。[谷歌学者]
Borodovsky M，Sprizhitsky A，Golovanov EI，Alexandrov AA大肠杆菌：二、。非一致马尔可夫模型。摩尔生物。1986;20:833–840. [谷歌学者]
Krogh A、Mian IS、Haussler A。一种发现基因的隐马尔可夫模型大肠杆菌DNA。核酸研究。1994;22:4768–4778. [PMC免费文章][公共医学][谷歌学者]
Krogh A.提高HMM性能的两种方法及其在基因发现中的应用。Proc Int Conf智能系统分子生物学。1997;5:179–186.[公共医学][谷歌学者]
Larsen TS，Krogh A.EasyGene：一个根据统计显著性对ORF进行排序的原核基因发现者。BMC生物信息。2003;4:21. [PMC免费文章][公共医学][谷歌学者]
Burge C，Karlin S.人类基因组DNA中完整基因结构的预测。分子生物学杂志。1997;268:78–94.[公共医学][谷歌学者]
Rissanen J.随机复杂性。J R Stat Soc Ser B公司。1987;49:223–239. [谷歌学者]
Schwarz G.估算模型的维数。Ann统计。1978;6:461–464. [谷歌学者]
Kuha J.AIC和BIC：假设和性能的比较。社会方法研究。2004;33:188–229. [谷歌学者]

文章来自PLOS计算生物学由以下人员提供多环芳烃