Computational Gene Prediction Using Multiple Sources of Evidence

Jonathan E. Allen; Mihaela Pertea; Steven L. Salzberg

doi:10.1101/gr.1562804

基因组研究。2004年1月；14(1): 142–148.

数字对象标识：10.1101/克1562804

预防性维修识别码：项目经理114291

PMID：14707176

利用多种证据来源进行计算性基因预测

乔纳森·艾伦,^1,^{2的情况下，}^三 Pertea米哈伊拉,¹和史蒂文·萨尔茨伯格^1,²

作者信息文章注释版权和许可信息 PMC免责声明

摘要

本文描述了一种通过使用来自不同来源的证据构建基因模型的计算方法，包括基因组注释管道的典型证据。这个名为Combiner的程序将基因组序列和从头算基因发现者的基因预测位置、蛋白质序列比对、表达序列标签和cDNA比对、剪接位点预测以及其他证据作为输入。在Combiner中实现了三种不同的证据合成算法，并对1783个已确认的基因进行了测试拟南芥我们的结果表明，结合基因预测证据始终优于最好的个体基因发现者，在某些情况下，可以显著提高敏感性和特异性。

真核生物基因组中完整基因模型的计算鉴定仍然是一项具有挑战性的任务(张2002). 在拟南芥基因组计划(这个拟南芥2000年基因组计划)，人类专家将不同基因预测程序的输出与来自蛋白质和转录数据库搜索的序列同源性数据集成，以构建已发布的基因模型。由于各种原因，在创建准确注释时会遇到困难。有时，一个基因的证据很弱，只包括一个基因预测，但没有序列同源性，或者只是一个表达序列标签（EST）匹配。在其他情况下，证据丰富但相互矛盾：不同的基因发现者和蛋白质序列比对可能表明许多重叠的候选基因，而且这些模型中可能有多个实际上是正确的。因此，即使有人类策展人参与，构建最终基因预测的过程也是耗时的，而且充满了出错的机会。出于这些原因，我们开发了一种计算方法，该方法评估了人类注释者使用的大部分相同信息，作为创建基因模型的一种手段，该模型比任何单一的计算基因预测算法都更准确、更一致。

本文介绍了Combiner程序，这是一种统计算法，它使用其他注释软件的输出来提高预测基因的准确性，同时保持灵敏度（检测到的真基因数量）和特异性（正确的基因预测数量）之间的良好平衡。其他结合基因模型证据的工作主要集中在整合基因预测程序的输出(村上和高木1998;巴甫洛维奇等人，2002年;Rogic等人，2002年). Combiner算法集成了多个基因预测程序以及典型注释管道中的许多可用证据，包括来自蛋白质、EST、cDNA和剪接位点预测的证据。结合多种证据类型的其他方法可以在EuGène中找到(Schiex等人，2001年)和GAZE(Howe等人，2002年)系统。

我们测试了用于Combiner的三种算法。第一个算法是一个简单的线性组合器（LC1），它使用投票函数来组合多个基因预测程序。每个基因发现者在LC1中被赋予同等的权重，即一票。该算法首先识别由剪接位点或起始密码子等信号分隔的所有可能的不相交区间，类似于基于信号的从头算基因预测(Salzberg等人，1998年). 动态规划算法根据任何基因预测程序预测的候选信号构建基因模型，系统地枚举所有可能的信号组合（启动、停止、供体和受体位点）。这些信号之间的序列间隔由基因发现者投票决定。每个基因发现者必须投票选择编码或非编码，并且将最核心的区间组合拼凑在一起，形成一个基因模型。第二个组合器（LC2）使用与LC1类似的动态编程算法，但有两个显著的增强。首先，它将序列比对（DNA和蛋白质）和剪接位点预测程序添加到输入中。其次，它对不同形式的证据使用不同的权重。

将基因组序列与转录物或蛋白质数据库对齐，可以产生具有广泛差异的相似性匹配。显然，每个比对的相似性应该是对预测外显子质量进行评分的一个因素。然而，匹配的相似程度并不直接转化为某个区域编码蛋白质的可能性，以及对齐算法本身（例如BLAST；Altschul等人，1990年)不要产生这样的可能性。更为复杂的是，LC2使用剪接位点预测来指示潜在的外显子边界信号，但由于它对区间（而不是区间之间的点）进行了评分，所以它不包括线性加权函数中的剪接位点的预测。为了解决这些局限性，我们开发了一种使用决策树（特别是随机斜决策树）的统计评分方法Murthy等人，1994年)将证据模式与候选基因模型相关联。该统计组合器（SC）使用基因发现者自己（如果可用）输出的置信度得分，Rogic等人也使用了该置信度得分(2002)合并两个基因发现者的输出。SC不是一个简单的线性函数来组合所有输入，而是基于决策树建立一个非线性模型。方法部分对每种方法进行了描述。

结果

这三个组合在1783个cDNA确认基因的数据集上进行了测试拟南芥这些参考基因基于全长cDNA序列，该序列已与基因组比对，随后由人类注释者进行检查和定义(Haas等人，2002年). 这个精心策划的数据集为评估我们方法的准确性提供了一个巨大而可靠的来源。根据使用的证据类型，结果分为两组。第一组包括在测试基因可用之前训练的基因预测程序，包括GlimmerM(Pertea和Salzberg 2002)，通用标记.hmm(卢卡欣和博尔多夫斯基1998)，Genscan+(Burge和Karlin，1997年)和GeneSplicer(Pertea等人，2001年). 第二个测试集包括最近的TwinScan(Flicek等人，2003年)预测可在http://genes.cs.wustl.edu/preflections/Arabidopsis/contig_04_23_03以及GlimmerM的更新版本，其中包括改进的模块，以更好地检测翻译起始位点和多聚腺苷化位点。在这两个测试集中，使用同源性数据的组合器从使用dps和nap程序校准的非冗余氨基酸数据库中的基因组DNA和蛋白质序列之间的比对中获取输入(Huang等人，1997年)以及TIGR基因索引数据库中的基因转录本（包括EST和cDNA序列）(Quackenbush等人，2001年)使用dds和gap对齐(Huang等人，1997年). 对比对数据进行过滤，以去除1783个基因中包含的蛋白质、EST和cDNA，这可能会使Combiner的结果产生偏差。我们删除了所有与100%一致的序列，而不管这些序列的来源。

所有程序均在515条细菌人工染色体（BAC）上运行，长度约为-100 kbp，总跨度约为拟南芥基因组。使用来自其他软件程序的证据作为输入，在每个BAC上运行三个组合器，并将预测与BAC上与1783个cDNA确认基因相对应的位置进行比较。测试基因指定从起始密码子到终止密码子（可能包括内含子）的完整编码区域，并且可以出现在BAC序列的任何部分。

我们在这些测试中的主要目的是从基因发现者那里获取一组现有的预测以及其他基因证据的输出，看看我们是否可以将它们的输出结合起来，以产生一组更准确的基因模型。因为我们的测试基因已经从cDNA证据中获知，所以测试可能有利于使用序列比对证据的组合者，特别是如果这些基因更频繁地表达。因此，除了考虑LC1中仅结合基因发现者的结果外，我们还报告了SC中仅使用基因发现者和剪接位点预测程序作为输入的结果。

测试集1

我们的初始测试使用了三个单有机体基因查找器作为输入：Genscan、GeneMark.hmm和GlimmerM。图1显示了每个基因发现者正确预测的基因模型之间的重叠，其中“正确”的定义是指所有编码外显子与真基因完全一致。只有178个（10%）的基因被这三种方法正确预测。如图所示，三个基因发现者中的每一个都有一组基因，这是唯一正确的方法。最准确的单个程序GeneMark.hmm预测了1783个基因中的799个（45%），但如果我们能从三个基因发现者中选出最佳模型，那么它将做出1205个（68%）正确的预测。因此，如果Combiner能够巧妙地从三个基因预测程序中选择一个基因模型，那么它应该能够提高所有三个程序的性能。

在单独的窗口中打开

图1

三个预测程序（Glimmer M（GA）、Genscan+（GS）和GeneMark.hmm（GM））在1783个基因的测试集中共享的正确和不正确（括号中的数字）全基因模型预测的数量。错误基因是指基因发现者之间基因中所有编码外显子完全一致，但与真基因不一致的情况。

四个组合LC1和SC-g的结果仅使用基因查找器作为输入，LC2和SC使用基因查找程序和同源数据，如下所示表1。因为SC和SC-g都需要一个训练集，所以我们使用来自120个BAC的380个单独的基因集（1783测试集中没有包含任何基因）对它们进行训练。训练集和测试集中的所有基因均由已映射到基因组的全长cDNA序列确认(Haas等人，2002年)目前是确定基因正确性的金标准。

表1。

基因预测因子对1783个基因的性能

	CG公司	MG公司	总工程师	我	我们	序号
联合国安全理事会	1179 (66%)	31 (2%)	6625 (88%)	311 (4%)	27	97%
SC-g公司	1114 (63%)	12 (1%)	6580 (88%)	220 (3%)	71	98%
生命周期2	1078 (61%)	19 (1%)	6468 (86%)	298 (4%)	44	98%
生命周期1	967 (54%)	21 (1%)	6323 (84%)	300 (4%)	57	97%
总经理	799 (45%)	31 (2%)	5947 (79%)	363 (5%)	95	96%
GS公司	650 (37%)	43 (2%)	5680 (75%)	722 (10%)	41	92%
加	557 (31%)	39（2%）	4610（61%）	1183 (16%)	415	85%

在单独的窗口中打开

SC表示统计组合器；仅限SC-g、SC组合基因预测程序；LC2，使用序列比对的线性合路器；LC1，线性组合器，仅使用基因预测程序；GA、GlimmerM；通用汽车，GeneMark.hmm；和GS，Genscan+。这些列包括正确预测的全部基因数（CG）、完全缺失的基因数（MG）、7510个总基因中正确预测的外显子数（CE）、完全遗漏的外显子数（ME）、与基因区域重叠但不与真外显子重叠的预测外显子（WE）以及正确检测到的蛋白质编码核苷酸百分比（SN）。

在这个初始测试中，SC得到66%的测试基因模型完全正确，而最好的个人基因查找器GeneMark.hmm的正确率为45%。（这里的“完全正确”意味着整个编码区从开始到结束都被正确预测，所有内含子边界都被正确识别。）LC1和LC2也比单个基因发现者提高了，分别有54%和61%的正确率。SC-g的测试基因正确率比LC2多2%（63%）。SC和SC-g正确识别了88%的外显子（5′端和3′端均正确），而单个基因发现者的准确率在61%-79%之间。LC1和LC2分别为84%和86%，表现出中等水平的性能提升。当没有预测的外显子与基因外显子重叠一个或多个碱基时，就会发生缺失基因（外显子）。LC1、LC2和SC缺失的外显子数量很少且大致相等（占7510个外显子总数的4%），但SC-g缺失了3%外显子，而LCs和SC-g遗漏的基因模型较少，仅为1%，而SC和最佳个体基因发现者仅为2%。在SC遗漏的31个完整基因中，有19个是单外显子基因，这表明有可能需要改进。在核苷酸水平上，它测量被正确标记为编码的测试基因中编码碱基的百分比，所有四个组合器都达到97%-98%的准确率。而且，SC的“错误外显子”（预测的外显子与真实外显子完全不重叠）数量，与任何基因发现者的41到415个错误外显元相比，SC的27个错误外隐子数量要少得多。GlimmerM的总正确基因数较低是因为有插入短外显子的倾向（外显子平均长度为54个核苷酸）。

Combiner性能的另一个衡量标准是其准确性相对于基因发现者之间的一致性。例如，如果Combiner基因模型只有在与至少两个从头开始的基因发现者一致时才是正确的，那么简单的多数投票规则也可能起作用。四种组合器在基因预测程序方面的性能比较结果总结如下表2表中显示了根据每个Combiner是否同意零、一、二或三个基因发现者而划分的结果；例如，SC同意两位基因发现者对527个基因的预测，这些预测对其中440个（84%）是正确的。当三个基因发现者都同意时，组合者得到97%的基因正确；这些可能是用于自动预测的“简单”基因。（请注意，当所有三个基因发现者都同意时，组合者从不反对共识。有趣的是，有五个基因的所有基因发现者均同意，但参考cDNA比对表明了不同的基因模型。）但即使他们只同意其中一个基因发现器，而不同意另外两个，组合器得到52%（LC1）到65%（SC）的预测正确率。所有四个Combiner都正确地预测了三个基因预测程序所遗漏的一些基因。这是可能的，因为Combiners能够从不同的输入中拼凑出一个基因模型的部分，从而形成一个新的模型。作为表2结果表明，当至少有两个基因预测程序相互一致时，LC2、LC1和SC-g与SC竞争，但当一个或没有基因发现者做出正确预测时，SC具有明显优势。

表2。

匹配三个、两个、一个或零个基因预测程序时组合器预测的故障

合路器	GP编号	CG公司	工作组	CG/CG+WG（%）
联合国安全理事会	三	178	5	97
SC-克	三	178	5	97
LC2型	三	178	5	97
生命周期1	三	178	5	97
联合国安全理事会	2	440	87	84
SC-g公司	2	417	70	86
生命周期2	2	418	76	83
生命周期1	2	401	94	81
联合国安全理事会	1	419	229	65
SC-g公司	1	395	308	56
LC2型	1	363	263	58
生命周期1	1	307	286	52
联合国安全理事会	0	142	253	36
SC-g公司	0	124	282	31
生命周期2	0	119	348	26
生命周期1	0	81	412	16

在单独的窗口中打开

第一列（组合器）指的是四个组合器。第二列是指匹配基因预测程序的数量。第三列和第四列统计合并器预测正确（CG）和不完全正确（WG）的次数。第五列是正确预测的百分比。

测试集2

我们通过添加Twin-Scan算法构建了第二组比较，该算法与其他任何基因发现者不同，它使用与相关物种的序列同源性来告知其基因发现。通过使用路线甘蓝，TwinScan能够在我们的原始设置中实现最佳基因查找器的实质性改进。我们的假设是，Combiner应该进一步改进，使用TwinScan的更好预测来提高其在第一轮测试中的性能。在这个测试中，我们使用了多达五个基因查找器作为输入：第一个测试中的三个，TwinScan和一个更新版本的GlimmerM图1，所有五个预测程序预测一组不同的正确基因模型。表3列出了正确识别的每个基因预测程序的基因模型数量。总共，在1783个基因模型中，有1496个被五个基因预测程序中的至少一个程序正确识别。因此，每个预测源都提供了潜在的有用信息。由于LC1和LC2都使用线性加权和来组合每个证据源，我们预计它们可能难以组合高度相关版本GlimmerM的输出。结果总结如下表4再次，我们包含了SC的一个版本，它只结合了基因发现器和剪接预测程序。

表3。

测试集2中每个基因查找器正确预测的基因模型数

程序	正确的基因
TwinScan公司	206
基因标记.hmm	59
闪光M	41
闪耀者2	39
Genscan公司+	31

在单独的窗口中打开

表4。

基因预测因子的性能，包括TwinScan和Retrained GlimmerM，以及 表1

	CG公司	MG公司	总工程师	我	我们	序号
SC-5型	1385 (78%)	17 (1%)	6952 (93%)	196 (3%)	22	98%
供应链-3	1345 (75%)	24（1%）	6911 (92%)	194 (3%)	34	98%
SC-5g	1320 (74%)	16 (1%)	6878 (92%)	173 (2%)	37	98%
生命周期2-3	1293 (73%)	12 (1%)	6810 (91%)	156 (2%)	77	99%
生命周期1-3	1206 (68%)	14 (1%)	6692 (89%)	207 (3%)	48	98%
TS公司	1200 (67%)	17 (1%)	6569 (87%)	299 (4%)	66	96%
通用汽车公司2	563 (32%)	10 (1%)	5321 (71%)	673 (9%)	386	93%

在单独的窗口中打开

SC-5使用所有五个基因预测程序显示SC；SC-3、SC采用三基因预测程序；SC-5g，SC使用五个基因预测程序，没有比对数据；LC2-3、LC2使用三个基因预测程序；LC1-3、LC1使用三个基因预测程序；TS，TwinScan；和GM2，更新的GlimmerM输出。SC-3、LC2-3和LC1-3使用的三个预测程序是TwinScan、GeneMark.hmm和GM2。

TwinScan是最准确的基因预测程序，其性能优于第一次实验的最佳Combiner结果(表1). TwinScan准确预测了67%的基因模型和87%的外显子，只遗漏了17个基因。利用TwinScan作为输入的优势，SC跳到78%（1385）的正确基因模型和93%的正确外显子。仅使用基因发现器（SC-5g）的SC也有所改善，使75%的基因模型正确，92%的外显子正确。通过使用TwinScan，LC1和LC2都得到了改善，分别有68%和73%的基因模型正确。

当一个基因发现者明显优于其他人时，组合者应该给它更高的权重。这在SC的培训中自动发生，但在LC1或LC2中不会发生。如果能更好地调整权重以反映基因发现者之间的相对表现，LC1和LC2可能会在这里得到大幅改善。与LC1和LC2不同，当在前三个程序的基础上再添加一个或两个基因预测程序时，SC性能会进一步提高。表4显示了三个基因发现者的SC-3和所有五个基因的SC-5结果。

讨论

人类基因组注释的两个主要资源是Ensembl和国家生物技术信息中心（NCBI），它们各自应用不同的计算工具集合来构建基因预测(Birney等人，2002年). NCBI使用MegaBLAST将参考序列数据库和GenBank mRNA序列中的所有已知基因与基因组序列对齐(Zhang等人，2000年)，保留≥95%身份的匹配项并覆盖50%的假定成绩单(http://www.ncbi.nlm.nih.gov/genemo/guide/build.html基因). 交替重叠模型被合并到单个基因中。根据GenomeScan报告了其他基因(Yeh等人，2001年)预测，不包括那些与通过比对确定的基因集重叠的预测。Ensembl采用了类似的方法，首先将已知蛋白质与基因组对齐，并使用GeneWise(伯尼和杜宾1997)确定基因模型。其他预测来自Genscan预测的外显子，根据它们是否对应BLAST进行筛选(Altschul等人，1990年)与蛋白质数据库匹配。Ensembl还结合了EST比对来完善预测的基因模型。自动流水线中报告的每个基因都有序列比对证据支持，但尚不清楚有多少区域能够正确识别每个基因模型边界：翻译起始点、剪接位点和终止位点。这两个人类基因组管道都没有明确的方法来组合多个基因发现者；因为我们的Combiner是开源的，所以这些和其他注释提供者应该很容易将其包含在管道中。

对于许多生物来说，多种基因发现工具成功地确定了基因组中的蛋白质编码区。我们的结果表明，即使在一个程序明显更准确的情况下，其他预测工具也可以提供有用的信息，正确地找到其他程序遗漏的一些外显子和基因。困难在于检查每个蛋白质编码区，以决定何时以及如何使用每一条证据。LC2的表现令人惊讶，因为它只需要用户为每个证据源分配一个权重（参见方法）。然而，SC为合并不同类型的证据提供了一个更稳健的模型。它使用训练数据来建立自己的非线性模型，以结合证据。SC还提供了一种方法，可以利用单个预测程序中的多个重叠基因模型，例如，由不同参数设置生成的模型。这允许Combiner决定哪个替代模型最受序列比对证据的支持，而不是依赖单个最佳预测。

Combiner方法的一个重要元素是将每个证据来源视为一个黑盒，这使得可以使用来自任何来源的基因模型证据，只要预测是以序列坐标提供的。将Combiner从证据软件中分离出来，使我们能够通过使用特定于该生物体的序列分析软件将Combine应用于每个基因组测序项目。Combiner的成功取决于潜在证据的准确性，如本研究中的TwinScan结果所示，基因预测算法的持续改进应改进未来的Combineer结果。

方法

线性合路器

LC1考虑了四种类型的信号：起始密码子、终止密码子、剪接供体和剪接受体。LC1从左到右处理输入序列，计算部分基因模型，表示导致序列中任何给定信号的最佳信号序列。只有当这种联系具有生物学意义时，信号才会在基因模型中联系在一起；例如，供体位点（外显子的末端）只能与之前的受体位点（外显子的开始）或起始密码子联系起来。在任何一种情况下，供体位点和先前信号之间的序列都被记为蛋白质编码区间。一个受体位点只能与前一个供体位点相连，并且干预序列作为一个非编码区间进行评分。我们使用一种动态规划算法，从左到右（DNA序列中的5′到3′）扫描信号，并针对由一对信号限定的每个间隔，为三个可能的读取帧中的每一个计算单独的分数。（这确保了基因模型中的所有外显子都在同一框架中。）分数是作为证据的加权总和计算的。更准确地说，让S公司是一个输入序列，S公司_x个在某个位置上作为基础x、 S公司_x…y年是跨越间隔的子序列x个到年、和Sig公司_x个和Sig公司_年在某个位置发出信号x个和年分别是。我们在动态规划矩阵中计算分数D类，如下所示：

1

哪里w个(k个)是分配给每个证据源的权重k个。我们计算D类每个位置的所有三个读数框年。对于LC1，这是一个简单的投票组合器，所有权重都设置为一。（LC1的证据仅包括基因发现者，但我们允许LC2和SC中的其他来源。）功能小时_k个(S公司_x…y年)返回每个基因查找器（或其他证据类型）为子序列给出的分数S公司_x…y年对于蛋白质编码区间，我们计算小时_k个基因发现者k个通过简单计算基因发现者预测编码的碱基数量；相反，我们计算非编码间隔中预测为非编码的基数。本质上，这个公式表明，对于信号信号_年，我们回过头来，通过将前一个信号的得分加上干预序列的加权证据，计算出每个前一信号的得分。然后选择最佳总分并存储在年。我们通过矩阵追踪“解析”来构建基因模型。由于计算仅在包含其中一种信号类型的位置进行，因此计算复杂性为哦(锰²)，其中米是基因发现者的数量n个是检测到的信号数。

SC和LC2都使用LC1算法的修改版本从非重叠序列区间构建基因模型。最显著的区别在于，这些算法包括序列比对信息作为额外的证据类型。另一个主要区别是，算法计算子序列的分数，而不是仅计算预定义信号位置之间的分数S公司_x…y年，其中x个和年可以是（1）信号的位置或（2）对齐区域的边界。图2说明了基因组如何分裂为序列区间，其中区间我₁=S公司_{x个1...(x个2 - 1)},我₂=S公司_{x个2...(x个3 - 1)}等。注意图2可以在外显子（或内含子）的中间开始或结束，因为排列不受外显子边界的限制。图3显示了一个例子，其中多个重叠的基因模型出现在一个阅读框中。间隔我₄是四种不同候选基因模型的一部分：或者是一个完整的外显子、外显子的内部、外显基因的5′端或外显基因3′端。如果这些预测都在同一个阅读框中，那么只有最核心的部分基因模型才会存储在x个₅.

在单独的窗口中打开

图2

三种证据类型的分区输出：剪接预测、基因预测和序列比对。五种证据来源（从顶部到底部)从剪接预测程序（SP）输出；外显子置信度为0.9和0.89的基因预测程序（GP1）；无置信度的基因预测程序（GP2）；蛋白质数据库中89%和45%的身份比对构成了单一证据来源；EST数据库中32%和20%的身份比对。基因组序列被划分为由每个潜在边界定义的区间x个₁,x个₂,...,x个₈.非重叠间隔我₁,...,我₇用于对基因模型进行评分。预测的拼接位置x个₅与关联我₅.

在单独的窗口中打开

图3

四个重叠候选基因模型G1至G4的示例。外显子被认为是同一编码框架的一部分。在该示例中，如果证据仅预测G1和G2，则如果任一模型是最优的，则组合器对G3或G4进行评分。

每个子序列的证据S公司_x…y年在向量中捕获v（v）= [v（v）(1),v（v）(2),...,v（v）(米)]，用于米不同类型的证据。我们计算这些值v（v）(k个)通过使用来自基因查找器的分数或来自比对算法的相似性百分比。对于没有对每个外显子进行评分的基因发现者，我们使用值1表示预测的编码间隔，使用值0表示非编码间隔。由于许多蛋白质（分别是EST）序列可以对齐到同一位置，因此我们选择相似度最高的对齐来表示蛋白质（EST）证据。例如，在图2，间隔我₁有来自两个基因预测程序（GP1和GP2）、两个蛋白质序列比对和一个EST比对的证据。证据载体我₁是v（v）= (普通合伙人1,克第2页，蛋白质，EST) = (0.9, 1.0, 0.89, 0.32). LC2矢量中不包括拼接位置预测；它们仅用于标记潜在的外显子边界。

LC2的动态规划算法不同于方程式1以计算分数的方式S公司_x…y年（此更改直接导致SC的动态编程算法。）In图2例如，子序列的分数S公司_x个2...x个₅是间歇的分数我₂加上间歇得分我_三加上间歇得分我₄.每个间隔Sig公司_x个和Sig公司_年根据其证据向量进行评分v（v）.评分功能b条(v（v）)，是证据向量中每个证据源条目的得分总和v（v）(k个)乘以各自的重量w个(k个)并通过乘以区间长度进行归一化。为每个信号存储单独的分数Sig公司_年（对于每个阅读框架），最大化以下内容：

2

哪里j个迭代所有非重叠间隔Sig公司_x个和Sig公司_年LC2对每个基因预测程序使用相等的权重0.3，对基因索引条目（EST）的比对使用0.2，对蛋白质比对使用0.21。与蛋白质相比，EST比对的权重稍低，因为许多EST的大区域对应于mRNA转录的非翻译区域。

统计组合器

SC的目标是通过使用从训练集中获得的知识来识别最可能的基因模型集。这是通过找到一系列零个或多个基因模型来实现的克₁,克₂,...,克_n个给定输入证据的最大后验概率E类：arg最大值_{克1,克2,...荷兰} P（P）(克₁,克₂,...,克_n个 E类).

基因模型由四种外显子类型定义：单个、初始、内部和末端。四种外显子类型由每条链上的九个部分和完整外显子标签定义，这些外显子标记由五个潜在事件定义：启动、编码、供体、受体和终止。在LC中，只对编码和非编码序列间隔进行计分。统计方法也在外显子边界处对证据进行评分。对于正链（在5′到3′方向从左向右移动），三种状态可以描述编码区间的左边界：受体（a）位点、起始（r）位点或无外显子边界。右边界的三种可能状态如下：供体（d）位点、停止（t）位点或无外显子边界。以所有具有生物学意义的方式组合边界条件，在正链上生成九种不同的完整和部分外显子类型，并表示非编码区间。每个标签都是跨时间间隔及其边界的事件的连接。表5列出了事件及其相应的标签。例如，起始内部外显子（bn）的定义是这样一个区间：左边界是一个受体位点，蛋白质编码区间跨越该区域，左边界上没有起始位点，右边界上没有供体位点，右边缘上没有终止位点。更直观地说，这个区间是包含左（5′）边界但不包含右（3′）边界的内部外显子的一部分。

表5。

描述每个序列区间并用于在阳性链上构建基因模型的标签集

间隔标签	接受方（a）	开始（r）	编码（c）	捐赠人（d）	停止（t）
非编码（nc）	0	0	0	0	0
期初内部（十亿）	1	0	1	0	0
完成内部（cn）	1	0	1	1	0
完整端子（ct）	1	0	1	0	1
部分首字母（bi）	0	1	1	0	0
完整首字母（ci）	0	1	1	1	0
完整的单个（cs）	0	1	1	0	1
编码（c）	0	0	1	0	0
部分端子（pt）	0	0	1	0	1
结束内部（en）	0	0	1	1	0

在单独的窗口中打开

标签反映了部分和完整的外显子。每个条目都声明该列中的条件必须是true（1）还是false（0）。每个基本条件（受体、开始、编码、施主、停止）定义了编码间隔的类型，并由独立的证据源表示。

评估候选基因模型

每个基因模型都是一系列序列标签我₁,我₂,...,我_z（z）从表5.基因模型提供证据的概率E类=e（电子）₁,e（电子）₂,...,e（电子）_z（z），定义为：

哪里e（电子）_j个是间隔的证据我_j个.每个e（电子）_j个包含五个证据载体：v（v）_一,v（v）_第页,v（v）_c（c）,v（v）_d日,v（v）_吨，五个事件中的每一个都有一个：受体、施主、编码、开始和停止。代表外显子边界条件的向量（剪接位点、起始密码子和终止密码子）由与序列区间边界对齐的证据定义。例如，假设每个证据类型都是中的有效剪接位点预测器图2，证据向量，表示右边界位置的可能供体位点我₁（标有x个₂在图中），定义为v（v）_d日= (SP、GP1,普通合伙人2的情况下，蛋白质，EST) = (1,0.9,0,0,0.32).

计算给定标签的概率我_j个每隔一段时间我_j个，我们使用近似值，因为证据的大小E类与序列长度成比例，序列长度可以变化。我们通过取每个标签的概率乘积来计算基因模型的概率我_j个，做出了一个简化的假设我_j个仅取决于间隔我_j个和相邻间隔我_j个-1和我_{j个+ 1}:

每个e（电子）_{j个- 1},e（电子）_j个,e（电子）_{j个+ 1}包含五个矢量：v（v）_一,v（v）_第页,v（v）_c（c）,v（v）_d日,v（v）_吨从间隔中获取证据我_j个-1个,我_j个、和我_{j个+ 1}.对于间隔我₁在里面图2，每个证据向量对来自区间的证据进行编码我₀,我₁、和我₂（对于本例，我₁表示左边界我₀表示零值向量）。间隔附近的供体部位我₁从图2是v（v）_d日=（0,0,0,0,1,0.9，0,0,0.32,0,0,0.89,0）。

通过使用五个证据向量和独立性假设表5由五个独立概率值的乘积计算得出，每个概率值都取决于一个证据向量：v（v）_一,v（v）_第页,v（v）_c（c）,v（v）_d日,v（v）_吨例如，开始的内部外显子（bn）标签为P（P）(我_j个=十亿欧元_{j个- 1},e（电子）_j个,e（电子）_{j个+ 1}) =P（P）(一|v（v）_一) ×P（P）(¬第页|v（v）_第页) ×P（P）(c（c）|v（v）_c（c）) ×P（P）(¬d日|v（v）_d日) ×P（P）(¬吨|v（v）_吨). 根据中的定义计算每个标签的概率表5对于每个事件qε{a、 d、c、r、t};P（P）(¬q个|v（v）_q个= 1 -P（P）(q个 v（v）_q个)，非编码标签（nc）的概率为P（P）(我_j个=数控|e_{j个- 1},e（电子）_j个,e（电子）_{j个+ 1}) =P（P）(¬一|v（v）_一) ×P（P）(¬第页|v（v）_第页) ×P（P）(¬c（c）|v（v）_c（c）) ×P（P）(¬d日|v（v）_d日) ×P（P）(¬吨|v（v）_吨).

使用LC2中的动态规划算法找到最可能的基因模型集(方程式2)，用标签的概率估计值替换线性评分函数我_j个对应于间隔我_j个信号之间Sig公司_x个和Sig公司_年。因为我们使用负对数概率，所以我们取最小值而不是最大值；每个信号_年链接到上一个Sig公司_x个使得分最小化：

利用决策树估计概率

决策树用于计算五个事件中每个事件的概率：P（P）(一|v（v）_一),P（P）(第页|v（v）_第页),P（P）(c（c）|v（v）_c（c）),P（P）(d日|v（v）_d日)、和P（P）(吨|v（v）_吨). 对于每个事件模型，从训练集中生成证据向量的列表。从训练集生成的每个证据向量都记录其正确预测的百分比。例如，如果捐赠者证据载体v（v）_d日预测了三个真正的供体位点，但进行了另外两个预测，正确预测的百分比是3/5。对于编码证据向量(v（v）_c（c）)，计算核苷酸而不是出现的次数。

使用OC1构建决策树(Murthy等人，1994年)将训练示例应用于新数据。使用蛋白质编码模型P（P）(c（c） v（v）_c（c）)例如，表示编码间隔的整个训练向量集映射到两类中的一类：编码，如果证据向量的核苷酸有一半以上正确预测了蛋白质编码间隔；否则为非编码。每个叶节点表示分类为编码或非编码向量的证据向量。遍历决策树将输入与向量空间的局部区域相匹配。叶节点处矢量正确预测的平均百分比是最终的概率估计。以这种方式为五个事件模型中的每一个估算单独的概率。决策树示例如所示图4。每个叶子存储来自训练集的单个示例，这些示例从树的根开始满足所有的是和否条件。OC1决策树考虑每个节点的单个和多个条件。例如，Leaf1考虑了两个条件：Genscan预测值是否大于0.3，一个蛋白质的一致性是否大于50%，而Leaf2只考虑了一个条件：是否由GlimmerM进行预测。

在单独的窗口中打开

图4

结合基因预测证据预测蛋白质编码间隔的示例决策树。每片叶子x个包含概率值P（P）(c（c） v（v）_{c（c）,x个})，根据训练集中的匹配示例计算得出。

为了考虑各种可能的解决方案，在OC1树中分割每个节点的标准是不确定的。因此，每次运行培训程序时都会生成不同的OC1树。因为任何一棵树都可能不会产生最佳结果，所以SC对五个事件模型（接受、提供、编码、开始和停止）中的每一个都使用10个决策树。单个概率值是10棵树的平均值。每个决策树都是使用OC1软件的默认参数生成的。

程序可用性

最初的线性组合器（LC1）是用Perl实现的，LC2和SC是用C++实现的。该软件是一个开源软件包，可从以下网站免费获得：http://www.tigr.org/software/combiner.

致谢

这项工作得到了美国国立卫生研究院R01-LM06845拨款的部分支持。我们感谢两位匿名评论员的宝贵意见。

这篇文章的出版费用部分由页面费支付。因此，根据《美国法典》第18卷第1734节，本篇文章必须标记为“广告”，以表明这一事实。

笔记

文章和出版物位于http://www.genome.org/cgi/doi/10.1101/gr.1562804。

工具书类

Altschul，S.F.、Gish，W.、Miller，W.，Myers，E.W.和Lipman，D.J.，1990年。基本本地对齐搜索工具。分子生物学杂志。 215:403-410. [公共医学][谷歌学者]
这个拟南芥2000年基因组计划。开花植物拟南芥基因组序列分析。自然 408:796-815. [公共医学][谷歌学者]
Birney，E.和Durbin，R.1997年。Dynamite：用于序列比较的动态编程方法的灵活代码生成语言。ISMB公司 5:56-64. [公共医学][谷歌学者]
Birney，E.、Clamp，M.和Hubbard，T.，2002年。用于浏览基因组的数据库和工具。每年。基因组学评论。三:293-310. [公共医学][谷歌学者]
Burge，C.和Karlin，S.1997年。人类基因组DNA中完整基因结构的预测。分子生物学杂志。 268:78-84. [公共医学][谷歌学者]
Flicek，P.、Keibler，E.、Hu，P.，Korf，I.和Brent，M.R.，2003年。利用小鼠基因组进行人类基因预测：从全基因组鸟枪读数到全球同步图谱。基因组研究。 13:46-54.[PMC免费文章][公共医学][谷歌学者]
Haas，B.J.、Volfovsky，N.，Town，C.D.、Troukhan，M.、Alexandrov，N.、Feldmann，K.A.、Flavell，R.B.、White，O.和Salzberg，S.L.，2002年。全长信使RNA序列大大改进了基因组注释。基因组生物学。三:研究0029。[PMC免费文章][公共医学]
Howe，K.L.、Chothia，T.和Durbin，R.，2002年。GAZE：通过动态编程集成基因-药物数据的通用框架。基因组研究。 12:1418-1427.[PMC免费文章][公共医学][谷歌学者]
Huang，X.、Adams，M.D.、Zhou，H.和Kerlavage，A.R.，1997年。用于分析和注释基因组序列的工具。基因组学 46:37-45. [公共医学][谷歌学者]
Lukashin，A.V.和Bordovsky，M.1998年。GeneMark.hmm：基因发现的新解决方案。核酸研究。 26:1107-1115年。[PMC免费文章][公共医学][谷歌学者]
Murakami，K.和Takagi，T.1998年。通过几个基因发现程序的组合进行基因识别。生物信息学 14:665-675. [公共医学][谷歌学者]
Murthy，S.K.、Kasif，S.和Salzberg，S.，1994年。倾斜决策树的归纳系统。J.人工智能研究。 2:1-32.[谷歌学者]
Pavlovic，V.、Garg，A.和Kasif，S.，2002年。用于组合基因预测的贝叶斯框架。生物信息学 18:19-27. [公共医学][谷歌学者]
Pertea，M.和Salzberg，S.L.，2002年。植物中的计算基因发现。植物分子生物学。 48:39-48. [公共医学][谷歌学者]
Pertea，M.、Lin，X.和Salzberg，S.L.，2001年。GeneSplicer：一种新的剪接位点预测计算方法。核酸研究。 29:1185-1190.[PMC免费文章][公共医学][谷歌学者]
Quackenbush，J.、Cho，J.，Lee，D.、Liang，F.、Holt，I.、Karamycheva，S.、Parvizi，B.、Pertea，G.、Sultana，R.和White，J.2001。TIGR基因指数：高采样真核生物物种的基因转录序列分析。核酸研究。 29:159-164.[PMC免费文章][公共医学][谷歌学者]
Rogic，S.、Ouellette，B.F.F.和Mackworth，A.K.，2002年。通过结合两个基因发现程序的预测来提高基因识别的准确性。生物信息学 18:1034-1045. [公共医学][谷歌学者]
Salzberg，S.、Delcher，A.L.、Fasman，K.H.和Henderson，J.1998年。用于在DNA中查找基因的决策树系统。J.计算。生物。 5:667-680. [公共医学][谷歌学者]
Schiex，T.、Moisan，A.和Rouze，P.，2001年。尤金：结合多种证据来源的真核基因发现者。在计算生物学（编辑O.Gascuel和M-F.Sagot），第111-125页。LNCS 2066。德国海德堡施普林格。
Yeh，R.-F.，Lim，L.P.和Burge，C.B.，2001年。人类基因组中同源基因结构的计算推断。基因组研究。 11:803-816.[PMC免费文章][公共医学][谷歌学者]
张，M.Q.，2002年。真核蛋白编码基因的计算预测。《自然·遗传学评论》。三:698-710. [公共医学][谷歌学者]
Z.Zhang、S.Schwartz、L.Wagner和W.Miller，2000年。一种用于排列DNA序列的贪婪算法。J.计算。生物。 7:203-214中。[公共医学][谷歌学者]

网站参考

http://www.ensembl.org（英语）; ENSEMBL公司。
网址：http://www.ncbi.nlm.nih.gov; NCBI。
http://www.tigr.org网站; 老虎。
网址：http://genes.cs.wustl.edu; TWINSCAN公司。

文章来自基因组研究由以下人员提供冷泉港实验室出版社

利用多种证据来源进行计算性基因预测

乔纳森·艾伦

米哈埃拉·珀提亚

史蒂文·萨尔茨伯格

摘要

结果

测试集1

表1。

表2。

测试集2

表3。

表4。

讨论

方法

线性合路器

统计组合器

表5。

评估候选基因模型

利用决策树估计概率

程序可用性

致谢

笔记

工具书类

网站参考