公共科学图书馆-遗传学。2006年4月;2(4):e52。
哺乳动物蛋白质组中短蛋白质的丰度
,1中,2 ,2 ,2 ,2,三 ,1 ,1中,4 ,1中,4 ,1中,4 ,2和2,*
马丁·弗里斯
1日本横滨RIKEN横滨研究所RIKEN基因组科学中心基因组探索研究小组(基因组网络项目核心小组)
2澳大利亚昆士兰布里斯班昆士兰大学分子生物科学研究所
阿利斯泰尔·福雷斯特
2澳大利亚昆士兰布里斯班昆士兰大学分子生物科学研究所
埃桑·努尔巴赫什
2澳大利亚昆士兰布里斯班昆士兰大学分子生物科学研究所
肯·C·庞
2澳大利亚昆士兰布里斯班昆士兰大学分子生物科学研究所
三澳大利亚维多利亚州海德堡奥斯汀和遣返医疗中心路德维希癌症研究所
Chikatoshi Kai先生
1日本横滨RIKEN横滨研究所RIKEN基因组科学中心基因组探索研究小组(基因组网络项目核心小组)
Jun Kawai先生
1日本横滨RIKEN横滨研究所RIKEN基因组科学中心基因组探索研究小组(基因组网络项目核心小组)
4日本Wako RIKEN Wako研究所发现研究所基因组科学实验室
皮耶罗·卡尼奇
1日本横滨RIKEN横滨研究所RIKEN基因组科学中心基因组探索研究小组(基因组网络项目核心小组)
4日本Wako RIKEN Wako研究所发现研究所基因组科学实验室
吉藏Hayashizaki
1日本横滨RIKEN横滨研究所RIKEN基因组科学中心基因组探索研究小组(基因组网络项目核心小组)
4日本Wako RIKEN Wako研究所发现研究所基因组科学实验室
蒂莫西·L·贝利
2澳大利亚昆士兰布里斯班昆士兰大学分子生物科学研究所
肖恩·格里蒙德
2澳大利亚昆士兰布里斯班昆士兰大学分子生物科学研究所
朱迪思·布莱克,编辑器,约翰·汉考克,编辑器,比尔·帕万,编辑器,丽莎·斯塔布斯,编辑器,和遗传学EIC韦恩·弗兰克尔,编辑器
1日本横滨RIKEN横滨研究所RIKEN基因组科学中心基因组探索研究小组(基因组网络项目核心小组)
2澳大利亚昆士兰布里斯班昆士兰大学分子生物科学研究所
三澳大利亚维多利亚州海德堡奥斯汀和遣返医疗中心路德维希癌症研究所
4日本Wako RIKEN Wako研究所发现研究所基因组科学实验室
美国杰克逊实验室
MRC-Harwell,英国
NHGRI-NIH,美国
美国劳伦斯·利弗莫尔国家实验室
美国杰克逊实验室
2005年8月15日收到;2006年2月23日接受。
这是一篇根据知识共享署名许可证条款分发的开放存取文章,该许可证允许在任何媒体上不受限制地使用、分发和复制,前提是原始作者和来源得到了适当的信任。
介绍
大规模cDNA注释通常是在蛋白质编码转录物编码100aa或更长的肽的假设下进行的。虽然这是一个非常有用的概括,但短蛋白mRNA编码的存在需要解决。短蛋白是生物过程的重要介质,包括(1)调节先天免疫(通过十几个小诱导细胞因子家族CCL和CXCL的成员),(2)抵抗病原体(通过二十多个外源性防御素和防御素相关的隐窝因子),(3)作为配体和激素(如Apln、Gnrh1和Ppy)的细胞通讯和体内平衡,(4)信号转导(如Pki蛋白激酶抑制剂和Gng-鸟嘌呤核苷酸结合蛋白-γ家族),以及(5)代谢(例如,在线粒体电子传递、细胞色素C亚基和辅酶代谢中起关键作用)。由于其体积较小,这些肽可能具有不同的作用和性质(例如,对Swiss-Prot中小于100 aa的肽的本体研究表明,几乎三分之一位于细胞外室)。因此,小于100aa的短蛋白具有许多基本功能,尤其与细胞间通信有关,而细胞间通信是多细胞生命的基础。然而,当前的开放阅读框架(ORF)预测和注释项目却缺少它们。
FANTOM联盟测序了一大组全长小鼠cDNA,并手动注释了它们的蛋白质编码能力[1,2]. 在29991个FANTOM蛋白中,只有987个(3.3%)被注释为短于100 aa。当绘制这组肽的长度分布图时,很明显,编码短于100aa的肽的cDNA数量急剧下降(A) ●●●●。这种奇怪的长度分布并不奇怪,因为ORF长度大于100个密码子是用于注释蛋白质的标准之一[1](N Maeda等人正在准备)。这种分布在其他目录中也很明显,包括小鼠IPI和人类Swiss-Prot集合(B和C) 。
哺乳动物蛋白质的尺寸分布(A) 对于来自FANTOM注释的29991个全长小鼠蛋白质。
(B) 来自IPI数据库的40865小鼠蛋白质。
(C) 来自瑞士普罗特的11679人类蛋白质。
(D) 对于使用CRITICA在FANTOM cDNA中预测的31035个小鼠蛋白质。
IPI集合是通过整合多个源数据库获得的已知和预测小鼠蛋白质的综合数据库[三]. 肽长度分布在300–310 aa处出现峰值,对应于大型嗅觉受体家族,这在FANTOM集合中缺失,因为嗅觉组织没有深入取样(). 40865个IPI蛋白中只有1835个(4.5%)短于100 aa。即使是这一小部分,也可能受到较长蛋白质片段的污染,因为根据基因组序列预测的蛋白质通常是部分的[4].
相比之下,Swiss-Prot是一个人工管理的蛋白质数据库,它强调准确性而牺牲完整性[5]. 与其他数据集不同,人类Swiss-Prot蛋白的丰度并没有从500 aa增加到100 aa,但低于100 aa的急剧下降仍然存在(C) ●●●●。拼接变体合并在Swiss-Prot集合中,而它们在FANTOM和IPI集合中是分开的;然而,无论哪种情况,短蛋白的丰度都明显下降。在11679个人类Swiss-Prot蛋白中,只有405个(3.5%)短于100 aa。即使假设Swiss-Pro没有错误,也很容易想象可纳入Swiss-Propt的蛋白质报告中的确定偏差会导致长度分布偏差。
这种短长度的不连续性以前在酵母、细菌和小鼠蛋白质中已经被发现[6,7]. Das等人[6]绘制了带有和不带有“清晰”同源物的酵母蛋白的长度分布图,并在后者的100–110 aa处观察到一个显著的峰值,而不是在前者的分布中,这表明蛋白质的预测值略高于100 aa。然而,作者没有评论他们绘图的另一个特征:同源物低于100aa的蛋白质数量显著下降。这表明少于100aa蛋白质的摄入不足。
先前的几项研究试图阐明微生物基因组中编码的短蛋白的丰度。Ochman测量了细菌对中同源ORF之间同义与非同义替换的比率[8]. 如果蛋白质序列在物种之间是保守的,那么蛋白质编码的ORF具有过量的同义和非同义替换,而非编码的ORFs的比率接近于1。选择K(K)
一/K(K)
秒然而,阈值并不简单,可能存在一些翻译的功能性蛋白质,其蛋白质序列几乎没有或几乎没有保守性,例如先导肽[9]. Kellis等人通过测量阅读框与其他酵母基因组比对时保守的ORF比例,鉴定了酵母中编码蛋白质的ORF[10]. Harrison等人通过比较65个微生物基因组中的“多ORFome”(所有可能的ORF)和自身在蛋白质水平上的ORF来解决这个问题,以确定保守的蛋白质[11]. 这种方法可能会导致高度保守的非编码序列的虚假匹配,或者,如果为了避免这个问题而制定非常严格的同源性标准,则会遗漏保守性较弱或种类分布有限的蛋白质。对于哺乳动物来说,非编码序列的存在比任何蛋白质都更保守,这加剧了这一困境[12]. 总的来说,同义/非同义分析似乎是鉴别蛋白质编码ORF的一种更有效的工具。
这些研究还没有扩展到多细胞真核生物,部分原因是在这些大型且内含子丰富的基因组中发现基因要困难得多,部分原因可能是错误的假设,即从大量cDNA数据中识别蛋白质是微不足道的。cDNA序列当然比基因组有优势:内含子和大多数假基因都不存在,搜索空间大大缩小,而且,经典地说,每个mRNA应该精确编码一个蛋白质。主要的困难是,实际上可能有许多非编码RNA[1,13]这与编码短蛋白的mRNA很难区分,并且cDNA可能会受到各种实验人工制品的影响,例如截断和内含子保留。
为了阐明小蛋白对哺乳动物蛋白质组的贡献,我们在102801小鼠cDNA的FANTOM集合中鉴定了蛋白质。这是从许多组织和发育阶段收集到的最大的可用cDNA集,重要的是,它的构建没有明显的长或短蛋白质偏向。其他cDNA集合并不总是这样;例如,Kazusa人类cDNA项目以大蛋白为目标[14]. 因此,我们并不使用所有公共cDNA。FANTOM的最后一个优点是,cDNA和公共基因组序列来自同一近交系小鼠菌株(C57BL/6J),这有助于进行各种分析,例如检查测序错误。
为了识别长度偏差最小的蛋白质,并区分蛋白质编码和非编码RNA,我们使用CRITICA(编码区域识别工具调用比较分析)程序套件[15]. CRITICA旨在通过结合比较分析(类似于Ochman的同义/非同义测量)和编码序列统计分析(CDS)来识别细菌基因组中的蛋白质编码ORF。在第一步中,CRITICA扫描同源核苷酸序列的成对比对,并鉴定其翻译的氨基酸同一性比观察到的核苷酸同一性百分比预期的更高的区域。接下来,该程序计算预测编码帧和非编码帧中的己核苷酸频率,并将此信息与比较数据相结合,以更准确地重新预测编码区域。这种六核苷酸计数和再给药重复数次。CRITICA计算第页-值,表示具有这种编码证据的区域偶然出现的概率,并输出预测第页-值小于0.0001。通过以严格的统计方式利用强大的比较和六聚体证据,CRITICA是准确识别100-aa屏障下蛋白质的一种特别有前途的方法,我们在下文提供了证据证明它确实成功地做到了这一点。这种方法消除了典型蛋白质鉴定管道的偏差,因为它不采用长度阈值,也不依赖于与可能存在长度偏差的现有蛋白质集合的比较。
结果
CRITICA管道用于识别102801 FANTOM cDNA序列中编码的蛋白质。由于CRITICA是为细菌DNA设计的,它可以预测反向链中的蛋白质或每个序列中的多个蛋白质。反向链预测被删除:当转录物与蛋白质编码外显子反义时,就会出现反向链预测。共有9625个cDNA具有多个前向标记预测:这些cDNA通常具有未拼接的内含子或移码测序错误,因此被丢弃。进一步的3344个预测缺少终止密码子,因此编码区从cDNA末端流出(假定为3′截断cDNA);这些也被删除了,留下了49378个预测。这些初始过滤步骤总结于.
CRITICA似乎无法非常可靠地预测起始密码子。特别是,22112例(45%)的蛋白质编码区预计在cDNA(假定的5′截断cDNA)开始之前开始,而根据FANTOM联盟使用的其他三种蛋白质识别方法(DECODER、rsCDS和mTRANS)中的每一种,其中12147例具有内部起始密码子。对CRITICA的中间.crit文件的检查表明,这些cDNA中的14111个具有替代性的非短切预测第页-值比截断的预测高出不到10倍。因此,CRITICA无法自信地辨别其他启动位置,这并不太令人惊讶,因为它缺少分析真核启动信号的组件。(它有一个用于预测细菌Shine-Dalgarno序列的组件,我们关闭了它。)因此,我们使用了一个额外的规则来获得最终的蛋白质预测:最上游可能的ATG被用作起始密码子。核糖体扫描模型表明,上游最常见的ATG通常是正确的[16]. 此外,由于终止密码子的出现频率是起始密码子的三倍,因此在真正的起始密码子和任何上游ATG之间通常会有一个中间的终止。然而,我们预计这一过程会导致对短蛋白丰度的轻微低估。对于429个cDNA,没有发现ATG,这些被丢弃,剩下48949个cDNA的蛋白质预测(数据集S1和S2系列).
冗余
FANTOM收集包括来自重叠基因组区域的转录物。在某些情况下,两个转录物中预测的蛋白质编码区来自相同的基因组外显子,因此48949个cDNA编码31035个基因组不同的蛋白质。(其中,187个cDNA没有唯一地映射到基因组,并且被排除在蛋白质计数之外。)在其他情况下,由于剪接位点或转录起始位点的交替使用,预测的蛋白质编码区域来自部分重叠的基因组外显子。这些部分重叠的蛋白质可能有一些共同的属性,传统上将它们聚集成“基因”。另一方面,它们也可能在生物体的功能中具有不同的属性和作用。因此,在定义“蛋白质组”时,有包括所有变体亚型的先例[17]. 最后,越来越清楚的是,基因组的转录区域形成了一个复杂的重叠网络,对基因概念的实用性产生了严重怀疑[1,13].
长度分布和人工制品
31035蛋白具有平滑的长度分布,峰值在100到200 aa之间(D) ●●●●。这些蛋白质中有12%,3701,低于100个氨基酸:这一比例是A–这些短蛋白质中的一些显然是人工制品:例如,最短的蛋白质由单一氨基酸(蛋氨酸)组成。在这种情况下,CRITICA最初识别出一个较大的蛋白质编码序列区域,但未能找到真正的起始密码子,可能是因为一些克隆或测序错误。不幸的是,通常很难确定cDNA是真实的还是人工的。在下文中,我们考虑了可能导致长度分布偏差的可能人工制品,并且使用保守标准,我们表明它们对小于100 aa的蛋白质比例没有很大影响。这些结果总结于详细信息请参见数据集S3。我们已经更新了DDBJ/EMBL/GenBank中521个小于100 aa的ORF的CDS注释,这些ORF通过了所有这些标准,并且与原始注释不同。
排序错误
蛋白质预测对测序错误很敏感,尤其是任何将帧移位引入编码区的错误。我们可能会认为这样的错误会增加短蛋白的数量,因为终止密码子在非编码帧中应该很常见。为了排除测序错误,使用每个cDNA对应的基因组序列来确认ORF。在8108例患者中,ORF因各种原因未得到确认(),表示cDNA序列或基因组草图序列中存在错误,或cDNA–基因组映射失败。其余40841个ORF编码24602个蛋白质,不太可能是序列错误伪影,因为它们是由独立的cDNA和基因组序列证实的。已确认的蛋白质的比例略有增加,13%(3154),短于100 aa。这种增加可以解释,因为长ORF更有可能包含错误,并通过我们的程序删除。无论如何,测序误差对长度分布没有很大影响。
cDNA 5′端截短
FANTOM cDNA是使用cap-trapping和其他技术获得的,以确保它们一直延伸到转录物的5′端[18]; 然而,我们不能排除一些可能被截断。较大的截断可能导致cDNA在编码区内开始,在这种情况下,我们的程序将使用下游ATG预测缩短的ORF。因此,5′截短可能导致短蛋白偏爱。(另一方面,3′截断不会导致蛋白质预测,因为它们缺少终止密码子。)由于很难排除cDNA的5′截断,我们通过检查起始密码子上游的帧内终止密码子来解决这个问题。在40841个基因组确认的ORF中,有21616个存在这些基因,确保这些cDNA的任何截断都不会咬入编码区。这个测试是保守的,可能剩余的许多cDNA也是全长的。21616个cDNA编码13556个蛋白质,其中1683个(12%)短于100 aa。因此,考虑到保守的全长子集,100 aa以下的蛋白质比例不会改变。
内含子保留
另一个可能的人为因素是,cDNA可能是从未切割的前mRNA或基因组DNA中富含腺嘌呤的区域启动的,包括内含子序列和外显子序列。这样的cDNA可能导致围绕单个外显子的短蛋白预测,因此这种现象可能会扭曲蛋白质长度分布。为了解决这个问题,采取了两项保守措施:消除基因组上与腺嘌呤富集区相邻的cDNA,并消除未切割的cDNA。FANTOM cDNA在直接下游基因组序列中具有腺嘌呤丰度的双峰分布,约有三分之一(33952)处于腺嘌呤·丰度模式(20 nt中超过10个腺嘌呤s),这在随机基因组位置中未观察到。这种模式可能对应于内部启动,其中cDNA构建中使用的寡核苷酸探针杂交到富含腺嘌呤的转录物中延伸,而不是到聚腺嘌呤的尾部。另一方面,基因组中的许多富含腺嘌呤的片段来自反转录转座的聚腺嘌呤的尾部,该尾部具有3′端形成信号,因此我们可以预计许多转录物会在这些位置结束。在任何情况下,去除与腺嘌呤富集区相邻的cDNA,在40841个基因组确认的编码19174个蛋白质的ORF中留下32649个,其中1812个(9.5%)短于100个氨基酸。未剪接的cDNA可能来自保留有内含子的前信使核糖核酸,或成熟但无内含子的转录物。去除未切割的cDNA后,40841个经基因组确认的ORF中有38030个编码22340个蛋白质,其中2018个(9.0%)短于100 aa。这些结果表明,内含子保留人工制品可能确实会导致对短蛋白的轻微偏向。另一方面,一些基因实际上是无内含子的,似乎它们不成比例地编码短蛋白(如果长蛋白需要更长的mRNA,而更长的mDNA更可能被剪接)。
CRITICA中的长度偏差?
由于编码ORF在其长度上提供了比较和统计证据,长ORF往往比短ORF有更多的证据,这可能会使CRITICA的预测与短蛋白产生偏差。特别是,有人认为CRITICA第二阶段使用的序列统计不足以区分短蛋白[7]. 因此,CRITICA的预测可能包括一个基于长度的子集,该子集仅基于非比较证据。为了排除这种可能性,我们首先注意到,102801个cDNA中有100982个cDNA的MEGABLAST同源性为97%或更低,因此几乎没有任何预测没有任何比较证据。(CRITICA不使用超过97%相同的比对,因为它们对替代分析没有信息。)其次,我们使用CRITICA的第一次比较性迭代的结果重新推导了蛋白质预测。在这种情况下,46520个cDNA中预测了29529个蛋白质,其中2892个(9.8%)短于100 aa。因此,短蛋白的比例实际上略低于CRITICA的完整结果。这可以用非比较结果来解释,这些结果为边界案例增加了证据,这些案例往往很短,使其低于第页-值阈值。
为了进一步测试CRITICA是否表现出任何长度偏差,我们检查了它所识别的来自瑞士-普罗特的已知小鼠蛋白质。使用BLASTX将Swiss-Prot小鼠蛋白质与FANTOM cDNA对齐,并保留8113个cDNA作为查询集,这些cDNA在整个长度上与蛋白质对齐,没有任何错配或间隙。在334例病例中,蛋白质并非从最上游的ATG开始,因此我们的CRITICA管道没有机会准确识别蛋白质。然而,在7580例病例中,CRITICA与Swiss-Prot完全一致地鉴定了该蛋白。CRITICA成功鉴定了长蛋白和短蛋白(). 它漏掉了最短的蛋白质(肌脂蛋白[SARCO_MOUSE],31 aa),但它找到了第二个最短的蛋白(心肌磷蛋白[PPLA_MOUSE]52 aa)。并非始于上游的病例——大多数ATG随机分布在不同的蛋白质长度上(黑色条). CRITICA失败的其余情况集中在较短的长度(灰色条). 这一观察必须至少部分源于这样一个事实,即Swiss-Prot确实包含一些错误,而且可疑的Swiss-Pro条目往往很短[19]. 这一结果也与CRITICA对鉴定短蛋白的预期轻微偏差一致,但重要的结论是,它成功地鉴定了几乎所有大小小于50个氨基酸的蛋白质,如果不是更小的话。
临界预测的轻微长度依赖性黑色条表示FANTOM中的所有小鼠Swiss-Prot蛋白。灰色条表示使用最上游可能起始密码子的子集。白色条表示CRITICA预测的FANTOM中小鼠Swiss-Prot蛋白的子集。
CRITICA假阳性?
我们已经证明,CRITICA可以在有蛋白质编码区的情况下准确地找到蛋白质编码区,但程序仍有可能错误地预测非蛋白编码转录物中的短蛋白。为了评估这种可能性,CRITICA被应用于从文献中收集的112个小鼠和人类非编码基因的转录本(数据集S4) [20]. (由于CRITICA的六聚体分析要求存在一些编码区,这些序列由Swiss-Prot的小鼠和人类蛋白质编码序列补充。)该程序仅对五个非编码基因进行编码预测,表明假阳性率为4%(). 此外,这些预测中只有两个小于100 aa。
由于在FANTOM中约30000个非编码RNA的背景下,4%的假阳性率将是一个显著的数字,因此我们详细检查了这五个案例,以了解为什么它们被预测为编码。ST7OT3型是与编码转录本重叠的非编码基因(ST7)[21]; 由LIT11901和LIT2007表示的序列先前被注释为ST7OT3型在GenBank中;然而,该注释随后被更改为ST7、,所以这里包含这些序列是一个管理错误。KCNQ1号机组也是一种蛋白质编码基因,具有一个亚型(LIT1624),可能是未翻译的,因为它在第二外显子中引入了一个提前终止密码子[22]. 由于该序列包含在其他上下文中翻译的外显子,CRITICA毫不奇怪地检测到一个强大的编码信号。在我们描述下面的FANTOM CRITICA预测时,我们区分了那些具有较长亚型的亚型,其中一些亚型实际上可能是以LIT1624的方式非编码的,以及那些没有编码的亚型。预测的编码区域SCA8公司主要是编码93个亮氨酸的三重重复序列[23]:关键第页-数值计算假设相邻的核苷酸独立进化,因此对于重复序列可能不可靠。这个问题并不影响许多FANTOM序列:在31035个预测的蛋白质中,只有425个含有长度为10 aa或更长的均聚物片段,包括3701个小于100 aa的蛋白质中只有16个。尽管最初的作者无法检测到来自首席信息官[24],生物信息学证据,包括与来自爪蟾({“类型”:“entrez-protein”,“属性”:{“文本”:“AAH64217”,“term_id”:“39794398”}}AAH64217型)BLAST和有利的翻译启动环境强烈表明首席信息官编码一个短肽。Msx1as公司是的反义转录本Msx1/Hox7[25],并且由于CDS往往在每三分之一的“摆动”碱基上发生突变,因此在反义链上也存在类似密码的3 bp突变周期[15]. CRITICA试图抑制反义预测,但它可能并不总是成功,尤其是在sense-strend ORF不完整的情况下。这个问题也几乎没有影响FANTOM的预测:在31035个预测的蛋白质中,只有283个相互之间存在反义关系,其中3701个小于100 aa的蛋白质中只有37个。因此,所有这五种情况都可以解释为策展错误或特殊情况(编码基因的反义、重复或异构体)可以预先标记。
RNA大小偏差?
与大多数其他cDNA收集一样,FANTOM不包括短于约500 nt的转录物。由于小于100 aa的蛋白质可以(尽管不需要)编码在300 nt或更短的转录物中,这可能会导致对寻找短蛋白的偏见。为了评估这种可能性,我们检测了编码不同大小蛋白质的RNA长度范围(). 对于每个蛋白质大小范围,RNA长度分布的中心都轻松地保持在500 nt以上。虽然我们不能排除编码短蛋白的小于500 nt的不同RNA群体,但这些结果表明,FANTOM克隆限制并不排除大多数短蛋白。
不同蛋白质大小范围的RNA大小方框图和晶须图中心线表示中位数,方框的顶部和底部表示第一和第三个四分位数,胡须延伸到最极端的数据点。
短蛋白质表征
这些结果表明,小于100 aa的蛋白质在蛋白质组中所占比例是之前估计的3倍。那么这些新的短蛋白是什么呢?其中大多数实际上是较长蛋白质的剪接变体:31035个预测蛋白质之间的基因组重叠表明,在3701个小于100 aa的蛋白质中,有2354个是大于100 aa蛋白质的变体。这个剪接变体子集将包括大多数人工制品,因为截短的和不成熟的cDNA将重叠其全长对应物。剔除基因组上与较长变体重叠的所有蛋白质,可以得到16900个最大长度的亚型,其中1240个(7.3%)小于100个氨基酸。
以前的小鼠蛋白质目录中没有小于100 aa的绝大多数蛋白质:3701个短蛋白中只有232个与小鼠IPI数据库中的条目相匹配(BLASTP比对具有95%或更高的一致性,并且涵盖95%或更大的两个序列)。此外,根据UniRef90数据库的搜索,3701个短蛋白中有495个与任何已知蛋白都不相似。这些蛋白质既短又与任何已知蛋白质都不相似,大多数蛋白质鉴定方法都看不见,因此应贴上“暗物质”的标签。
与基因预测重叠
正如预期的那样,16900个最大长度亚型与基于基因组的基因预测有显著重叠,但重叠在100 aa以下迅速减少(). GenScan和GeneID是从头开始的基因预测因子[26,27]:即使对于大于100 aa的蛋白质,它们也很少与CRITICA完全一致,尽管通常存在显著重叠。它们可能识别不同的剪接变体。对于小于100 aa的蛋白质,重叠往往很低,但通常大于零。TwinScan和SGP分别是GenScan和GeneID的变体,它们结合了与CRITICA使用的相同的比较分析,尽管它们解决了一个更困难的问题,因为它们应用于基因组序列,必须预测剪接模式[28,29]. 对于大于100 aa的蛋白质,TwinScan和SGP与CRITICA的重叠明显大于GenScan和GeneID,但对于小于100 aa蛋白质,两者的重叠不明显。Ensemble和ECgene使用经验数据,如表达序列标签(EST)来辅助基因预测[30,31]; 对于大于100 aa的蛋白质,它们往往与CRITICA最大长度亚型完全一致,但低于100 aa时仍有明显下降。ECgene与CRITIC的一致性明显好于Ensembl,即使是80–100 aa范围内的蛋白质也表现出良好的一致性。这在一定程度上是因为ECgene比包括剪接变体在内的其他方法做出了大约一个数量级的预测。
六种方法的FANTOM临界预测与基于基因组的基因预测的重叠仅考虑了FANTOM CRITICA预测的16900个最大长度亚型;这些方法依次与每种基于基因组的方法进行了比较,如下所示。将每个CRITICA预测与基于基因组的基因预测进行比较,该基因预测将其重叠最大数量的核苷酸,并使用性能系数量化重叠程度:两个预测交叉处的核苷酸数量除以预测联合中的核苷酸数量[45]. 这些是方框和胡须图:中心线表示中位数,方框的顶部和底部表示第一和第三个四分位数,胡须延伸到最极端的数据点。
蛋白质结构域和基序
根据对Pfam数据库的搜索,1240个最大长度小于100 aa的亚型中只有384个存在可识别的功能域[32]. 在短蛋白中,一些功能域类别显著过度表达(). 然而,这些类别在很大程度上反映了之前已知的短蛋白的作用。这些结果表明,需要有针对性的功能研究来阐明大多数新型短蛋白的功能。
表5
100aa以下蛋白质中Pfam结构域的十个最被过度表达的基因本体分类
我们还为所有小型ORF提供SignalP和TMHMM预测数据集S5和S6系列SignalP预测1240个小ORF中的125个中的信号肽。SignalP报告的假阳性率[33]是15%,但这是基于一个测试集,其中包含的信号肽比例(34.5%)高于整个小鼠基因组中预测的比例(20%)。利用小鼠基因组上SignalP预测的调整后假阳性率27%,我们预测大约91个小ORF含有信号肽。毫不奇怪,由于含有信号肽的小ORF产生的裂解蛋白质非常小,限制了它们的用途和范围,因此在整个小鼠基因组中信号肽的比例大大降低(7.3%对20%)。
Paralogue集群
尽管大多数短蛋白没有已知的结构域,但通过将具有相似序列的蛋白聚集在一起,可以检测到新的结构域。使用BLASTCLUST,1240个短蛋白中的117个被分为38个家族,其中有两个或多个成员(数据集S7). 这些家庭中有许多共享一个Pfam域;例如,最大家族的20个成员各自拥有一个KRAB域(Krüppel-associated box)。还有一些新的领域;例如,由克隆1500011E09、6330419J24和F430011G22编码的蛋白质共享一个约45-aa片段,其约75%的同源性与任何Pfam结构域都不匹配。
氨基酸组成
短蛋白质与长蛋白质的氨基酸比例略有不同(). 最显著的差异是短蛋白中半胱氨酸过量,这可能表明它们更频繁地使用二硫键来维持结构。短蛋白还含有过量的精氨酸和甘氨酸,以及天冬氨酸、组氨酸、天冬酰胺和苏氨酸。Swiss-Prot中的短小鼠蛋白通常具有与FANTOM CRITICA蛋白相同的偏见,但与长蛋白的差异更为极端。
进化保护
为了进一步表征短蛋白并获得更多关于其编码状态的证据,我们调查了它们在大鼠和人类中的保存程度。我们从加州大学圣克鲁斯分校BLASTZ全基因组比对中提取了与预测编码外显子一致的大鼠和人类序列[34]. 首先,我们检查了阅读框架的保守性,要求大鼠或人类序列形成可翻译的ORF(长度可被三整除,以起始密码子开始,以终止密码子结束,并且没有中间的终止),并且它们从头到尾覆盖整个CRITICA预测的ORF(但允许中间有间隙)。16900个最大长度亚型中,约三分之二在大鼠体内保存,约一半在人类体内保存(A和B) ●●●●。非接触病例通常有轻微的干扰,例如ORF末端附近的移码,导致使用不同的终止密码子。对于长ORF和短ORF,保守ORF的比例大致相同。其次,我们通过计算CRITICA ORF中与其他物种中相同核苷酸对齐的核苷酸的百分比来检查序列保守性。正如预期的那样,这些序列比基因组平均值保守得多(C和D) ●●●●。短ORF与长ORF同样保守,为其蛋白质编码状态提供了进一步证据。
扇临界预测的进化守恒仅考虑了FANTOM CRITICA预测的16900个最大长度亚型。
(A) 阅读框在大鼠(黑色)或中断(白色)中完全保守的预测直方图。
(B) 预测直方图,其中阅读框在人类(黑人)中完全保守或被破坏(白人)。
(C和D)预测序列与(C)大鼠和(D)人类的对比。序列保守性通过每个预测蛋白编码区中与其他生物体中相同核苷酸对齐的核苷酸的百分比进行量化。这些是方框和胡须图:中心线表示中位数,方框的顶部和底部表示第一和第三个四分位数,胡须延伸到最极端的数据点。长水平线表示小鼠基因组中与其他生物体中相同核苷酸对齐的已测序核苷酸的百分比。
小ORF转录的转录支持
首先,为了为小ORF编码克隆的有效性提供转录支持,计算了所有公共数据中每个转录本的独立EST数。总的来说,在1240个小ORF RNA中,有1167个是由来自独立cDNA克隆的至少一个其他RNA或EST序列支持的,基于基因组映射。该组支持EST和cDNA的中位数为26,这表明本研究中描述的小ORF cDNA通常来源于有代表性的转录物。
其次,我们还回顾了小鼠Symatlas 61组织图谱Affymetrix数据集中编码小ORF RNA的基因表达模式[35]为这些基本上没有特征的转录本提供功能意义。在这个数据集中专门鉴定了844个小ORF转录本。小ORF转录物的平均表达水平与已知编码转录物的观察结果没有显著差异(数据未显示)。对这844个转录本的数据进行分级聚类显示,其中大多数转录本以高度组织限制的方式表达(). 观察到几个大簇小ORF转录物。最大的集群包括神经组织(大脑的15个亚解剖区域和垂体)、造血细胞和组织(T细胞、B细胞、淋巴细胞、脾脏和骨髓)以及胚胎细胞和组织。这些转录物高度受限的表达模式进一步支持了这些转录物的合法性,并表明了它们在特定组织中的功能作用。
显示诺华研究基金会基因组研究所GeneAtlas 61个小鼠组织中小ORF转录物相对表达水平的热图小ORF转录物聚集在垂直轴上,组织样本沿着水平轴。所有基因表达都是相对于所有61个组织中每个转录物的中位数水平显示的。热图左侧(左侧)的彩色列对应于放大的部分(右侧)。FANTOM3克隆标识符包含在放大的集群中。组织簇的放大图,包括组织名称,可用作图S1.
翻译和本地化分析
最后,我们试图为CRITICA通过标记候选cDNA在哺乳动物细胞中的瞬时表达识别的短ORF子集提供支持证据。生成了一组哺乳动物表达质粒,其中包含小ORF及其天然5′UTR与编码绿色荧光蛋白(GFP)的ORF融合。每个小ORF保留5′UTR,以测试其起始密码子的强度和合法性。GFP ORF也被设计为缺少起始密码子,因此只有在候选的小ORF被有效翻译的情况下才能观察到GFP蛋白。
基于诺华研究基金会基因组学研究所的EST计数和表达谱数据,在具有强大转录支持的基础上,共选择了25个小ORF(表S1). 在瞬时转染HeLa细胞后,其中14个cDNA(包括7个暗物质)通过免疫荧光产生GFP标记蛋白(). 三个受试的ORF定位于细胞表面,并进行了内质网样染色(5430416O09、A430023G14和1110065P19);其余四个进行了核周、内质网/高尔基样定位(0610011H04、1500009C09、C230071E12和E030042M04)。通过TMHMM预测所有这些小ORF都具有跨膜结构域[36]或通过SignalP的信号肽基序[33],建议正确定位。另外七个候选转录物产生了GFP标记的蛋白,在整个细胞中都能观察到。与其他筛查(如人类ORFeome)相比,检测单个细胞类型中标记结构物表达的成功率更高(282个结构物的免疫荧光或免疫印迹总成功率为55%)[37]. 这些数据支持通过该计算屏幕识别的小ORF能够生成高效翻译的肽。
CRITICA预测的与GFP融合的小信号蛋白阳性ORF的亚细胞定位观察(A–C)A430023G14、1110065P19和5430416O09的细胞表面和核周定位。
(D和E)E030042M04和1500009C09的核膜和核周高尔基样定位。
(F) C230071E12的内质网样染色。
(G) 0610011H04的核周染色。
D33006H24和A630083C19的(H和I)类GFP普遍染色,与1700084P19、D630042J06、F730009G16、5430411J08和D130012G24的染色相似。
讨论
这项研究提供了哺乳动物短蛋白质组的第一张相当准确的图片。尽管CRITICA揭示的短蛋白质数量是之前认为的三倍,但它仍然表明蛋白质丰度在100至200 aa之间达到峰值,并在100 aa以下迅速下降。幸运的巧合是,转折点出现在接近用于蛋白质鉴定的传统100-aa阈值的位置。这种分布可能告诉我们一些有用蛋白质的最小尺寸:可能很难在远小于100 aa的范围内编码功能域和必要的定位肽。这一发现也表明短蛋白可能具有非典型功能。
重要的是,这种比较方法能够识别大多数标准蛋白质识别方法无法识别的暗物质。GFP分析表明,这些新蛋白中的一些可以在其天然5′UTR的背景下翻译,并定位到特定的亚细胞隔室,进一步证明它们是真实的和功能性的。这些蛋白质可能具有非常新颖的生物功能。
制作精确的短蛋白目录需要一种准确的方法来排除cDNA人工制品。这是一个困难的问题,因为即使我们看到一个保留的内含子分裂一个蛋白质编码区,或者一个cDNA开始于ORF的中间,我们也无法判断这些是人工制品还是真正的变异转录物。最近的CAGE和RACE数据表明,许多以前注释为截断的cDNA实际上是来自替代启动子的全长转录物[1].
最近,通过使用比较方法,哺乳动物基因组中的基因预测得到了改进[38]. 我们的工作强调了将这种方法与成绩单数据更紧密结合的好处。转录物的使用解决了当前基于基因组的预测因子难以解决的几个问题,例如多剪接变异体、重叠或嵌入基因、巨大内含子和非规范剪接位点的识别。我们设想一种混合基因预测方法,该方法使用潜在的人工cDNA和EST数据来指导但不限制基因组序列中的预测。
CRITICA的预测在50-100 aa范围内相当可靠,但低于50 aa的可靠性仍不确定。一定会出现ORF太短,CRITICA无法检测到统计上有意义的信号的情况,因此极短的肽段仍然是隐藏的。微小的蛋白质也可能编码在微小的RNA中,而这些RNA被排除在大多数转录数据集中。此外,这项研究忽略了上游ORF,后者可能贡献许多短蛋白[39]. 我们不能排除有数千种非常短的蛋白质,比如少于10个氨基酸。
材料和方法
克里蒂卡。
CRITICA管道是为细菌基因组和1999年较小的序列数据库设计的。为了处理2亿核苷酸FANTOM数据集和100亿核苷酸非冗余GenBank数据库,需要进行一些修改。首先,为了防止过度的数据库点击,我们使用了从ftp://fantom.gsc.riken.jp/FANTOM3/repeats/FANTOM3_total103k_r2.masked.fasta.gz使用MEGABLAST和选项–e(1e−4)–D 1–F“m D”–U T–J F–F T–T 18–W 11–A 50–q−2–G 5–e 2将FANTOM序列与国家生物技术信息中心的nt数据库(2004年1月)对齐[40]. 这些选项导致MEGABLAST使用不连续种子,允许每隔三个位置出现不匹配,这对于寻找蛋白质编码区域的同源物应该更为敏感。对CRITICA 1.05b版进行了修改,以接受大型文件,并使用选项(iterate-CRITICA–no-sdscores–fraction-coding=0.5–genetic-code=1–frameshift-threshold=10)对比对进行了分析。
非编码RNA(数据集S4)用RepeatMasker open 3.0.8进行处理后,以相同的方式进行分析,选项为-xsmall–s(和-种小鼠用于小鼠序列)[41].
拼接标准。
根据FANTOM cDNA–基因组映射,如果一个cDNA有多个外显子,并且有一个内含子侧翼有GT-AG,仅在cDNA中有对齐间隙,则认为该cDNA是拼接的。
蛋白质数据库搜索。
我们使用了NCBI BLAST 2.2.9[42]用于蛋白质搜索。使用BLASTX将FANTOM cDNA与小鼠Swiss Prot蛋白(2005年4月1日下载的mgd.seq)进行比对,选项为–m 8–F“m S”–S 1–g F–e 0.01–m PAM30–y 1。BLASTP用于查找预测蛋白质的数据库匹配。搜索鼠标IPI数据库时没有使用低复杂度屏蔽,因为我们要查找几乎完全匹配的内容。UniRef90数据库(2004年1月9日下载)使用E类-值阈值为0.01[5].
Paralogue集群。
在用SEG过滤低复杂度序列后,使用BLASTCLUST 2.2.11和选项–S 0.0–L 0.0来确定副记录聚类[43].
表达式分析。
小ORF转录物的标准化微阵列表达数据取自Su等人的大规模小鼠转录组分析[35](GEO加入GDS592)。通过BLAST图谱确定诊断小ORF转录物的探针。如前所述,使用Genespring 7.2版对这些数据进行分层聚类[44].
翻译和本地化分析。
对CRITICA鉴定的25个短ORF的C末端序列设计基因特异性引物,并预测其含有信号肽(SignalP)(表S2). 然后,将这些引物与载体特异性引物结合使用,扩增包含这些来自FANTOM全长cDNA克隆的已鉴定短ORF的5′UTR和ORF的区域。使用由初级PCR产物、CMV启动子片段和GFP-SV40终止子片段组成的融合PCR,生成全长线性表达结构。该全长产物由CMV启动子、待测克隆的5′UTR和短ORF组成,在ORF的C末端融合一个GFP标签,随后是SV40终止序列的两个拷贝(图S2).
融合PCR产生的线性表达构建物瞬时转染HeLa细胞。使用Effectene(Qiagen;网址:http://www.qigen.com)在24孔板中使用盖玻片上生长的细胞。将细胞固定在4%多聚甲醛中,通过GFP荧光在100倍放大倍数下观察融合蛋白的亚细胞定位。