核酸研究。2001年1月1日;29(1): 159–164.
TIGR基因指数:分析高采样真核生物的基因转录序列
9712医学中心基因组研究所Drive,Rockville,马里兰州20850,美国
一收件人信件应寄给谁。电话:+1 301 8383528; +1 301 838 0208; 电子邮件:gro.rgit@qnhoj现住址:Feng Liang,美国马里兰州罗克维尔生命科技公司,邮编:20850 2000年10月12日收到;2000年10月17日接受。
摘要
基因组测序项目进展迅速,EST测序分析仍然是鉴定的主要研究工具以及各种物种的基因序列分类是基因组序列注释的重要资源。TIGR基因指数(http://www.tigr.org/tdb/tgi.shtml网站)是一个物种特定数据库的集合分析EST序列以尝试识别的改进协议数据所代表的基因,并提供额外信息关于那些基因。首先通过聚类构建基因指数,然后组装来自GenBank的EST和注释基因序列目标物种。这个过程产生了一套独特的高保真度虚拟成绩单或临时共识(TC)序列。TC序列可用于提供具有功能的假定基因注释,将转录本与绘图和基因组序列联系起来数据,以提供同源和同源基因之间的链接,以及作为比较序列分析的资源。
简介
真核生物基因组的测序进展惊人费率。果蝇,黑腹果蝇,已发布2000年春天,拟南芥,一个植物模式生物,最近完成,一个草案质量的人序列现在可用,小鼠、大鼠和大米正在生产中。然而,对于许多科学生物来说,经济或农业利益,完整的基因组测序不太可能在可预见的未来完成,以及测序表达序列标签(EST)(1)仍然是基因组探索和功能性研究的主要工具基因组学项目。GenBank中有近500万个EST(近其中一半是人类),以及所代表的物种数量在过去一年中,EST急剧增加了50000或更多(http://www.ncbi.nlm.nih.gov/dbEST/dbEST_summary.html).
即使对于已完成的基因组,EST数据仍然是基因鉴定、基因组注释和比较基因组学。无论最终如何使用EST,它们的价值都会非常显著如果数据用于重建高保真集,则增强非冗余抄本。有许多公开可用的试图为某些物种提供此类分析的数据库,包括UniGene(2)和STACK(三). 然而,TIGR基因指数(4)在数量上是唯一的物种调查,采用构建个体的方法物种特定数据库,以及它们可以采用的方式已使用。
TIGR基因指数为人类提供了实验分析人类疾病模型,如小鼠和大鼠,有价值的农作物以及其他重要的实验生物EST测序。21个物种的TIGR基因指数保持不变,包括15种取样最多的生物体,马铃薯和5种寄生真核生物,目前是基因组测序项目的主题。EST测序的现状和当前可用的TIGR基因指数见表.
表1。
2000年11月29日来自dbEST的EST序列条目对于具有相应TIGR的最重采样生物体基因指数及其最新发布日期
物种
| 条目
| TIGR基因指数
| 发布日期
|
人类智人(人类) | 2 454 447 | HGI 6.0标准 | 2000年6月30日 |
小家鼠+陪审推事(鼠标) | 1 661 949 | MGI 5.0版 | 2000年10月11日 |
大鼠服务提供商。(老鼠) | 188 736 | RGI 4.1标准 | 2000年8月11日 |
牛头怪(牛) | 126 879 | BtGI 2.0版 | 2000年9月26日 |
甘氨酸最大值(大豆) | 121 051 | GmGI 3.0标准 | 2000年7月12日 |
拟南芥塔利亚纳(水芹) | 112 467 | AtGI 4.0 | 2000年7月8日 |
隐杆线虫病雅致(线虫) | 101 252 | CeGI 2.0版 | 2000年8月13日 |
果蝇属黑腹食肉动物(果蝇) | 91 055 | DGI 3.0 | 2000年8月2日 |
番茄红素焦痂(西红柿) | 87 680 | LGI 5.0版 | 2000年8月4日 |
达尼奥雷里奥(斑马鱼) | 73 703 | ZGI 5.0版 | 2000年8月2日 |
Zea mays公司(玉米) | 73 698 | ZmGI 3.0系列 | 2000年7月13日 |
Medicago公司截形(枪管医生) | 72 828 | MtGI 1.0 | 2000年7月11日 |
水稻萨提瓦(大米) | 62 126 | OsGI 4.0版 | 2000年8月3日 |
高粱双色的(高粱) | 45 265 | SbGI 1.0版 | 2000年9月18日 |
小麦普通小麦(小麦) | 44 132 | TaGI 1.0型 | 2000年10月3日 |
血吸虫曼索尼(血吸虫) | 12 959 | SmGI 1.0版 | 2000年7月26日 |
锥虫克鲁兹语 | 9919 | TcGI 1.0型 | 2000年3月24日 |
茄属植物块茎(土豆) | 8582 | StGI 1.0标准 | 2000年7月19日 |
锥虫布吕西罗得西亚 | 4821 | TbGI 1.0 | 2000年3月28日 |
疟原虫恶性疟原虫(疟疾寄生虫) | 2871 | PfGI 1.0版 | 2000年9月18日 |
利什曼原虫专业 | 2191 | LshGI 1.0级 | 2000年4月18日 |
序列总数 | 5 358 611 | | |
为了创建TIGR基因指数,我们开发了一个高度精细的,经过严格测试的清洁、集群和组装协议EST和基因序列产生高保真一致序列对于代表的基因,同时消除低质量、误聚类或嵌合体序列(5). 这个与竞争方法相比有几个优势:它紧密分离相关基因进入不同的一致序列,分离剪接变量,并生成基础的更长表示基因序列。由此产生的初步共识(TC)序列可用于真核生物基因组序列注释(6,7),复杂测图数据的集成与同源性鉴定基因。
基因指标的构建
每个基因索引使用相同的过程进行组装。对于每个物种,EST序列从dbEST下载并修剪到删除删除向量、polyA/T尾部、适配器序列和污染细菌序列。基因序列(NP序列)通过Entrez从GenBank中的CDS和CDS-join特性解析记录;获得额外的表达转录(ET)序列来自TIGR EGAD数据库(http://www.tigr.org/tdb/egad/egad.html).
然后使用FLAST对EST和基因序列进行比较,FLAST是一种快速基于DDS的序列比较程序(8),其中查询序列首先串联,然后进行搜索针对核苷酸数据库。序列至少具有95%的一致性超过40 nt或更长的区域,且不匹配的碱基少于20个序列的两端被分组成一个簇。每个集群然后单独组装。对于每个集群,组件EST、NP下载ET序列,然后组装这些序列使用CAP3(9)生产TC。程序集为每个集群生成一个或多个一致序列并拒绝任何嵌合、低质量和非重叠序列。每个集群以相同的方式组装,直到整个集群已用尽个集群中的个。加载生成的TC集进入适当的物种特异性基因索引数据库进行注释。
组装后,对TC进行注释,以提供临时功能转让。含有已知基因的TC被赋予功能基因;使用搜索没有分配功能的TCDPS(分布式电源系统)(8)对抗非冗余蛋白质数据库;得分高的点击被赋予了一个假定的功能。对于指定了人类、小鼠和大鼠基因指数和绘图位置通过使用e-PCR(10)。生成的基因指数通过TIGR网站(http://www.tigr.org/tbd/tdb.html);人类基因索引中的THC示例如图所示.
人类的THC示例基因指数。一致序列以FASTA格式表示下面是基因序列(红色)和EST的位置组成组件的部件及其各自的位置如图所示在程序集中。提供了到GenBank记录的链接,内部TIGR测序的所有EST的数据以及可通过以下途径获得的克隆ATCC。这个THC被分配了一个假定的ID“胰岛素受体抑制剂,肌肉',因为它含有HT853(as以及GenBank中的基因序列)。
基因索引可以通过TC编号、GenBank登录进行搜索数据集中包含的任何EST或用于构建索引。用户可以执行基于组织的搜索,其中EST记录中的图书馆信息用于生成northern blot’,鉴定表达的组织特异性基于EST相对丰度。DNA和蛋白质序列可以也用于使用WU-BLAST搜索基因指数(http://www.tigr.org/cgi-bin/BlastSearch/blast_tgi.cgi),由Warren Gish(华盛顿大学,密苏里州圣路易斯)。
维护TIGR基因索引和组件TC组件在允许版本控制和可继承性的Sybase关系数据库中需要维护。每次创建数据库的新版本时,新组件,由先前组件的连接或拆分引起TC被分配一个新的、唯一的TC标识符。以前使用的标识符永远不会被重用,并且关于以前程序集的信息永远不会被重用迷路的。使用以前生成的TC标识符进行数据库查询返回该程序集的最新版本。这允许程序集在提供跟踪的同时,随着可用数据的增多而不断发展构建以构建和维护跨多个发布。
直方图和PARALOGS的识别
人类和拟南芥基因组代表重大科学成就并为其奠定基础用于其他动植物基因组的测序,包括老鼠、老鼠和大米。这些数据预示着前所未有的机遇用于功能和进化研究,包括识别基因和非编码调控区的功能注释。这种分析的效用取决于同源物的鉴定跨物种的基因和广泛数据的整合生物。同源基因可以分为两类,即同源基因和Paralog(11). 直系同源是执行相同生物功能的同源基因不同的物种,但由于进化而在序列上发生了分化分离;Paralog是一个物种中的同源基因是血统内基因复制事件的结果。这个正交曲线的研究特别重要,因为它假定这些基因起着类似的发育或生理作用,因此,应该共享保守的功能和调节域。
虽然基因组测序将提供大量数据表明,对于许多物种来说,EST是基因的主要来源序列数据。我们开发了两种不同的方法来同源基因的鉴定与表达序列数据:TIGR同源基因比对(TOGA)数据库以及基于序列的基因组比对。
TOGA数据库于2000年1月推出首次尝试使用基因和EST序列鉴定同源基因资源。目前,TOGA分为单独的部分哺乳动物和植物;哺乳动物切片由直系骨组成来自人、鼠、鼠和牛,而植物部分包括拟南芥、米饭、番茄、土豆、,Medicago公司,大豆和玉米。而来自这些物种代表着一个重大的计算挑战,通过使用包括TIGR基因指数。
对于TOGA中包含的每个物种将各自的基因指数成对进行比较。暂定正射影像组(TOG)通过要求相互最佳点击来确定三个或三个以上的物种,至少75%的身份超过对于任何单个序列匹配,长度为400 bp或更长。高取芯未达到对等最佳命中率标准的命中率,但使用相同标准对现有TOG的匹配成员进行分类作为暂定Paralogs。根据这些标准,确定了8300个TOG含有四种哺乳动物中三种或三种以上的TC在调查的8种植物中,有3074种。分布表中总结了TOGA中代表的物种。哺乳动物TOG的示例可以在图.
TOGA中的TOG示例数据库。人类、小鼠和大鼠的TC都包含注释基因;小鼠和大鼠体内的病毒已被鉴定为“类沥青”人类基因被简单地注释为“HSPC162”牛TC仅由EST组成。严格的重叠标准用于构造TOG使得这些匹配不太可能是虚假的,并为之前未分类的人类和牛基因和EST序列。
表2。
TOGA数据库最新版本的统计信息显示了各种尺寸的TOG的相对数量(不包括paralogs)
TOG尺寸一
| 哺乳动物
| 植物
| 总计
|
三 | 6111 | 1948 | 8059 |
4 | 2189 | 689 | 2878 |
5 | | 279 | 279 |
6 | | 109 | 109 |
7 | | 39 | 39 |
8 | | 10 | 10 |
TOG总数 | 8300 | 3074 | 11 374 |
与TIGR基因索引一样,TOGA是一个关系数据库将TOG维护为可跟踪的可访问对象跨后续版本。TOG可以使用基于名称的搜索,允许用户输入基因名称和外观用于近似匹配或使用WU-BLAST(12)搜索数据集。TOGA位于http://www.tigr.org/tdb/toga/toga.shtml网站.有关WU-BLAST的更多信息,请访问http://blast.wustl.edu.
通过检查可以获得更多的种间信息TIGR基因中EST和基因序列数据的比对参考动植物基因组的指数。使用完成的基因组拟南芥我们把路线制成表格具有染色体的各种TIGR植物基因指数的TC顺序(http://www.tigr.org/tdb/at/alignTC.html).染色体上注释基因区域的比对示例图中可以看到II。我们已完成使用最近发表的人类21号和22号染色体的长臂。
TC与具有序列的TIGR植物基因指数拟南芥塔利亚纳染色体II。一种假定酪蛋白激酶的编码序列II催化亚基与同一基因具有显著同源性在其他植物中拟南芥基因组学序列和各种植物TC。这个基因很保守单子叶植物和双子叶植物。在一些物种可能代表Paralog、基因家族、选择性剪接形式或部分TC组件。
使用TIGR基因指数
有效利用基因组资源进行功能性、比较性和进化研究将依赖于开发准确的目录每个物种编码的基因以及相互参照的工具各种有趣的基因组。TIGR基因指数与TOGA数据库表示首先提供此类资源的工作尝试识别和注释各种生物体中的基因然后提供机制以链接到中的候选正交曲线其他物种。
用户可以通过多种方式进入TIGR基因指数。例如,辐射混合映射数据允许用户搜索映射到候选的TC序列基因组区域。其他用户可以搜索似乎是以组织特异性方式表达或含有来自一种特殊的疾病状态。然而,最常见的入口点对于大多数用户来说,是序列搜索页面(http://www.tigr.org/cgi-bin/BlastSearch/blast_tgi.cgi).WU-BLAST包的BLASTN和TBLASTN版本实现了允许使用DNA和蛋白质查询。路线对所搜索生物体中的高分TC和单例EST返回,用户可以通过单击查看适当的序列在TC编号或EST ID上,用户可以看到相应的显示与图中的相似.这些TC可用于识别TOGA数据库中的TOG或搜索基因组序列比对。
除Web界面外,还提供TIGR基因索引作为平面文件。FASTA中提供了TC共识序列格式化文件;包含每个TC的EST在单独的文件。许多用户参与了基因组序列注释在cDNA微阵列数据分析中发现有用。
结论
越来越多的物种受到基因组的影响分析,迅速加快基因发现的步伐功能基因组学应用。对于大多数物种,EST测序仍然是基因组序列分析的主要方法。TIGR基因指数,代表最全面、最公开的EST序列的分析在过去一年中得到了显著扩展,添加10个额外的物种特定数据库。此外,我们扩大了我们提供的资源的范围和效用通过TOGA数据库和基因组进行跨物种比较序列比对。
TIGR基因指数已被证明对注释基因组序列和EST的功能分析。它们是可用的通过学术和非营利用途的免费许可证;商业许可证可以付费使用。有兴趣获得许可证的各方应该访问http://www.tigr.org/tdb/license.html或电子邮件gro.rgit@esnecil公司.
致谢
作者得益于A.Glodek的数据库开发。这个作者还要感谢M.Heaney和S.Lo对数据库的支持,以及V.Sapiro、B.Lee、S.Gregory、R.Kramchedu、C.Irwin、M.Sengamalay和E.Arnold负责计算机系统支持。这项工作得到了支持美国能源部授予DE-FG02-99ER62852和美国国家科学基金会,授予DBI-9983070。其他支持是由美国国家科学基金会通过拨款DBI-9813392提供和DBI-9975866。J.Q.获得了国家科学基金KDI-9980088赠款的部分支持。
参考文献
1Adams医学博士。,Kelley,J.M.、Gocayne,J.D.、Dubnick,M.、Polymeropoulos,M.H.M.、Xiao,H.、。,Merril,C.R.、Wu,A.、Olde,B.、Moreno,R.F.、。等。(1991)互补DNA测序:表达序列标签与人类基因组计划。科学,252, 1651–1656. [公共医学][谷歌学者] 2Boguski M.S.和Schuler,G.D.(1995)建立人类转录图。自然遗传学。,10, 369–371. [公共医学][谷歌学者] 三。伯克·J·。,Wang,H.、Hide,W.和Davison,D.B.(1998)《替代方案》基因索引中的基因形式发现和候选基因选择项目。基因组研究。,8, 276–290.[PMC免费文章][公共医学][谷歌学者] 4Quackenbush J。,Liang,F.、Holt,I.、Pertea,G.和Upton,J.(2000)。TIGR基因指数:表达基因序列的重建和表示。核(Nucleic)酸类研究。,28, 141–145.[PMC免费文章][公共医学][谷歌学者] 5梁飞。,Holt,I.、Pertea,G.、Karamycheva,S.、Salzberg,S.L.和Quackenbush,J。(2000)EST序列分析的优化协议。核(Nucleic)酸类研究。,28, 3657–3665.[PMC免费文章][公共医学][谷歌学者] 6林X。,Kaul,S.、Rounsley,S.,Shea,T.P.、Benito,M.I.、Town,C.D.、Fujii,C.Y.、。,梅森,T.,鲍曼,C.L.,巴恩斯泰德,M。等。(1999)植物2号染色体的序列与分析拟南芥塔利亚纳.自然,402, 761–768. [公共医学][谷歌学者] 7梁飞。,Holt,I.、Pertea,G.、Karamycheva,S.、Salzberg,S.L.和Quackenbush,J。(2000)人类基因组估计的基因指数分析大约12万个基因。自然遗传学。,25, 239–240. [公共医学][谷歌学者] 8黄X。,Adams,M.D.,Zhou,H.和Kerlavage,A.R.(1997)工具用于分析和注释基因组序列。基因组学,46, 37–45. [公共医学][谷歌学者] 11惠誉W.M.(1970)区分同源蛋白质和类似蛋白质。系统。Zool(动物园)。,19, 99–113. [公共医学][谷歌学者] 12Altschul S.F.公司。,Gish,W.、Miller,W.,Myers,E.W.和Lipman,D.J.(1990)基础局部对齐搜索工具。分子生物学杂志。,215, 403–410. [公共医学][谷歌学者]