跳到主页内容
美国国旗

美国政府的官方网站

Dot政府

gov意味着它是官方的。
联邦政府网站通常以.gov或.mil结尾。之前分享敏感信息,确保你在联邦政府政府网站。

Https系统

该站点是安全的。
这个https(https)://确保您连接到官方网站,并且您提供的任何信息都是加密的并安全传输。

访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
比较研究
.2004年5月;14(5):942-50.
doi:10.1101/gr.1858004。

Ensembl基因自动注释系统

附属公司
比较研究

Ensembl自动基因注释系统

瓦尔·科尔文等。 基因组研究. 2004年5月.

摘要

随着越来越多的基因组测序,人们越来越需要自动化的第一遍注释,以便及时访问重要的基因组信息。Ensembl基因构建系统实现了真核生物基因组的快速自动注释。它根据来自已知蛋白质、cDNA和EST序列的证据注释基因。基因构建系统位于核心集成(MySQL)数据库模式和Perl应用程序编程接口(API)之上,生成的数据可以通过集成基因组浏览器访问(http://www.ensembl.org(英语)). 迄今为止,Ensemble预测的基因集可用于冈比亚疟原虫、布里格斯疟原虫(C.briggsae)、斑马鱼(zebrafish)、小鼠、大鼠和人类基因组,并且在人类、小鼠、鼠和冈比亚疟原虫基因组序列分析的出版中得到了很大的依赖。在这里,我们详细描述了基因构建系统和所涉及的算法。所有代码和数据均可从网址:http://www.ensembl.org。

PubMed免责声明

数字

图1
图1
集合基因构建概述。大多数基因都是通过使用已知蛋白质序列来预测的,这些蛋白质序列与基因序列相一致(靶向构建和相似构建)。这些基因的UTR序列来源于cDNA与基因组序列的比对(脱矿,cDNA基因构建)。以这种方式创建的转录物然后聚集形成基因(GeneBuilder)。最后,将仅由cDNA证据支持的新基因添加到基因集,并写入数据库。
图2
图2
Miniseq:我们在基因构建的各个阶段使用基因组序列的迷你表示,以减少搜索空间并提高处理速度。我们针对基因组区域爆破一个感兴趣的序列,并用200 bp填充结果点击。然后,我们将填充的点击连接在一起,形成一个“迷你基因组”序列,其中只包含外显子序列和少量内含子序列。
图3
图3
将UTR添加到基因预测中的规则:(A类)最简单的情况是:外显子A和D的末端重合,因此外显子A被扩展到包括UTR,并且翻译起始点保持不变。外显子C和F的起始点重合,因此增加了UTR外显子,并保持了翻译停止。基因衍生外显子B的坐标优先于外显子F(B类)cDNA预测被拒绝:外显子G和I的末端以及外显子H和J的起点都不一致,因此基因预测结构没有改变。(C类)短外显子的cDNA预测:外显子K和M的末端与外显子L和N的起点重合。尽管K比M短,但它不是cDNA预测的第一个外显子,因此被保留。然而,N比L短,并且没有额外的外显子,因此被拒绝。

类似文章

  • EST基因:来自Ensembl中EST的选择性剪接。
    Eyras E、Caccamo M、Curwen V、Clamp M。 Eyras E等人。 基因组研究,2004年5月;14(5):976-87. doi:10.1101/gr.1862204。 基因组研究,2004年。 PMID:15123595 免费PMC文章。
  • 【通过新人类基因的电子克隆和实验验证,对NCBI人类基因数据库中出现的模型refseq的一些错误进行分析、识别和纠正】。
    张DL、纪L、李YD。 张德林等。 《易传血宝》。2004年5月;31(5):431-43. 《易传血宝》。2004 PMID:15478601 中国人。
  • 使用Ensembl浏览基因组:实用概述。
    Spudich G、Fernández Suárez XM、Birney E。 Spudich G等人。 功能基因组蛋白质组简介。2007年9月;6(3):202-19. doi:10.1093/bfgp/elm025。Epub 2007年10月29日。 功能基因组蛋白质组简介。2007. PMID:17967807
  • 合奏概述。
    Birney E、Andrews TD、Bevan P、Caccamo M、Chen Y、Clarke L、Coates G、Cuff J、Curwen V、Cutts T、Down T、Eyras E、Fernandez-Suarez XM、Gane P、Gibbins B、Gilbert J、Hammond M、Hotz HR、Iyer V、Jekosch K、Kahari A、Kasprzyk A、Keefe D、Keenan S、Lehvaslaiho H、McVicker G、Melsopp C、Meidl P、Mongin E、Pettett R、Potter S、Proctor G、Rae M、Searle S、,Slater G、Smedley D、Smith J、Spooner W、Stabenau A、Stalker J、Storey R、Ureta-Vida A、Woodwark KC、Cameron G、Durbin R、Cox A、Hubbard T、Clamp M。 Birney E等人。 基因组研究,2004年5月;14(5):925-8. doi:10.1101/gr.1860604。Epub 2004年4月12日。 基因组研究,2004年。 PMID:15078858 免费PMC文章。 审查。
  • 基于序列同源性的伪基因注释计算方法。
    哈里森首相。 哈里森首相。 方法分子生物学。2021;2324:35-48. doi:10.1007/978-1-0716-1503-4_3。 方法分子生物学。2021 PMID:34165707 审查。

引用人

工具书类

    1. Altschul,S.F.、Gish,W.、Miller,W.,Myers,E.W.和Lipman,D.J.,1990年。基本本地对齐搜索工具。分子生物学杂志。215: 403-410.-公共医学
    1. Altschul,S.F.,Madden,T.L.,Schaffer,A.A.,Zhang,J.,Z.,Miller,W.和Lipman,D.J.,1997年。缺口BLAST和PSI-BLAST:新一代蛋白质数据库搜索程序。核酸研究25:3389-3402。-项目管理咨询公司-公共医学
    1. Birney,E.、Clamp,M.和Durbin,R.,2004年。基因和基因组。基因组研究(本期)。-项目管理咨询公司-公共医学
    1. Boeckmann,B.,Bairoch,A.,Apweiler,R.,Blatter,M.C.,Estreicher,A.,Gasteiger,E.,Martin,M.J.,Michoud,K.,O'Donovan,C.,Phan,I.等人,2003年。2003年的SWISS-PROT蛋白质知识库及其补充TrEMBL。核酸研究31:365-370。-项目管理咨询公司-公共医学
    1. Boguski,M.S.、Lowe,T.M.和Tolstoshev,C.M.,1993年。dbEST–表示序列标签的数据库。自然遗传学。4: 332-333.-公共医学

出版物类型

MeSH术语