微生物、病毒和线粒体RefSeq的治疗
微生物、病毒和后生动物线粒体参考序列对从原始文件传播的内容验证记录GenBank(基因银行)在公开之前提交,包括分类法、出版物和注释。此内容可以由美国国立生物技术信息中心策展人员。
对于微生物基因组,一组最小注释标准(描述在这里)在所有旧版和新版上自动提供参考序列记录。这些包括核糖体RNA、转移RNA和带有locus_tags的蛋白质编码基因。利用BLASTn工具预测核糖体RNA核糖核酸序列数据库和/或使用Infinal(Eddy,2002)和Rfam模型(Griffiths-Jones等人,2003)。使用tRNAscan-SE预测转移RNA(Lowe和Eddy,1997)。可根据外部来源或文献综述添加高于最低标准的其他注释。与关联的批注美国国立生物技术信息中心的蛋白质簇数据库也按选定的间隔传播到RefSeq记录(蛋白质和基因)。这个蛋白质簇数据库是从完整基因组中收集的RefSeq蛋白,广泛组织为以下组:原始基因组和细菌基因组和质粒、病毒、原生生物、植物、叶绿体和线粒体,并根据序列相似性和蛋白质功能进行注释。这种聚类可以将整个组作为一个集合来管理,允许特征明确的蛋白质在同一个集合中为研究较少的蛋白质提供注释集群.NCBI员工使用其他数据库中的文献和信息,包括UniProtKB/Swiss-Prot公司,用标准化的蛋白质名称、生化描述和其他数据注释每个簇,然后将其转移到相关RefSeq记录中的单个蛋白质。微生物基因组RefSeq记录通常具有临时的回顾.
病毒基因组的注释依赖于一组已建立的病毒RefSeq基因组顾问,的成员国际病毒分类委员会,以及外部的其他专家美国国立生物技术信息中心例如艾滋病咨询门诊-1参考序列(NC_001802号)由NCBI工作人员与本书作者合作策划逆转录病毒许多腺病毒和疱疹病毒记录都是由外部专家管理的。根据文献综述,NCBI馆长可以修改客户尽职调查和核糖核酸注释与GenBank(基因银行)提交,与麻疹病毒RefSeq记录一样(NC_001498号). 病毒参考序列记录管理期间使用的其他NCBI资源包括蛋白质簇数据库和PASC公司是一种病毒分类工具,用于验证跨多个分类家族的病毒RefSeq记录的分类。NCBI还维护了几个专用的注释管道,用于病毒变异和流感病毒资源。手动管理的病毒RefSeq记录用属于检验过的或已验证在RefSeq COMMENT块中。
后生动物线粒体参考序列记录、标准化蛋白质、基因和核糖核酸名称的注释独立于物种特定的命名指南。其他管理可能包括添加通用名称或缺失tRNA,并根据蛋白质簇数据库。固化后生动物线粒体记录用注释属于检验过的.非介形虫和植物叶绿体RefSeq记录未经整理,完全来自原始记录INSDC公司提交,并具有属于临时的.
对于目标基因座,来自GenBank(基因银行)提交不包括在参考序列记录。可以修改任何要素注释以表示标准格式,以及引用原始格式的集合标识符和出版物GenBank(基因银行)可以添加提交。
脊椎动物和无脊椎动物记录的治疗
高等真核生物的治疗主要集中在哺乳动物基因组上,尤其是人类和小鼠,但也包括许多其他具有现有或计划基因组组装的物种。这个参考序列对这些生物的处理提供了转录物和蛋白质记录以及代表基因簇或假基因的一些基因组区域记录;这些基因组区域记录有助于全基因组注释。因为RefSeq使用独立于基因组集合的证据来表示RNA和蛋白质,所以数据集可以表示当前不属于该基因组集合的序列。RefSeq处理集成了官方术语和其他信息,包括备用名称,基因本体论(GO)术语、文献和基因重组转录因子在中可用基因多个协作支持此描述性信息的收集(; 另请参见第19章).
序列输入参考序列通过计算分析、协作和内部管理相结合的管理处理。如所示,初始RefSeq记录的生成取决于识别基因的代表性序列。新的基因和序列数据被添加到内部版本的基因数据库由RefSeq管理员、合作者、,美国国立生物技术信息中心的基因组注释管道,以及基于NCBI的非重复序列,cDNA路线,以及INSDC公司提交。定期执行质量评估(QA)流程,以识别有问题的数据以供审查。这些评估包括对命名、序列相似性、基因组位置和潜在克隆错误的分析(例如,嵌合体)。QA步骤还利用其他NCBI资源的数据,包括同源基因,图谱浏览器、和GenBank(基因银行)相关序列。数据冲突必须在INSDC公司提交用于生成RefSeq记录。
与明确关联的序列记录基因记录可以传播到参考序列记录。序列的完整性(例如,完整与部分客户尽职调查)和基因的类别(例如、蛋白质编码、,假基因)确定是否将生成RefSeq,如果是,则确定类型(DNA,核糖核酸,信使核糖核酸加上蛋白质)。RefSeq记录不是针对不完整蛋白质、转座元件或产品类型不确定的位点(例如,蛋白质编码与否)。然而,应该注意的是,RefSeq集合确实包括合作小组提供的部分转录物和蛋白质,或者当RefSeq基于提交给INSDC公司.
一旦确定了合适的“源”序列参考序列记录是使用来自INSDC公司内部版本的提交和注释数据基因数据库。信息来自基因包括基因ID、与其他数据库的交叉引用、官方命名法、别名、替代描述性名称、地图位置和引文,包括作为GenerRIF提交的那些。RefSeq记录还需要进行编程验证,以识别注释格式错误,并以更一致的格式提供注释。此阶段的记录具有临时的,预测的,或INFERRED(参考)
根据现有证据支持基因记录。
参考序列非蛋白编码的处理核糖核酸基因座使用与基因记录相关的最长定义转录记录。对于非转录位点(如非转录假基因),RefSeq记录通常来自较大基因组序列的一个区域。对这些类型记录的处理很少,因为当前的重点是对蛋白质编码位点的处理;然而,这些记录为计算注释管道提供了重要的试剂,并支持非蛋白质编码基因的注释,否则这些基因可能会被遗漏或误传为预测的蛋白质编码基因。
其他参考序列提供的记录代表了更大的基因组区域,包括参考SeqGene序列、基因簇、需要重排才能表达产物的基因(免疫球蛋白和T细胞受体)以及已知基因含量差异的单倍型。这些基因组区域记录注释为美国国立生物技术信息中心策展人员通常与科学专家合作,而不是由自动处理提供。
参考SeqGene,国际基因座参考基因组的合作伙伴(液化天然气)合作,提供稳定的参考标准基因组,核糖核酸和蛋白质RefSeqs用于医学上重要的基因。这些标准支持HGVS公司用于描述病历中序列变异的表达式,因此被构造为代表标准等位基因。这个参考SeqGene通常代表一个基因,位于序列的正链上,上游5kb,下游2kb。参考SeqGene记录还包括参考序列基因的转录本。上注释的所有序列参考SeqGene复习一下属于已验证或检验过的.
脊椎动物和一些无脊椎动物的额外管理参考序列记录应公共用户和合作者的要求或内部QA分析的指示进行。QA分析关注但不限于:,同源基因-基于不一致蛋白质长度的报告,具有重复元素的RefSeq的鉴定,关于基因与序列关联或潜在冗余基因的问题,以及在基因组上一次注释的基因的报告,但在随后的基因组再注释中没有注释。此外,还对人类和小鼠进行了基于比对的测试,以确定RefSeq记录与基因组的比对质量较差、非感觉剪接或非常短或非常长的外显子。由技术娴熟的馆长对这些记录进行审查,得到了当时可用的最新和最完整的核苷酸和蛋白质序列表示和特征注释。序列审查可以删除载体和连接子序列,扩展UTR以定义全长转录本,修改客户尽职调查与原始文档关联的注释INSDC公司源加入,或创建额外的RefSeq记录来表示替代拼接的产品。RefSeq转录本和蛋白质记录中可以添加各种特征注释。对于核苷酸记录,这些包括转录完整性的指示、poly(A)信号和位点的位置以及序列变异和核糖核酸编辑。外显子注释仅用于人类和小鼠的RefSeq转录本和非转录假基因;对于成绩单,外显子注释通过转录本与参考基因组组装的比对确定,使用拆分,对于非转录假基因,来自拆分(Splign)功能基因与假基因基因组区域。对于蛋白质记录,特征注释可能包括替代或非AUG起始密码子,酶委员会(欧盟委员会)数量、成熟肽产物、蛋白质结构域和硒代半胱氨酸残基。最后,文献综述是替代名称、别名和功能信息的另一个来源,后者可用于在RefSeq记录上构建参考序列摘要。经过完整审查过程的RefSeq记录具有检验过的
请注意,对于许多基因,人工管理的中间水平可能只解决与RefSeq序列有关的问题;这些记录有审查属于已验证等待全面审查。
审查过程可能导致更新参考序列记录,提供新的RefSeq记录,修改序列到基因关联,合并基因记录,或中断RefSeq,基因ID或两者兼而有之。如果发现RefSeq记录代表来自错误有机体的转录重复元素,则该记录将被抑制(即,的INSDC公司它所基于的序列有错误的有机体注释),或者不代表“基因”。被确定代表不完整序列的记录,例如部分蛋白质序列或不完全剪接的转录本,将被暂时抑制,直到获得更完整的序列数据。仍然可以检索被抑制的记录,并且在查询结果文档摘要中会显示免责声明(). 禁止的记录不包括在爆炸数据库,在计算相关序列时,在眨眼显示(BLink是预先计算的蛋白质BLAST结果),或在参考序列FTP发布。如果发现一个RefSeq与另一个公共RefSeq冗余,则一个被保留,另一个成为次要的(). 如果序列与两个不同的基因记录相关联,则合并记录,以便查询基因使用其中一个原始GeneID将检索剩余的单个记录。
抑制或冗余RefSeq记录。(A) Entrez文档摘要中包含标准文本语句,用于抑制RefSeq记录。(A) 如果合并了冗余RefSeq记录,则平面文件accession行上会显示两个登录号(更多…)
我们欢迎研究界的投入,以提高参考序列收藏。欢迎感兴趣的各方通过发送电子邮件至美国国立生物技术信息中心帮助台(vog.hin.mln.ibcn@ofni网站)或者使用我们的反馈表.