美国国旗

美国政府的官方网站

上次更新时间:2023年1月5日

NCBI和EMBL-EBI(MANE)的匹配注释

MANE是什么?

MANE项目-来自美国国立生物技术信息中心EMBL-EBI公司(MANE)是一个合作项目,旨在聚合人类基因和转录注释,并为人类蛋白编码基因定义一组全基因组的代表性转录物和相应的蛋白质。每个MANE转录本表示Refseq转录本与其在Ensemb/GENCODE注释中的对应物在外显子区域中的精确匹配,以便两个标识符可以同义使用。此外,MANE转录本与GRCh38参考基因组组合完全匹配,并且是根据转录表达水平和编码区保守性等生物学相关标准选择的。目前,该项目的可交付成果包括:

MANE选择:MANE选择集由基因组中每个蛋白编码位点的一个转录物组成,该转录物代表该位点的生物学特性。这一集合作为临床报告的通用标准,作为浏览器和关键基因组资源上显示的默认标准,以及作为比较或进化基因组学的起点,都很有用。MANE Select成绩单使用计算方法识别,并辅以手动审查和讨论。

MANE Plus临床:MANE Plus Clinical集合包括基因的额外转录物,其中MANE Select单独不足以报告公共资源中可用的所有“致病性(P)”或“可能致病性(LP)”临床变体。

观看YouTube上的MANE网络研讨会!

引用MANE

请使用以下出版物引用MANE:Morales,J.、Pujar,S.、Loveland,J.E.等人。临床基因组学和研究的NCBI和EMBL-EBI联合转录集。自然。2022年4月;604(7905):310-315.公共医学;公共医学中心; 内政部:10.1038/s41586-022-04558-8

理论基础

而NCBI的参考序列和EMBL-EBI的乐团/GENCODE(通用代码)注释有相似之处,它们在转录水平上可能不同。代表特定剪接结构或编码序列的转录本可能在两个基因集中的一个中缺失。此外,代表相同剪接结构的转录本可能在非翻译区(UTR)的长度上不同,或者由于SNP而存在序列不匹配。因此,使用首选基因集设计研究并报告结果的研究人员可能会发现很难将他们的工作传达给科学界的其他人。数据资源,如基因组浏览器和变异数据库,也可能使用不同的注释集来表示默认的转录本,这可能会引起混淆。匹配的MANE转录本在RefSeq和Ensembl/GENCODE注释集中是相同的,当在大多数公共基因组资源中表示时,预计将有助于科学界之间更好地交流和交换数据。此外,MANE数据集代表了由专家馆长支持的高质量注释子集,以及NCBI和EMBL-EBI的综合计算强度。

MANE选择

作为MANE项目的第一步,2018年12月,NCBI和EMBL-EBI联合发布了第一个版本的MANE Select(MANE v0.5),覆盖了53%的人类蛋白编码基因。从那时起,我们已经提供了十个增量MANE版本。当前版本(MANE版本1.0)涵盖99%的人类蛋白编码基因和99.8%的临床相关基因,包括美国医学遗传学与基因组学院(ACMG)次级发现列表(SF)v3.0中的基因。

MANE选择方法

选择成绩单

最初,NCBI和EMBL-EBI的独立管道为每个基因选择“选择”转录本。“RefSeq Select”管道在RefSeq选择部分Ensembl管道使用类似的标准来选择“选择”转录本,尽管实现略有不同。

MANE选择流程图

图1。显示MANE Select成绩单指定步骤的流程图。

比较两个管道生成的转录集以识别匹配对,此时匹配被定义为相同的剪接结构和相同的编码序列(CDS)。当匹配对不可用时,来自两个组的专家馆长检查成绩单并通过以下方式创建匹配:1)将RefSeq或Ensemble的管道选择“选择”切换为不同的成绩单,或2)在其中一个注释集中没有匹配成绩单时创建新成绩单,或3)更新其中一个注释集中抄本的编码区域,以匹配来自另一个注释集的管道选择,这被认为是错误的。

匹配的成绩单结束

一旦剪接结构和编码区域匹配,下一步就是匹配匹配对中两个转录本的转录起始和结束坐标。

成绩单开始:NCBI开发了一种方法来利用一种称为CAGE(基因表达的cap分析)的高通量测序技术,该技术专门捕获基因的5'端。我们使用了来自FANTOM财团确定最可能使用的转录起始位点(TSS)。重新处理来自FANTOM5数据集的预计算CAGE数据(图2)至a) 合并彼此接近的簇(50个碱基内),以及b) 将TSS重新计算为簇内最5'的碱基位置,标记数至少为簇内最大CAGE标记数的核苷酸位置的50%。再处理的目标是确定一个代表整体数据的常用TSS,而不是具有绝对最大标记数的TSS。

MANE 5prime端

图2:匹配转录物5'端的测定(基因地中海16). 这张来自NCBI的Genome Data Viewer的屏幕截图显示了评估转录本5'端的几个有用的数据轨迹。屏幕截图的“RefSeq-processed FANTOM CAGE peaks”轨迹(黑色水平条)表示RefSeq-processed-CAGE集群,而“FANTOM5 CAGE pecks,robust set”轨迹中的绿色条是来自FANTOM4数据的CAGE集群。垂直红色突出显示标记计算的转录起始位点(TSS)。匹配的RefSeq和Ensembl转录本(见“基因,MANE项目(0.6版)”跟踪)已更新为使用该TSS。计算出的TSS与整体常规转录数据的5'端非常吻合(如INSDC转录覆盖轨迹所示)。

成绩单停止:转录的最后一个基是根据来自传统转录物的聚腺苷化转录物数据以及高通量polyA-seq研究确定的(项目管理标识号:30840896,PMID:30143597,PMID:29891946,PMID:29234016,PMID:26801249,项目管理标识号:26765774,电话:25906188PMID:22454233). 3'非翻译区(3'UTR)的最大范围是根据传统的聚腺苷化转录物确定的(如果可用)。与CAGE数据一样,聚腺苷酸化簇是使用多个高通量polyA-seq研究的数据计算的,簇中序列读取计数至少为簇中最大计数50%的3’-最多的核苷酸被确定为转录本的最后一个碱基(图3).

MANE 3初级端

图3:转录末端的测定(基因NDUFS7型). 这张来自NCBI的Genome Data Viewer的屏幕截图显示了评估转录本3'端的几个有用的数据轨迹。上面的数据轨迹显示RefSeq和Ensembl注释集中转录的不同末端。“polyA位点和簇”轨迹显示了根据多个polyA-seq研究计算出的聚腺苷酸化(polyA)簇(红色横条)。每个polyA簇都与一个polyA信号特征(水平绿色条)相关联。在polyA簇内,polyA位点(polyA集群下方的黑色填充矩形)代表转录末端。计算出的polyA位点(绿色垂直突出显示)对应于常规转录数据中最常用的polyA-位点(底部的转录多聚腺苷末端轨迹)以及转录覆盖图的末尾(见INSDC转录覆盖轨迹)。

MANE Select转录本的显著特征

  1. 人类蛋白编码基因的MANE-Select转录本由一对注释相同的转录本、RefSeq转录本(带有NM_标识符)和Ensembl转录本(具有ENST标识符)组成。这对转录本中的两个转录本具有相同的序列和剪接结构以及相同的起始和终止坐标。
  2. MANE Select集合仅包括来自RefSeq和Ensembl/GENCODE注释集合的精选抄本。
  3. MANE-Select转录本与GRCh38人类参考基因组组装序列完全匹配。MANE转录本与GRCh37.p13和其他人类集合(如T2T-CHM13v2.0)的映射有助于对这些集合进行临床解释,但用户在将变体映射到MANE抄本时需要考虑序列差异。
  4. MANE Select转录本的更改,包括序列更改和/或转录标识更改,可能会在极少数情况下发生,但我们的目标是稳定集合,并且仅出于令人信服的原因进行更改。

手动管理MANE数据

虽然大多数MANE Select成绩单是通过计算选择的,但有时管道由于各种原因(例如,缺乏数据或数据不足,无法做出明确选择)而无法选择合适的成绩单。这些案例由RefSeq小组和EMBL-EBI(GENCODE和LRG管理小组)的专家管理人审查,以选择MANE Select转录本。此外,馆长通过审查由一系列QA测试标记的MANE Select成绩单,在维护MANE数据的质量方面发挥着关键作用。

访问MANE Select数据

目前,可以通过以下方式访问MANE Select数据:

  1. 通过批量下载文件传输协议:RefSeq和Ensemble标识符的单独文件以GFF3、GTF和FASTA格式提供,RefSeq转录本和蛋白质的文件以GenBank扁平文件格式提供。有关更多信息,请参阅README文件.

  2. NCBI Entrez搜索:RefSeq平面文件中包含的“MANE Select”关键字(请参阅RefSeq选择)可用于核苷酸蛋白质数据库查询例如:PALM[基因]和MANE选择[关键词]。使用Entrez查询“智人[有机体]和MANE_Select[关键字]”可以获得MANE Select转录本的完整列表。然后,可以使用搜索结果页面顶部的“发送到”选项卡下载列表并将其保存到文件中。

  3. NCBI基因知识框:查询基因页面通过基因符号(例如,“human AND LARP1B”)在结果页面的顶部显示“knowledge box”。展开“RefSeq Sequences”部分会显示一个表格,其中显示了与基因相关的RefSeq转录本,MANE Select位于状态列中标记为“MANE选择”的列表顶部。

  4. RefSeq注释文件可通过文件传输协议: GFF和GTF文件的第9列在与mRNA、CDS和外显子特征相关的行中包含“MANE Select”标签属性(GFF3中的标签=MANE Select,或GTF中的标签“MANE Select”)。此外,第9列还包含匹配的Ensembl转录标识符,作为外部数据库引用(Dbxref)。与CDS功能相关联的注释文件中的行包含MANE Select标记以及匹配的Ensembl蛋白质标识符。

  5. MANE转录本可在多种基因组浏览器中获得,包括NCBI的基因组数据查看器(图4),UCSC基因组浏览器(图5)和集成基因组浏览器(图6).

  6. MANE Select数据的轨道中心(在此处可用)可用于在流行的基因组浏览器中可视化MANE转录本。图5显示了UCSC基因组浏览器中的MANE轨道中心。



MANE GDV公司

图4:基因视图SLC39A14型在基因组数据查看器中,在顶部显示“基因,MANE项目(v1.0版)”轨迹。该轨道包括MANE Select(NM_001128431.4/NP_001121903.1)和MANE Plus Clinical(NM_015359.6/NP_056174.2)的NCBI转录物和蛋白质标识符。将鼠标悬停在MANE Select或MANE Plus Clinical成绩单上获得的工具提示包括其他信息,包括相应的Ensembl登录号。



MANE轨道中心UCSC

图5:基因视图SLC39A14型在UCSC基因组浏览器(GRCh38/hg38汇编)中,显示本地曲目“来自MANE项目的NCBI RefSeq和信号群转录本(v1.0)”(顶部),以及带有RefSeq与信号群标识符的曲目中心“MANE Project v1.0”(底部)。MANE Select转录本NM_001128431.4和ENST00000381237.6为蓝色,MANE Plus Clinical转录本NM_015359.6和ENST0000359741.10为红色。



MANE轨道枢纽信号群

图6:基因视图SLC39A14型在Ensembl Genome Browser中显示“MANE Select转录本”和“MANE+临床转录本”轨迹(顶部)。

注:MANE Select集合将被更新以添加转录本,直到实现接近完整的基因组覆盖。因此,本文档中提到的MANE Select版本可能不是NCBI资源中可用的最新版本。

联系方式

我们欢迎您对MANE项目的反馈。请使用页面右下角的黄色垂直反馈选项卡向我们发送您对本网页内容的评论和建议。请将有关MANE的建议和问题,以及有关新的或现有MANE成绩单的具体请求发送到以下电子邮件地址之一:

上次更新时间:2023-01-05T19:14:26Z