历史
与其他生物一样,由于测序技术的进步,近年来病毒序列的数量急剧增加。在INSDC公司人类免疫缺陷病毒1数据库。这使得研究人员很难直接从数据库中高效地处理这些序列。此外,许多序列非常短,用户可能不想将其包含在搜索或分析中。所以收集了完整的病毒基因组需要序列。与其他生物体相比,病毒的独特之处在于,其基因组的形式存在显著的变异,无论是线性的还是环状的,还是单链的还是双链的,DNA基因组组织和表达策略因病毒而异。一些病毒的分类标准还没有很好地建立。所有这些因素都会导致序列提交错误,例如错误的分子信息、错误/缺失的基因/蛋白质注释,以及一些病毒基因组序列记录中分类分配的混乱。作为美国国立生物技术信息中心的参考序列(RefSeq)数据库NCBI病毒基因组项目是为了解决上述问题而创建的。
扫描INSDC公司完整病毒基因组候选数据库
对于美国国立生物技术信息中心病毒的基因组一个完整的基因组包含病毒的所有编码区域。新发布的病毒序列INSDC公司数据库通过自动化程序不断筛选完整的基因组。如果满足以下两个标准之一,则序列被视为完整基因组的候选序列:(i)序列的拓扑是圆形的,或(ii)序列的定义包含以下任何短语:“完整基因组”、“完整基因组染色体“,”基因组序列“,或”完整基因组序列“。
一些完整的病毒基因组这个自动过程没有检测到序列,因为源记录要么没有正确地指示循环拓扑,要么没有包括上面列出的关键字。为了克服这个问题,病毒序列需要根据序列长度进行额外的筛选。仅序列长度超过参考序列在物种中被选为完整的基因组候选。
此外,完全病毒基因组在外部科学顾问、特定病毒家族或病毒群专家的帮助下,对序列进行鉴定,这些专家也协助管理过程。顾问名单及其联系信息可访问http://www.ncbi.nlm.nih.gov/genomes/GenomesHome.cgi?taxid=10239&hopt=advisors.
接受完整的候选病毒基因组
美国国立生物技术信息中心工作人员手动查看完整病毒基因组候选人,如果满意,接受他们作为参考序列如果物种中没有一个,或者作为现有参考序列的邻居。
当完成多个基因组可用于参考序列优先考虑研究充分且具有实际重要性的病毒分离物的序列,和/或注释最好的病毒分离体的序列。
在此步骤中,将严格检查获得新基因组的病毒的分类。当一个序列真正属于一个现有物种时,GenBank提交者给它一个新的物种名称并不罕见。如果在未经验证的情况下接受序列参考序列当记录实际上应该被视为另一个引用序列的邻居时,将创建该记录。为病毒找到一个合适的分类位置通常需要使用诸如以下工具进行比较序列分析爆炸和PASC(如下所述)。经常就分类学问题咨询ICTV研究小组。如果有疑问基因组候选者将处于“等待”状态,直到问题得到解决,在这种情况下,参考序列的创建会出现延迟。
分段病毒
分段病毒是指具有多个病毒的病毒基因组组件(段)。使用与上述单组分病毒相似的标准来确定单个片段完整序列的候选序列。为每个片段选择一个序列以形成一组覆盖基因组所有片段的参考序列。参考基因组集是通过匹配菌株和分离完整组分可用序列的信息来手动组装的。当同一菌株和/或分离物的同一片段有多个序列可用时,优先选择在同一实验室获得的序列作为其他成分的序列。其他完整序列成为参考序列相同段的名称,以及由提供的段名称美国国立生物技术信息中心staff用于将邻居连接到相应的参考序列。
参考序列创造
A类参考序列记录是从INSDC公司序列已被接受美国国立生物技术信息中心员工。RefSeq记录的唯一登录号分配给核苷酸(NC_XXXXXX)和蛋白质(NP_XXXXXX、YP_XXXXXX或YP_XXXXXXXX)序列。基因位置标记(_T)也分配给RefSeq。
参考序列治疗
馆藏过程包括更正和更新记录,以及添加从文献、其他序列记录、原始提交人和外部顾问中获取的相关生物信息。最常见的更正是对基因组分子的类型和拓扑结构(双链或单链、线性或圆形)以及分类谱系进行的更正。
策展过程的很大一部分涉及改进基因组注释,包括搜索缺失的基因、将功能角色分配给蛋白质产物、校正通过移帧或通读表达的蛋白质的注释、恢复被测序错误破坏的蛋白质,以及添加翻译后处理信息。一些RNA病毒编码含有多个功能域的多蛋白,并被蛋白酶切割成成熟肽。美国国立生物技术信息中心工作人员将成熟肽注释(来自多蛋白)添加到病毒参考序列如果原件中没有记录INSDC公司记录(比较NC_002532号和X53459型). 这些成熟肽具有RefSeq蛋白登录号,因此可以作为单个蛋白质进行索引和检索。
参考序列为了提高病毒序列记录的准确性,已经建立了许多合作。与Mark Borodovsky合作,GeneMark计划(网址:http://exon.gatech.edu/VIOLIN)用于预测一些病毒RefSeq基因组中的开放阅读框(ORF),并将其与原始注释进行比较。例如,一个大型双链的完整基因组序列的原始GenBank记录DNA病毒-Sheeppox病毒(AY077832号)不包含蛋白质注释。随后,GeneMark程序在基因组,并添加到相应的RefSeq记录中(NC_004002号).
另一个正在进行的合作项目是重叠基因的修订和注释。基因重叠是病毒的一个共同特征,它可以定义为通过在多个阅读框中读取而对多个蛋白质进行核苷酸编码(2). 由基因重叠产生的蛋白质是典型的辅助蛋白质,在病毒致病性或传播中起作用(3, 4). 尽管它们很重要,但重叠的基因很难识别,而且经常被忽视。仔细注释和整理病毒重叠基因的数据基因组RefSeq允许研究人员对重叠基因的进化和信息特征以及相应产品的功能进行研究。在英国剑桥大学的Andrew Firth和英国牛津大学的David Karlin的帮助下,我们一直致力于在病毒RefSeqs中添加(或纠正)缺失的重叠基因和相应蛋白质。目前,至少有一个参考序列代表14个选定病毒科的每个属(动脉病毒科,动脉病毒科、布尼亚病毒科、杯状病毒科、环病毒科、双链病毒科、黄病毒科、黄体病毒科、副混合病毒科,细小病毒科,小RNA病毒科,马铃薯病毒科,呼肠病毒科,多哥病毒科)根据实验或预测分析进行修正。对于每个新蛋白质,开始和结束的位置密码子根据实验数据或文献中描述的比较分析确定。为每个蛋白质添加蛋白质名称、功能(如果已知)、实验数据和文献链接。框架转换站点(如果存在)和移帧添加到基于最新文献数据的基因组注释中。参考序列NC_001479号是最近发现的基因重叠序列的一个例子。它代表该家族的脑心肌炎病毒(EMCV)小核糖核酸病毒科根据Loughran等人进行的实验分析(5)保守的ORF公司与+2中EMCV的2B编码序列重叠阅读框。以前被忽略的ORF被翻译为128-129氨基酸通过核糖体移码与2B的N-末端11-12氨基酸进行跨帧融合(2B*)。为了表示这项研究的结果,我们添加了多蛋白(客户尽职调查位置:834-3998、3998-4351)和2B*蛋白(具有编码区位置:3966-3998、3998-4348)。另一个重叠基因的例子是RefSeqNC_008311号属于该科的鼠诺如病毒(MNV)杯状病毒科。我们更新了批注以添加最近发现的(6)毒力因子1蛋白(VF1)由亚基因组RNA(CDS坐标:5069-5710)编码,位于重叠VP1编码区的可选阅读框中。
参考序列蛋白质是根据序列聚类的同源性在蛋白质簇资源和管理人美国国立生物技术信息中心员工(另请参阅蛋白质簇第章)。这种管理包括将功能蛋白质名称分配给簇,簇又可以传播到RefSeq中的单个蛋白质记录,从而在簇内蛋白质之间产生一致的信息性名称。RefSeq工作人员与许多利益相关者合作,包括SwissProt、ICTV、测序中心和科学社区,以制定注释和蛋白质命名标准。目标是提高病毒的质量和一致性基因组RefSeq和INSDC公司数据库。
HIV-1,人类蛋白质相互作用数据库
虽然逆转录病毒学和艾滋病研究领域取得了许多进展,但感染、复制和免疫逃避背后的许多生物过程尚不清楚。同样,细胞限制感染的机制以及增强先天性和适应性免疫系统的机制也鲜为人知。人类免疫缺陷病毒1型(HIV-1)RNA基因组(NC_001802号)编码三个主要基因,从中转录出主要蛋白质——组特异性抗原(Gag)、聚合酶(Pol)和包膜(Env)。通过重叠阅读框、差异剪接和蛋白水解裂解的各种组合,还表达了一些具有调节和辅助作用的HIV-1蛋白。这些包括蛋白质反式激活因子(Tat)、病毒蛋白表达调节因子(Rev)、阴性因子(Nef)、病毒蛋白质R(Vpr)、病毒感染因子(Vif)和病毒蛋白U(Vpu)。Tat和Rev分别调节转录和HIV-1核RNA输出,而辅助蛋白Nef、Vpr、Vif和Vpu对于某些细胞类型的复制是不必要的(7).
细胞免疫和病毒感染都需要大量涉及病毒和细胞蛋白质的蛋白质相互作用。蛋白质相互作用的信息对疫苗研究、治疗药物发现和细胞生物学的进展至关重要。为了促进这些进展,建立了HIV-1人类蛋白质相互作用数据库,以编目同行评审期刊上发布的有关HIV-1和人类蛋白质相互关系的所有数据。包含在其中数据库是对各自相互作用的简要描述,国家医学图书馆(国家土地管理局)描述交互的文章的PubMed标识号(PMID),美国国立生物技术信息中心参考序列(参考序列)蛋白质加入数Entrez公司基因ID号和促进交互搜索的关键字。
这个数据库以提供HIV-1蛋白的可下载或现场查看报告的方式组织。蛋白质相互作用按43个相互作用关键字进行分类,包括结合、切割、降解、刺激、协同定位和新兵。通过在下拉菜单中使用这些关键字,用户可以缩小对特定HIV-1蛋白的特定交互类型的搜索范围。例如,病毒蛋白Vif结合哺乳动物细胞蛋白载脂蛋白B mRNA编辑酶(APOBEC3G),并将其作为蛋白酶体破坏的靶点。在缺乏Vif的情况下,APOBEC3G并入HIV-1病毒会导致病毒的G-to-A超突变基因组复制潜能显著降低(8). 点击“vif”,然后使用下拉框选择“degrades”并点击“view”按钮,即可获得包含APOBEC3G和几个类似交互的报告。如果用户选择,这些报告可以作为文本文件下载。因为HIV-1交互数据集成到Entrez公司还可以获得基因数据库、蛋白质结构域结构信息、基因组上下文、同义词名称、基因位点和人类基因顺序克隆的链接。此类资源的可用性可以深入了解涉及HIV-1感染、复制和进化的许多生物过程。同样,它们提供的数据可能有一天会允许预测建模和/或构建结构相互作用网络(9).
这个数据库可通过国家医学图书馆获取http://www.ncbi.nlm.nih.gov/RefSeq/HIV交互(10)所有当前交互作用的集合可以通过以下方式获得文件传输协议从ftp://ftp.ncbi.nih.gov/gene/GeneRIF在文件hiv_interactions.gz下。
法兰
流感病毒基因组注释工具(法兰,对于FLu AN表示法)是由于美国国立生物技术信息中心参与流感基因组测序项目(11)由国家过敏和传染病研究所发起。在该项目下,由全球合作者提供的流感病毒样本由J Craig Venter研究所测序,提交给NCBI进行基因组注释,并立即在GenBank中发布。自2005年该项目开始以来,已对11000多个流感病毒基因组进行了测序,并在GenBank上发布。由于序列数量众多,需要一个自动的基因组注释管道。
法兰是用户提供的流感A病毒、流感B病毒和流感C病毒序列的应用程序。它可以预测流感序列编码的蛋白质序列,并生成可用于向GenBank提交序列的特征表,以及GenBank平面文件。
输入流感序列的类型/片段/亚型首先由爆炸,然后与对应的参考蛋白集进行比对,该参考蛋白集具有“蛋白质到核苷酸”对齐工具“-ProSplign(http://www.ncbi.nlm.nih.gov/sutils/static/prosplign/prosplign.html). 从最佳比对到样本蛋白质序列的翻译产物被用作输入序列编码的预测蛋白质。
除了创建要素表之外,法兰还可以确定和报告流感序列的以下特性:流感病毒种类(A、B或C)、长度、,基因组HA和NA片段的片段、亚型、NA和M片段的常见耐药突变、可能导致流感病毒高毒力的PB2片段突变、末端可能的污染/载体序列、核苷酸、蛋白质和编码区的完整性,将扰乱编码区域的插入/删除,以及编码区域中的过早终止密码子。FLAN的这些功能用于填充流感病毒序列数据库中的某些字段(12). 他们还使FLAN成为流感序列验证的有用工具,以识别片段/亚型分配中可能的测序错误或人为错误。
在内部,法兰在中实现美国国立生物技术信息中心-开发的框架允许执行后台CGI公司任务超过30秒(默认WEB前端超时)。这允许FLAN的在线界面一次处理数百个流感序列。
为了保持流感序列的一致性和高质量注释,法兰被GenBank推荐为生成特征表的工具,可用于通过中最近实现的“病毒向导”向GenBank提交流感序列Sequin公司.
法兰(13)位于http://www.ncbi.nlm.nih.gov/genemos/FLU/Database/annotation.cgi.
PASC公司
根据病毒的形态、血清学、宿主范围、,基因组组织和顺序。公共数据库中病毒序列的急剧增加使得基于序列的病毒分类更加可行。
最常用的基于序列的病毒分类工具是系统发育分析。ICTV第九次报告中描述的约70%的科和浮动属的分类得到了系统发育树的支持(14). 尽管其广泛使用,但系统发育分析通常需要大量计算,并且需要专业知识来解释结果。
最近,一种基于核苷酸序列分布的天然载体新方法被报道用于病毒分类(15).
另一种基于序列的病毒分子分类方法是计算病毒家族中病毒序列的配对身份,并绘制每个百分比的病毒对数。这通常会产生代表不同分类群(如变种、种和属)的峰,峰边界的百分比可以用作不同分类群的划分标准。该方法已应用于一些病毒家族,包括冠状病毒科(16),双生病毒科(17),拟步甲科(18),小核糖核酸病毒科(19)、和马铃薯Y病毒科(20). 该方法的一个主要缺点是当使用不同协议计算成对身份时,结果不一致。对于研究人员来说,即使不是不可能,也很难使用确切的算法和参数来测试他们自己的序列,就像其他人(通常)用来建立分界标准的算法和参数一样。因此,从这两个系统获得的恒等式是不可比较的。为了克服这个问题,美国国立生物技术信息中心创建了PASC(成对序列比较)资源(21)其中,相同的协议用于建立划分标准和测试新的病毒序列。资源中包括许多病毒群。
对于给定的病毒家族/组,请完成基因组序列从美国国立生物技术信息中心本章描述的病毒基因组收集,包括RefSeq和邻居。这些序列及其在NCBI分类学中的谱系数据库,存储在数据库中。数据库每天都会更新,以添加新的基因组序列并反映分类法的变化。
传统上,基因组身份是基于PASC中的成对全局比对来计算的。尽管此方法对某些病毒家族/群(如乳头瘤病毒和马铃薯Y病毒)很有效,但其他病毒的结果并未优化,主要原因如下:
- 1
在一些具有环状基因组的病毒中,如圆环病毒,其第一个核苷酸的指定不一致基因组公共数据库中的序列。
- 2
在一些病毒中,特别是那些带有负链RNA基因组的病毒对股的基因组有时会提交给公共数据库。当基因组身份基于全球对齐在相反链中的两个基因组中,结果通常低于它们应该达到的水平。
- 三。
对于远距离关联的病毒,全球对齐通常具有误导性,因为任意两个随机变量的最小同一性基因组相同大小的序列占25%。
为了克服这些问题爆炸-基于对齐方法。两套BLAST(22)对每对基因组序列。在第一组中,使用tblastn搜索一个基因组在六个框架中的翻译蛋白序列和另一个基因组的核苷酸序列。这个氨基酸tblastn结果中的比对转换回核苷酸比对。在第二个BLAST集合中,对基因组的核苷酸序列进行配对爆破。然后,我们从两组BLAST结果中选择一组一致的命中,首选较高的身份命中,并从较低的身份命中中去除重叠。这个过程将为接近的基因组选择blastn命中,但最有可能的是为遥远的基因组选择tlastn命中。在某些情况下,可能会混合使用blastn和tblastn命中。成对恒等式的计算方法是,局部命中的相同碱基总数除以基因组对的平均序列长度。此方法大大提高了某些病毒家族中PASC的性能(请参阅例如)。
根据所选病毒家族或组的每个成员之间计算的成对比对绘制身份分布图。如果两个基因组根据它们在美国国立生物技术信息中心的分类学数据库; 如果两个基因组属于不同物种但属于同一属,则为黄色;如果它们属于不同的属,则呈桃色。Y轴可使用线性和对数刻度(成对数)。
将外部基因组与现有基因组进行比较数据库,指定查询“序列”框中的基因组,使用其GenBank登录号/GI号,在中输入原始序列美国金融服务贸易协会格式化,或单击“浏览”按钮上载包含序列的文件。一次提交最多可以添加25个序列。序列提交后,PASC将开始计算用户提供的基因组和现有基因组之间的成对身份基因组家族的序列。在该过程的最后,对于每个输入基因组,PASC生成一个在该输入基因组和1)其余输入基因组(如果有多个)之间从最高到最低的成对身份列表,以及2)与家族中现有基因组最接近的5到10个匹配。身份分布图将用不同的颜色描述当前选定的基因组。您可以单击每个基因组的编号以使其成为最新的,也可以单击标识以查看对齐.
PASC可用于:
- 1
建立某些病毒分类的划分标准,如丝状病毒科家庭(23).
- 2
识别分类法中错误分配的病毒数据库.
- 三。
用新测序的基因组对病毒进行分类。
PASC可以通过以下方式访问http://www.ncbi.nlm.nih.gov/sutils/pasc。目前,它涵盖了52个以上的病毒家族/群,这些病毒在http://www.ncbi.nlm.nih.gov/sutils/pasc/viridty.cgi?textpage=main.
基因分型工具
逆转录病毒家族,逆转录病毒科由许多被包裹的RNA病毒组成,科学研究揭示了许多有趣的生物学原理。由于人类免疫缺陷病毒1(HIV-1)在历史上和现在对健康的影响,它一直是科学界和医学界关注的焦点。因此,快速有效地识别艾滋病毒基因型的能力对科学和医学研究的几个领域至关重要。例如,由于感染者中几乎不可避免的HIV-1耐药性趋势,HIV-1感染者的医疗尤其受到基因型研究的推动(24). 同样,药物发现试验和流行病学研究也受到类似担忧的推动。
通过与先前存在的序列和树进行比较,系统发育分析可用于区分病毒基因型以及确定新分离物的亚型。这可能会给病毒带来一个特殊的问题,即共同感染和重叠感染会导致亚型间感染复合并非完全罕见(25). 由于系统发育分析不能总是区分这种重组子和新的亚型,所以有几种方法可以分析基因片段基因组已设计(26). HIV-1等RNA病毒的高选择性压力、高错误率和复制率通常使其难以自动比对病毒序列。
这个美国国立生物技术信息中心基因分型工具(27),使用使用计分的算法爆炸(22)重叠段之间的成对对齐查询和每个病毒的参考序列。该算法沿查询序列使用“滑动窗口”,分别处理每个窗口序列和分段。通过将每个片段与BLAST衍生分析的一组参考序列进行比较,每个局部的相似性得分对齐获得。每个查询段都分配有参考序列 基因型将查询与最高BLAST匹配相似性得分。以相同的方式对每个后续“窗口”重复此过程,直到整个查询序列被重叠的BLAST对齐覆盖。所有窗口的结果都被合并并以图形方式显示。通过以计算机生成的图形格式显示多个片段的结果,最终用户更容易确定查询序列的基因型。同样,由于获得结果的方式,重组基因型和复合也可以识别断点。目前,NCBI基因分型工具使用来自HIV-1、乙型肝炎病毒(HBV)、丙型肝炎病毒(HCV)、人类T淋巴细胞病毒1和2(HTLV-1和HTLV-2)、猴免疫缺陷病毒(SIV)和脊髓灰质炎病毒(PV)的参考集。该工具位于http://www.ncbi.nlm.nih.gov/projects/genotyping/formpage.cgi.