Virus Variation

J. Rodney Brister; Yiming Bao

NCBI书架。美国国立卫生研究院国家医学图书馆的一项服务。

NCBI手册[互联网]。第二版。贝塞斯达（医学博士）：美国国家生物技术信息中心；2013-.

本出版物仅供历史参考，信息可能已过时。

本出版物仅供历史参考，信息可能已过时。

NCBI手册[互联网]。第二版。

显示详细信息

<上一个下一步>

病毒变异

J.罗德尼·布里斯特博士和鲍一鸣，博士。

作者信息和附属机构

创建：2013年11月14日.

预计阅读时间：7分钟

范围

随着大规模病毒数量的增加基因组测序项目已经增加，因此也需要专门的资源来提高大型序列数据集的可访问性和实用性。病毒变体是一种综合性资源，旨在支持大型病毒序列数据集的搜索、检索和显示，为用户提供便利发现活动所需的功能。

该资源包括一个搜索界面，用户可以通过该界面搜索和检索基于许多生物学和临床标准的序列。然后可以使用一套基于Web的工具和显示器下载或分析所选序列。

目前，有三种病毒包含在病毒变异病毒、西尼罗河病毒和流感病毒中，它们之间有260000多个独立序列。资源正在扩大，将添加新病毒，以应对测序工作和公共卫生需求。

历史

病毒变体资源是美国国立生物技术信息中心流感病毒资源最初创建于2004年，用于支持国家过敏和传染病研究所（NIAID）发起的流感基因组测序项目期间对数千个流感病毒基因组进行测序(1). 与现在一样，该资源的目标是提供一套专门为大型序列数据集设计的接口和工具。

病毒变异资源的第一个迭代是围绕黄病毒开发的，2009年添加了登革热病毒，两年后添加了西尼罗河病毒(2). 目前的实现将以前的资源结合到一个单一的综合结构中，该结构建立在历史功能的基础上，但足够灵活，可以容纳广泛的病毒。

数据模型

病毒变体资源由三个组件组成：数据库、唯一的搜索界面和一组序列显示。该数据库加载了从GenBank记录中处理的数据，并使用病毒特异性注释管道在给定物种的所有序列中产生标准化、一致的蛋白质和基因注释。自动和手动过程从序列记录、文献和其他数据库中捕获描述符元数据，然后将其映射到通用词汇表，并将其与描述的序列一起存储。

存储的、标准化的序列数据和相关元数据为增强的搜索界面提供了基础设施，该界面允许用户根据各种生物标准（如感兴趣的蛋白质或基因）检索和下载蛋白质和核苷酸序列集，基因型、宿主、采集国家或地区、疾病严重程度、采集日期以及序列模式和关键字搜索。包括多序列的专用工具对齐查看器和系统发育树构建器使用预先计算的比对快速分析用户选择的序列，并从数据库.

数据流

序列注释管道

注释的反复无常和不一致是序列分析的主要障碍。病毒变异使用标准化的序列注释管道缓解了这个问题，该管道在属于给定病毒物种的所有序列中提供一致的注释。参考序列集用于注释蛋白质和其他生物学和临床相关特征。例如，流感注释管道生成有关耐药性突变和核苷酸完整性的信息编码区序列；两者都存储在数据库.

一般来说，加载到病毒变体中的每个病毒的管道都使用一个共同的主干但唯一的参考蛋白集和解析策略。例如，在登革热注释管道中，传入序列最初被分配一个基因型使用megaBlast和参考序列设置。然后，基因型分配将注释管道指向用于注释新序列的一组特定参考蛋白。注释管道用于两个内部数据库加载并作为流感病毒的公共资源，为一些GenBank提交的文件提供标准化注释。

GenBank流感病毒提交管道

美国国立生物技术信息中心是NIAID流感基因组测序项目的合作者，负责从J.Craig Venter Institute（JCVI）收集流感序列和相关元数据，注释序列，并在GenBank中发布。NCBI已经创建了一个自动化管道，以方便从项目中生成大量序列。

在管道中，每天从JCVI ftp站点检索和更新元数据，并将其加载到内部美国国立生物技术信息中心数据库.NCBI与JCVI、病毒样本提供商和流感病毒研究社区密切合作，建立将纳入GenBank记录的最小和可选元数据集。新病毒分离物的生物名称输入NCBI分类数据库。NCBI工作人员还手动审查元数据，并在出现任何问题时与数据提供商进行沟通。

测序数据在JCVI中进行汇编，共识序列通过流感病毒基因组注释工具进行验证(法兰，有关FLu注释，请参阅病毒基因组处理和工具章节)然后提交给美国国立生物技术信息中心一旦无错误，则通过ftp。在NCBI中，序列由FLAN处理，并生成特征表。这些文件与相关联的元数据相结合，以创建GenBank文件。在过去8年中，NIAID项目产生了近11200个完整的流感病毒基因组，并在GenBank上发布。

数据库加载管道

这个数据库加载管道是一个自动过程，它从GenBank中可用的记录中解析数据，并将它们映射到病毒变异数据库中使用的字段。该过程使用通用解析策略来捕获常见的生物数据，如宿主和来源国，以及个性化策略来捕获与特定病毒相关的更具体的临床相关数据。

加载管道依赖于允许映射从记录解析到在数据库和显示。例如，主机名称（包括通用名称和拼写错误的名称）与这些词汇表列表映射到与美国国立生物技术信息中心分类数据库和主机组名称，如搜索页面中使用的“鸟类”或“哺乳动物”。

这些自动化过程通过基于文献的手动操作和用于捕获第三方数据发布的半自动化过程得到了增强。社区外联工作也促进了注释和数据采集，这些工作旨在开发标准的、实验驱动的基因模型和参考蛋白集。这些努力还鼓励公开包含丰富的元数据集数据库提交以及元数据共享。

数据库

病毒变异数据库存储从注释管道派生的序列信息以及以标准格式描述样本的相关元数据。为了平衡存储灵活性和高效的数据检索，Virus Variation将关系数据库与包含原始数据的文档相结合。

固化界面

自从病毒变异以来数据库加载程序使用自动和手动程序的混合，重要的是美国国立生物技术信息中心工作人员能够查看加载错误的序列，并手动将数据输入数据库。病毒变体管理界面使管理者能够根据病毒类型、加载错误和大量描述符（如序列长度）筛选和排序序列。每个序列都会显示许多可编辑的字段，例如国家、隔离日期和主机，这些字段的通用格式对于每个病毒都是相同的。馆长可以查看与给定序列相关的数据，并根据文献或其他来源的指导手动将数据输入这些字段。此外，还可以调整显示的字段和消息，以适应特定病毒和/或数据库加载过程的需要。

访问

可以访问病毒变体资源http://www.ncbi.nlm.nih.gov/genemos/VirusVariation/。此主页包含病毒特定模块的链接。

搜索界面

独特的搜索界面允许用户构建数据库基于许多标准的查询，包括基因或蛋白质区域、GenBank检索和关键字，以及与疾病关联、宿主生物和样本地理信息等生物相关的描述符。尽管在整个资源中都使用了相同的基本界面设计，但该界面被定制为包含针对单个病毒的特定搜索字段。使用查询页面的构建器框架，以便用户可以修改搜索参数。构建所需的查询后，可以直接下载各种格式的检索序列，也可以在结果页面中显示检索序列。

图1。

病毒变体搜索界面。用户可以使用许多搜索条件，包括序列模式、宿主、地理区域和采集日期来检索蛋白质或DNA来自指定的序列基因组区域。

结果页面

结果页面显示在给定搜索中检索到的所有序列，在随后的分析或下载之前，可以选择单个序列。单个记录可以通过各种描述符进行排序，选择或取消选择，下载，发送到多序列对齐查看器，或发送到系统发育树观众。

图2。

病毒变体搜索结果页面。搜索期间检索到的记录可以显示在结果页面中，其中可以选择单个序列进行下载或进一步分析。

多序列对齐查看器

多序列对齐查看器允许用户显示所选蛋白质或核苷酸序列的比对。预先计算路线以节省处理时间。该查看器基于Genome Workbench对齐查看器，包括许多高级功能，包括多个显示和评分选项。在默认视图中一致序列显示为锚，并使用参考特征表定义蛋白质（或基因）位置和其他重要标志。显示的功能有助于沿路线导航，并允许用户仔细查看感兴趣的区域。这个锚定顺序可以从一致序列更改为路线中的任何序列，以便于对路线中的特定序列进行更详细的审查。

图3。

病毒变异多序列对齐查看器。选定的蛋白质或核苷酸序列可以显示在预先计算的比对中，以便快速比较序列。

系统发生树查看器

这个系统发育树查看器显示根据结果页面中选择的序列比对构建的系统发育树。当前查看器包含可折叠的叶子，允许用户调整选定子树的分辨率，以改进对大型数据集的查看(三). 用户还可以基于日期范围标记序列，并基于国家、主机、登录和其他描述符搜索和标记序列。该功能提供了与序列相关的元数据的图形表示，增强了用户在系统发育学和序列描述符之间建立关联的能力。

图4。

病毒变异系统发育树查看器。选择的核苷酸和蛋白质序列可以使用预先计算的比对和各种聚类和距离算法在系统发育树上快速显示。序列可以通过元数据进行搜索，例如国家、宿主和加入，并用绿色标记。特定日期的序列也可以用红色突出显示。

工具书类

1: Bao Y、Bolotov P、Dernovoy D、Kiryutin B、Zaslavsky L、Tatusova T、Ostell J、Lipman D。国家生物技术信息中心的流感病毒资源。《维罗尔杂志》。2008年1月8日；2(2):596–601.[PMC免费文章：PMC2224563] [公共医学: 17942553]
2: Resch W、Zaslavsky L、Kiryutin B、Rozanov M、Bao Y、Tatusova TA。国家生物技术信息中心的病毒变异资源：登革热病毒。BMC微生物。2009年4月2日；9:65.[PMC免费文章：下午267532] [公共医学: 19341451]
三。: Zaslavsky L、Bao Y、Tatusova TA。使用基于抽样的子尺度表示的自适应聚集树对大型流感病毒序列数据集进行可视化。BMC生物信息学。2008年5月16日；9:237.[PMC免费文章：PMC2416652] [公共医学: 18485197]

书架编号：NBK143949