跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
数据库(牛津)。2011; 2011年:bar025。
2011年9月16日在线发布。 数字对象标识:10.1093/数据库/bar025
PMCID公司:PMC3263592型
PMID:21930501

SigReannot-mart:一个用于表达微阵列探针重新命名的查询环境

摘要

表达微阵列通常用于研究转录组。现在大多数阵列都是基于寡核苷酸探针。探针设计是一项繁琐的任务,通常在项目开始时进行一次。然后使用寡头集数年。在这段时间里,社区收集到的关于基因组和转录组的知识增加了,并且变得更加精确。因此,重新标注集合对生物学家提供最新注释至关重要。SigReannot-mart是一个查询环境,为不同的寡核苷酸集填充了定期更新的注释。它存储了SigReannot管道的结果,该管道主要用于农场和水产养殖物种。它允许使用过滤器以不同格式轻松提取。它用于比较不同标准上的探针集,为给定实验选择集合,混合探针集以创建新的探针集。

数据库URL: http://sigreannot-mart.toulouse.inra.fr/

项目描述

更新批注

微阵列创建过程的主要步骤是探针设计。设计工具旨在最大限度地提高探针序列的特异性,同时保留最大可能的覆盖转录物或基因集。在设计过程中用作参考的基因组和转录组序列随着每个新组装或新基因构建而进化,从而修改探针和相应生物实体之间的链接。几乎所有与探针相关的注释都基于此链接,注释解释可能在设计后几个月变得危险,特别是对于基因组未完成或转录组部分已知的生物体,如许多农场动物和水产养殖物种。

因此,研究人员将需要基于最佳可能的探针转录物链接的更新注释。这是SigReannot-mart数据库的第一个目标。

重新评估探针特异性

管道产生特异性指标(1)对于每个探针,该标准可用于评估探针的特异性及其多转录物交叉杂交的可能性。它基于爆炸的数量和相似性得分(2)探针与转录物或基因组位置之间的比对。

就像OligoRAP()和IMAD(4)管道,探针被分配到不同的目标特异性类别(表1),基于点击量和类型(5).

表1。

探针目标特异性类别(TSC)和亚类

TSC公司描述
1一支好球,没有噪音
2一次响亮的打击
无撞击,一次噪音≥30 bp
4无撞击,一次噪音≥20且<30 bp
5没有撞到很多噪音
6没有好的打击没有噪音
7很多好的点击
7.1(子类)很多好的点击,但只有一个实体
MH(子类)在一条染色体上多次点击
MC(子类)多染色体命中

这些质量指标使用Blastn相似性搜索研究物种的转录组。例如,用户可以使用一个补充的细粒度子类别指示器(7.1、MH、MC),决定是否拒绝多次点击的探针(类别7)。Ensembl提供探针集映射,但不提供TSC,只存储一个基因组命中且不超过一个失配的探针。

用户可以决定他想重点分析的探针特异性水平。当生物学家开始解释他们的高表达和低表达基因列表时,特异性指标是他们非常感兴趣的。对于非特定探针的注释,只有进行更彻底的分析才能帮助理解哪个生物实体是信号的来源。这就是为什么SigReannot-mart提供了使用命中部位和描述的补充特异性子类别(表1).

使用多个数据源提供丰富的注释

通常,微阵列制造商为其寡核苷酸集提供注释文件。但他们并没有将这些文件更新为Ensembl或NCBI生成的每个新版本的基因组注释。这些注释文件通常包含有限的信息,例如基因名称、基因组位置和一些基因本体(GO)术语。为了帮助科学家解释微阵列表达数据,sigReannot-mart集成了多个互补数据源,涵盖外部参考、同源基因和通路。外部参照基因和同源基因对于从David等来源提取通路信息非常重要(6)或IPA(7).

比较阵列设计

当生物学家需要在不同的可用阵列设计之间进行选择时,一个常见的比较标准是探针集的转录组覆盖率(8,9). 它可以通过提取与每个集合相关的通路、GO术语、转录本和基因ID的列表进行评估。但是,如果寡头集合没有使用相同的方法和数据源进行注释,那么这样的任务往往很繁琐。通过提供对共享标准化微阵列注释的访问,sigReannot-mart解决了这一需求。

从现有的寡头集合设计新的寡头集

由于新的打印技术,多年来,构建定制的基因表达微阵列已经相当普遍,甚至对于单个科学家或研究团队来说也是如此。设计步骤非常耗时,构建这些定制微阵列的策略通常是从不同的现有平台中选择探针。该策略还允许验证可用数据集中每个寡核苷酸的表达范围。SigReannot mart可以用来简化这项任务:来自不同集合的探针,共享相同的注释过程,可以很容易地选择、合并,并与研究物种的所有预测转录物进行比较,以生成具有更好转录组或特定代谢途径覆盖率的新集合。

Ensembl和RefSeq版本之间注释的演变

该数据库包含不同版本的Ensembl和RefSeq的探针集注释,这些注释已被证明对微阵列基因表达数据的解释具有互补性和帮助(10).

SigReannot-mart的数据内容

探针在集市表结构中处于中心位置。探针可以链接到不同的探针集(表2). 利用比对结果,每个探针将被提供一个Ensemble-gene链接特异性标记,该标记可以随着新的基因组组合或注释进化。通过基于基因链接的集成API,我们获取了几个物种的同源基因,包括人类和小鼠以及GO和交叉参考基因标识符。

表2。

SigReannot-mart数据库中当前可用的数据摘要

微阵列物种制造商数据集
合奏56集合59+RefSeq RNA信号群61+RefSeq RNA
44公里安捷伦***
24公里EADGENE公司*
22公里印度研究院*
44公里鸡肉安捷伦***
20公里EADGENE公司**
44公里安捷伦***
GPL2881型鼠标安捷伦*
GPL2877型老鼠安捷伦*
44公里清管器安捷伦***
25公里EADGENE公司*
17公里印度研究院*
44公里兔子安捷伦***
44公里三文鱼安捷伦*
15公里绵羊安捷伦***
37公里鳟鱼安捷伦**
GPL884标准人类安捷伦*

探测集注释的更新频率遵循Ensembl更新,每年至少更新两次。当前探测集在Ensembl中不可用。

星号对应于探针集的注释版本。

然后,使用同源HGNC标识符和KEGG文件,我们提取KEGG同源基因(KO)和与探针相关的通路。使用文本输出格式可以很容易地执行GO图或富集分析。HTML输出格式将标识符与相应的网页链接起来(表3)来自KEGG、Ensembl、HGNC或Amigo网站。

表3。

从SigReannot-mart引用的外部数据库

数据来源基因抄本路径GO术语基因符号直系同源统一资源定位地址实体描述
合奏***网址:www.ensembl.org基因、ncRNA、mRNA、推测RNA和同源基因
参考序列*网址:http://www.ncbi.nlm.nih.gov/参考序列/成绩单
基因本体论*http://www.geneontology网站.org网站/GO术语
HGNC公司*http://www.genenames(基因名称).org网站/基因符号
KEGG公司**http://www.genome.jp/kegg/酶、途径和直系族

星号表示与SigReannot-mart中导入的每个生物实体相对应的数据源,以执行注释过程。

定制BioMart环境

SigReannot-mart实施BioMart(11)版本0.7。对于不熟悉BioMart查询界面的用户(图1),可以从存储库网页直接下载预先格式化的注释文件。为了快速概述每个数据集注释更新,还提供了摘要和统计报告。

保存图片、插图等的外部文件。对象名称为bar025f1.jpg

注释管道、BioMart集成和SigReannot-mart查询接口。探针注释处理管道和生物图像环境的管理是集中化和自动化的,以允许在有限的人工干预下对多个数据集进行高效的生物图像配置。BioMart数据库是在注释管道的末尾直接创建和填充的(A类),然后自动生成BioMart配置(B类)使用从通用模板创建的XML文件(C类)和探测集属性(D类). SigReannot集市数据集可以通过网页中的用户查询进行过滤(E类). 许多属性可以用作过滤器,如探针特异性、基因命中、染色体命中位置或直系图。

BioMart属性页面中添加了一种新的数据提取格式,即数据矩阵类型,允许分析基因类别的多样性,如KEGG路径。此格式生成一个布尔矩阵,指示探针与路径的成员关系。这种矩阵通常用于R/生物导体(12).

查询示例

为了说明sigReannot-mart的功能,我们在这里提供了两个案例研究。

案例1:探针特异性研究

生物学家想检查一个给定的探针集是否包含他想要监测的基因列表的探针,以及这些探针的特异性如何。

为此,他使用了三个标准:

  • 探测集名称
  • 基因名称
  • 特异性(表1)

  • 步骤1:在数据库下拉列表中选择Ensembl版本。
  • 步骤2:在数据集下拉列表中选择探针集。
  • 步骤3:使用感兴趣基因的ID筛选探针。
  • 步骤4:使用感兴趣基因的特异性类别1和2筛选探针。

BioMart查询摘要:

数据库Sigenae oligo注释
数据集btaurus_agilent_44k(bos_taurus)
过滤器探针:[ID-list specified],类别:1,2
属性探针名称、基因名称、特异性类别

通过分析代表给定基因列表探针的记录数,生物学家可以决定是否使用此探针集。

案例2:定制微阵列设计

一位生物学家希望使用现有的探针和为现有集合中没有探针的Ensembl转录本设计的探针创建一个新的探针集。

  • 步骤1:使用Ensemb BioMart选择所有鸡肉抄本。
  • 步骤2:选择探针引用的所有鸡转录本。

BioMart查询摘要:

数据库Ensembl.org上的Ensembl基因
数据集五倍子基因(WASHUC2)
过滤器
属性乐团成绩单ID
数据库SigReannot-mart.toulouse.inra.fr处的Sigenae oligo注释
数据集集合ggallus_agilent_44k(sus_scrofa)和ggallus_eadgene_20k(suss_crofa)
过滤器合奏成绩单ID(指定ID-list)
属性乐团成绩单ID

在第一个查询中而不是第二个查询中找到的所有Ensembl转录本都与任何探针无关,并代表有价值的目标序列,用于为自定义探针集设计设计新探针。

讨论和未来方向

而SigReannot mart主要用于基因表达微阵列探针集的质量重新评估和重新注释(13),它还可以用于促进部分探针的设计过程。

基因表达微阵列仍在广泛使用,因此继续进行再命名过程非常重要。新的探针设计仍在出现,探针选择目前正在进行:简化这些任务有助于提供精确的工具来监测基因表达。今天,SigReannot-mart数据处理已经工业化,我们可以考虑用户界面,通过上传FASTA文件并指示相应物种来添加新的探针集。几个小时后,用户将能够查询结果注释。或者,即使相关动物物种目前不受支持,也可以处理通过电子邮件收到的公共探针集的FASTA文件(表4). 另一个更简单的选项是为现有探测集安排注释更新。这两个功能应在不久的将来提供。

表4。

与SigReannot集市有关的物种目前的数据集

物种类别
奶牛农场
鸡肉
清管器
兔子
绵羊
鲑鱼渔业
鳟鱼
鼠标模型
老鼠
人类

基金

欧洲信贷委员会资助的卓越网络EADGENE。开放获取费用资金:印度卢比。

利益冲突。未声明。

工具书类

1Casel P、Morews F、Lagarrigue S等,sigReannot:基于与集合转录本和Unigene簇相似性的寡聚体再命名管道。BMC程序。2009;(补充4):S3。 [PMC免费文章][公共医学][谷歌学者]
2Altschul S.Gapped BLAST和PSI-BLAST:新一代蛋白质数据库搜索程序。核酸研究。1997;25:3389–3402. [PMC免费文章][公共医学][谷歌学者]
三。Neerincx PBT、Rauwerda H、Nie H等。OligoRAP——一种用于改进注释和评估目标特异性的寡核苷酸再注释管道。BMC程序。2009;(补充4):S4。 [PMC免费文章][公共医学][谷歌学者]
4.Prickett D,Watson M.IMAD:微阵列序列的灵活注释。BMC程序。2009;(补充4):S2。 [PMC免费文章][公共医学][谷歌学者]
5Neerincx PBT、Casel P、Prickett D等。三种微阵列探针注释管道的比较:策略差异及其对下游分析的影响。BMC程序。2009;(补充4):S1。 [PMC免费文章][公共医学][谷歌学者]
6Dennis G、Sherman BT、Hosack DA等。DAVID:注释、可视化和集成发现数据库。基因组生物学。2003;4:第3页。[公共医学][谷歌学者]
7灵巧系统(n.d.)。网址:http://www.intenuity.com(2011年1月,上次访问日期)
8Le Brigand K、Russell R、Moreilhon C等。用于分析人类和小鼠转录组的开放存取长寡核苷酸微阵列资源。核酸研究。2006;34:e87。 [PMC免费文章][公共医学][谷歌学者]
9龚P,Pirooznia M,Guan X,等。寡毛环节动物胎儿艾森氏体转录组宽寡核苷酸探针的设计、验证和注释。《公共科学图书馆·综合》。2010;5:e14266。 [PMC免费文章][公共医学][谷歌学者]
10Yin J,McLoughlin S,Jeffery IB,等。整合多个基因组注释数据库改进了微阵列基因表达数据的解释。BMC基因组学。2010;11:50. [PMC免费文章][公共医学][谷歌学者]
11Haider S、Ballester B、Smedley D等。生物商业中心门户——统一访问生物数据。核酸研究。2009;37:W23–W27。 [PMC免费文章][公共医学][谷歌学者]
12生物导体R封装。(未注明日期)。http://www.bioductor.org/(2011年3月,上次访问日期)
13Le Mignon G,Désert C,Pitel F,等。利用转录组分析表征鸡5号染色体上的QTL区域。BMC基因组学。2009;10:575. [PMC免费文章][公共医学][谷歌学者]

文章来自数据库:生物数据库与治疗杂志由提供牛津大学出版社