摘要

基于与模式物种基因组中的基因序列同源性的基因功能注释非常耗时,因为需要挖掘几个不相关的数据库。本工作的目的是开发一个普通小麦功能注释数据库小麦(法律)。该数据库名为dbWFA,基于参考NCBI UniGene集合,即通过表达序列标签聚类建立的表达基因目录,以及从TriFLDB数据库检索的全长编码序列。来自高质量异质来源的信息,包括模式植物物种注释拟南芥(L.)海恩。水稻L.,被收集并链接到夏块菌序列通过基于BLAST的同源搜索。尽管转录组的复杂性尚不能完全理解,但我们开发了一种工具,可以方便快捷地从多个功能注释系统(基因本体、MapMan bin代码、MIPS功能类别、PlantCyc通路反应和TAIR基因家族)获取信息。这里通过几个查询示例说明了dbWFA的使用。我们能够为TriFLDB中45%的UniGenes和81%的全长编码序列分配假定的功能。此外,整体注释的比较夏块菌UniGene集合与两个模型物种的精心策划注释一起评估了dbWFA提供的注释的准确性。为了进一步说明dbWFA的用途,在细胞分裂早期或储存聚合物积累后期特异表达的基因夏块菌使用聚类分析确定谷物发育,然后使用dbWFA进行注释。这两组基因的注释与之前的分析一致夏块菌谷物转录组和蛋白质组。

数据库URL:urgi.versailles.inra.fr/dbWFA公司/

介绍

小麦(L.),普通小麦或面包小麦,是世界上最重要的主食作物之一。它在世界各地种植,提供人类饮食中20%以上的热量和蛋白质(http://faostat.fao.org). 尽管正在进行的测序工作已经产生了重要的基因组资源(1–4),六倍体(2n=6×=42,AABBDD)的完整测序和注释夏块菌基因组尚未实现。中国春天面包小麦品种基因组的第一个版本最近发表了(4)为科学界提供了非常有价值的基因组和进化信息,这将促进全基因组面包小麦分析。然而,由于本项目中使用的低覆盖率(5倍)鸟枪测序方法,该资源在序列完成、质量和注释方面并不代表小麦基因组的高质量草图。通过表达微阵列或转录组测序(RNA-Seq)对基因表达进行全基因组分析目前正在夏块菌(5,6)但分析如此大的数据集需要大量的注释工作。数据碎片化以及技术和语义的异构性会严重限制生物数据的有效提取和解释(7,8).

越来越多的基因组信息可用于夏块菌研究。各种资源和相关工具为用户提供了表达序列标签(EST)(ITEC,http://avena.pw.usda.gov/基因组/) (9,10)或细菌人工染色体克隆库(11,12)例如(13–15). 正在采取重要举措,促进小麦改良品种的培育。TriticaeGenome项目(网址:www.triticaegenome.eu)允许访问从实验数据中提取的综合信息,以更好地了解小麦科基因组(16). 全球数据库GrainGenes(网址:http://wheat.pw.usda.gov/)为Triticae和燕麦研究社区。HarvEST数据库(http://harvet.ucr.edu/) (17),专门用于几种作物,包括夏块菌大麦,提供了对策划的EST汇编、比较分析工具的访问,以及与相关模式植物物种中的同源序列的链接。这些资源汇集并交叉引用了大量有关物理和遗传图谱、标记、序列变异和数量性状位点的信息。在某种程度上,它们还提供了间接导致预测基因产品功能的信息,但它们都没有关注功能基因注释,因此有必要在众多未链接的资源中导航以提取功能信息。

最近,自动化注释基因组序列的管道夏块菌并培育了相关物种(,18). 这些管道基于基因组序列中的基因模型预测,因此它们无法像EST一样对来自转录组测序的序列进行功能注释。因为还没有参考基因组序列可用于夏块菌,一项大规模的测序工作已经产生了100多万个EST(http://wheat.pw.usda.gov/genema/). 为了处理该资源的高度冗余,对这些序列进行聚类(即对重叠和部分多尾表达序列进行分组),以提供一组独特表达基因NCBI UniGenes的参考集(http://www.ncbi.nlm.nih.gov/UniGene网站). 用于构建NCBI UniGenes的组装条件使其成为迄今为止最全面的编码DNA(cDNA)组装,UniGene组装被用作许多物种的序列参考集。另外还努力构建包含在TriFLDB数据库中的全长cDNA序列(19). 全长cDNA序列最常用于基因组注释,作为跨物种比较分析的资源。目前,TriFLDB是最可靠的全长cDNA序列来源夏块菌TriFLDB包括基于通过搜索蛋白质数据库发现的同源性的注释、广泛的基因本体(GO)注释和InterProScan结果。最近,一个由近100万个EST组成的新集合被组装成连体和单体,并用GO术语进行了注释(20)但对基因功能进行有意义的预测需要不止一个注释系统。

在第一个植物基因组测序后,拟南芥2000年(21),几个植物测序项目已经成功。测序的基因组与夏块菌基因组是指水稻ssp。印度(22),水稻ssp。日本(23),Zea mays公司(24),甘氨酸最大值(25),双色高粱(26),远侧臂索菌(27)和大麦(28). 这些物种的结构和功能注释资源正在稳步发展。注释转录物最有效的方法之一是在注释良好的密切相关基因组中找到其同源对应物(29,30). 尽管H(H).粗俗(L.)应该是最有用的参考,因为它与夏块菌,全面和高质量的基因功能注释仅适用于欧·萨提娃拟南芥(2)这主要是由于进行了冗长而准确的注释工作。

要使用序列同源性注释EST或转录本,需要浏览不相关的数据库。已经开发了一些使用这种同源方法的工具。例如,Blast2GO(31)可以使用查询夏块菌序列以给出GO结果。ONDEX公司(7),随着功能注释的挑战而发展夏块菌考虑到基因组,结合来自不同来源的数据集成和各种挖掘方法,包括基于图形的分析,根据明智选择的一组注释标准注释小麦基因功能。然而,ONDEX并不能轻松获得研究中经常需要的可行的静态结果。为了填补这一空白,我们开发了dbWFA,这是一个与夏块菌UniGene集合和TriFLDB到拟南芥(泰尔10)(32)和紫花苜蓿(伪分子7.0版)(33)通过BLAST进行注释(34)结果。dbWFA还包括夏块菌转录因子(wDBTF)(35)和手绘基因家族(36). 作为注释的一体式接口夏块菌序列,dbWFA将对研究人员有用夏块菌更普遍的是谷物,尤其是比较谷物基因组学和功能基因组学。dbWFA的web实现提供了一个易于使用的界面来注释来自夏块菌,使用来自多个普及注释系统的功能信息。这里,通过几个查询示例说明了dbWFA的使用,并通过比较夏块菌NimbleGen 40 k微阵列(37)使用的拟南芥欧·萨提娃通过分析433个在籽粒发育早期细胞分裂或后期贮藏聚合物积累(SPA)阶段特异表达的基因注释,进一步说明了dbWFA的用途。

数据内容、数据库体系结构和Web界面

集成了五个功能分类/注释系统(图1)在dbWFA中为夏块菌UniGenes公司:

  • GO(开始)(http://www.geneontology.org) (38)是一种非冗余的本体结构层次,是生物信息学中应用最广泛的功能注释系统。GO项目提供了一个有效的注释标准,可以应用于许多物种。它建立在描述基因功能的受控词汇表上。dbWFA包括GO注释数据(OBO 1.2版),用于拟南芥欧·萨提娃(O.sativa)。

  • 植物代谢网络(PMN;网址:http://www.plantcyc.org) (39)它提供了一个关于初级和次级植物代谢的精心策划的数据库的广泛网络,包括路径、酶、基因、化合物和来自几个植物物种的反应。dbWFA包含来自AraCyc(版本9.0)的数据拟南芥和RiceCyc(3.2版)紫花苜蓿.

  • 地图管理员(http://mapman.gabipd.org) (40),这是一个用户驱动的工具,用于在代谢途径或其他过程的图表背景下可视化的大型数据集(例如来自微阵列的基因表达数据)。两者的MapMan注释数据(bin tree版本1.1)拟南芥欧·萨提娃存储在dbWFA中。dbWFA数据库还提供了自动生成MapMan的功能夏块菌映射文件。

  • 慕尼黑蛋白质序列功能目录信息中心(MIPS FunCat;http://www.helmholtz-muenchen.de/en/mips/projects/functat) (41)它为原核生物和真核生物起源的蛋白质的功能描述提供了一个层次结构方案。的MIPS FunCat注释拟南芥(MAtDB版本2.1)存储在dbWFA中。

  • 拟南芥基因家族信息(TAIR版本10;网址:http://www.arabidopsis.org/browse/genefamily) (42),为植物模型物种提供基因家族信息拟南芥.

TriFLDB和其他公共数据库中的17 541个全长cDNA序列以及夏块菌UniGene集合(构建#55、#58、#59和#60)使用BLASTx算法处理拟南芥欧·萨提娃预测的cDNA序列(图1). 构建#55(用于开发夏块菌NimbleGen 40 k微阵列)(37)保留了以下主要版本,因为用户可能已经基于UniGene的不同版本开发了资源,即使NCBI只存储最新的版本。e值>10的BLAST结果没有存储在数据库中,因为我们认为这对大多数研究来说太差了。在将BLAST结果插入数据库之前,未对其应用其他筛选器。保留了BLAST表格结果中的所有参数,且>30×106UniGenes和95×10的BLAST结果6形成UniGene集群的EST的BLAST结果被存储,因此在查询数据库时可以快速筛选。

数据集成过程的简化示意图。
图1

数据集成过程的简化图。

数据库还包含关于夏块菌转录因子(2891个转录)、泛素蛋白酶体系统的E3泛素连接酶(876个转录),激素应答基因(467个转录)和种子贮藏蛋白(55个转录;图1). 转录因子UniGenes从wDBTF数据库中检索(34). E3连接酶和激素反应性UniGenes从NCBI和TAIR数据库中使用所有拟南芥欧·萨提娃E3连接酶和激素反应序列作为使用BLASTn、BLASTx和tBLASTx程序进行同源搜索的查询(36). 使用e值阈值10筛选BLAST点击5以及超过80 bp的对准长度。使用InterProScan程序检查所有序列的一致性和是否存在特定的蛋白质特征(http://www.ebi.ac.uk/Tools/pfa/iprscan/). 对于种子贮藏蛋白UniGenes,使用BLASTx和夏块菌种子贮藏蛋白序列作为参考。BLASTx结果未使用初步过滤器。相反,所有的比对都被仔细检查,种子贮藏蛋白的已知保守关键区域的相似性优先于e值和BLAST评分。在dbWFA中,管理的UniGene注释被分配给夏块菌没有任何中间BLAST结果的成绩单。

遵循国际小麦基因组测序联合会(IWGSC)的注释建议夏块菌基因组序列()覆盖率(相对于同源蛋白的长度)和身份用于为转录本指定功能注释。在dbWFA中,用户可以定义这两个参数的值,但我们强烈建议使用IWGSC建议的截止值,其中标识>45%且覆盖率>50%的BLAST结果被分配了一个“假定函数”,标识和覆盖率>90%的BLAST结果被分配一个“已知函数”。

所有数据都存储在MySQL数据库中。数据库的集成允许将上述任何系统的功能注释分配给感兴趣的抄本,反之亦然。因此,dbWFA数据库为注释夏块菌UniGenes。为了从dbWFA中找到最常见的信息类型,可以通过基于web的界面发送简单但相关的查询及其参数(图2). 结果以html页面的形式交付,并且可以使用导出过程在电子表格中检索数据。html结果页面提供链接,将用户重定向到不同注释系统的网站,允许对注释结果进行全局分析。该web界面还可用于为搜索结果自动创建MapMan映射文件。尽管dbWFA web界面只允许对常见查询进行数据挖掘,但可以使用SQL数据库执行特定查询,该数据库可以从dbWFA-网站下载。数据库的模块化将促进新夏块菌作为转录物的数据通过不同的管道进行测序和注释。

dbWFA数据库web界面的屏幕截图。(A) 用于查询PMN路径的页面。类似的页面可用于查询MIPS功能类别、TAIR基因家族、GO和MapMan容器。可以同时查询GO列表。(B) 查询UniGene或全长cDNA序列注释的页面。(C) 注释UniGenes的结果页。
图2

dbWFA数据库web界面的屏幕截图。(A)用于查询PMN路径的页面。类似的页面可用于查询MIPS功能类别、TAIR基因家族、GO和MapMan容器。可以同时查询GO列表。(B)用于查询UniGene或全长cDNA序列注释的页面。(C)注释UniGenes的结果页。

使用dbWFA:Annotated UniGenes的百分比,比较夏块菌UniGene和拟南芥欧·萨提娃全基因组注释和查询示例

UniGene构建#55、#58、#59和#60的转录序列中,分别有百分之三十四(13713个转录序列)、40%(14843)、35%(20 016)和35%(20 034)的转录序列在至少一个注释资源中具有假定的功能注释。TriFLDB的17 541个全长cDNA序列中,有81%在至少一个注释资源中具有假定的功能注释。不同资源中注释的转录本和全长cDNA序列的数量见表1BLASTn分析显示,12478个全长cDNA序列与UniGene集合(构建#60)中覆盖率和同一性阈值分别>50%和90%的序列相匹配。在这12478个对应中,分别有10996个和5932个全长cDNA序列和UniGene序列在至少一个注释资源中具有假定的功能注释。这一结果突出了全长cDNA序列带来的额外信息。

表1

从NCBI UniGene集合(构建#60)和从TriFLDB数据库检索到的全长cDNA(FL cDNA)序列中提取的小麦赤霉转录本的数量,在至少一个注释系统中用假定功能注释(覆盖率>50%,身份>45%)

功能注释系统带注释的成绩单数量
欧·萨提娃
拟南芥
总计
NCBI UniGene公司FL cDNANCBI UniGene公司FL cDNANCBI UniGene公司FL cDNA
MIPS功能分类12 94310 86412 94310 864
PlantCyc途径反应219321062093220830672911
政府官员13 142801410 44410 85016 07912 279
TAIR公司拟南芥基因家族4498379744983797
MapMan垃圾箱19 24814 03213 20210 89720 03314 224
固化路径或功能
    激素反应基因467
    泛素蛋白酶体系统876
    转录因子2891
功能注释系统带注释的成绩单数量
欧·萨提娃
拟南芥
总计
NCBI UniGene公司FL cDNANCBI UniGene公司FL cDNANCBI UniGene公司FL cDNA
MIPS功能分类12 94310 86412 94310 864
PlantCyc途径反应219321062093220830672911
政府官员13 142801410 44410 85016 07912 279
楼梯拟南芥基因家族4498379744983797
MapMan垃圾箱19 24814 03213 20210 89720 03314 224
固化路径或功能
    激素反应基因467
    泛素蛋白酶体系统876
    转录因子2891

在至少一个模式物种中用假定功能注释的转录本和全长cDNA序列的数量。

表1

从NCBI UniGene集合(构建#60)和从TriFLDB数据库检索到的全长cDNA(FL cDNA)序列中提取的小麦赤霉转录本的数量,在至少一个注释系统中用假定功能注释(覆盖率>50%,身份>45%)

功能注释系统带注释的成绩单数量
紫花苜蓿
拟南芥
总计
NCBI UniGene公司FL cDNANCBI UniGene公司FL cDNANCBI UniGene公司FL cDNA
MIPS功能分类12 94310 86412 94310 864
PlantCyc途径反应219321062093220830672911
政府官员13 142801410 44410 85016 07912 279
TAIR公司拟南芥基因家族4498379744983797
MapMan垃圾箱19 24814 03213 20210 89720 03314 224
固化路径或功能
    激素反应基因467
    泛素蛋白酶体系统876
    转录因子2891
功能注释系统带注释的成绩单数量
欧·萨提娃
拟南芥
总计
NCBI UniGene公司FL cDNANCBI UniGene公司FL cDNANCBI UniGene公司FL cDNA
MIPS功能分类12 94310 86412 94310 864
PlantCyc途径反应219321062093220830672911
政府官员13 142801410 44410 85016 07912 279
TAIR公司拟南芥基因家族4498379744983797
MapMan垃圾箱19 24814 03213 20210 89720 03314 224
固化路径或功能
    激素反应基因467
    泛素蛋白酶体系统876
    转录因子2891

在至少一个模式物种中用假定功能注释的转录本和全长cDNA序列的数量。

通过比较所有转录本的MapMan bin注释来说明注释方法的质量夏块菌NimbleGen 40 k微阵列(使用UniGene构建#55开发)和TriFLDB的全长cDNA序列,带有注释拟南芥欧·萨提娃从MapMan导入并记录在数据库中。这里使用MapMan垃圾箱是因为该注释系统可用于这三个物种。总的来说,这三个物种之间没有明显的差异(图3),这三个物种的26个类别中的基因百分比具有良好的相关性(夏块菌拟南芥:第页= 0.96,P(P)< 0.001;夏块菌欧·萨提娃:第页= 0.69,P(P)<0.001),无明显偏差(P(P)< 0.001). 发现与拟南芥与…相比欧·萨提娃主要是因为DNA库中的注释转录本较少欧·萨提娃拟南芥夏块菌(第页=0.90适用于夏块菌欧·萨提娃如果不考虑此箱子)。对于从TriFLDB和其他公共数据库检索到的全长编码序列夏块菌拟南芥以及介于夏块菌欧·萨提娃都是一样的(第页= 0.90,P(P)< 0.001). 所呈现的四个MapMan bin注释之间的成对相关性非常高,当省略DNA bin时,所有注释均>0.9。PlantCyc途径反应和GO也获得了类似的结果(数据未显示)。

MapMan bin注释的雷达图(对数标度),用于A.thaliana、O.sativa和T.aestivum UniGene(构建#60)和全长编码序列。数据占MapMan bin注释总数的百分比(表1)。构建#55、#58和#59获得了类似的结果(数据未显示)。为了使数字更清晰,一些垃圾箱已经合并。
图3

MapMan bin注释的雷达图(对数刻度)拟南芥,欧·萨提娃夏块菌UniGene(构建#60)和全长编码序列。数据占MapMan bin注释总数的百分比(表1). 构建#55、#58和#59获得了类似的结果(数据未显示)。一些箱子已经合并,以使图形更清晰。

与许多注释工具不同,dbWFA可以同时查询多个注释系统。为了演示dbWFA数据库的各种功能,中给出了一些查询示例方框1,使用网站或本地计算机上安装的数据库。

方框1。查询示例

为了证明dbWFA的有用性,本文介绍了几个可以使用当前系统执行的生物相关查询。在这些示例中,使用了UniGene构建#55,覆盖率和身份阈值分别为50%和45%,这是IWGSC的建议,以将假定功能分配给转录本。

查询1

找到所有可能具有植物烯合酶活性的普通小麦转录本

非重复序列
匹配序列
路线参数
身份证号码表示序列说明身份证号码说明覆盖率(%)身份(%)
塔41960塔_S16057905夏块菌克隆wr1.pk0139.g3:fis,全插入mRNA序列地点:06g51290植物酮合成酶,叶绿体前体,推测,表达59.781.4
AT5G17230型八氢番茄红素合酶5879.6
塔66029塔_S26027774FGAS000498标准夏块菌FGAS:图书馆2号门3?夏块菌cDNA、mRNA序列LOC_OS06G51290光气合酶,叶绿体前体,推测,表达55.348.9
AT5G17230型八氢番茄红素合酶59.747.08
非重复序列
匹配序列
路线参数
身份证号码表示序列说明身份证号码说明覆盖率(%)身份(%)
塔41960塔_S16057905夏块菌克隆wr1.pk0139.g3:fis,全插入mRNA序列LOC_OS06G51290植物酮合成酶,叶绿体前体,推测,表达59.781.4
AT5G17230型八氢番茄红素合酶5879.6
塔66029塔_S26027774FGAS000498标准夏块菌FGAS:2号图书馆3号门?夏块菌cDNA、mRNA序列LOC_OS06G51290光气合酶,叶绿体前体,推测,表达55.348.9
AT5G17230型八氢番茄红素合酶59.747.08

类胡萝卜素生物合成的第一个关键步骤是两个香叶基香叶基二磷酸分子通过植物烯合成酶缩合生成植物烯,它催化质体化类胡萝卜素途径中的速率控制步骤(43). 我们可以使用其web界面查询PlantCyc途径反应2.5.1.32的数据库。此查询的结果显示在上表中。两个夏块菌转录本上标注了推测的植物烯合酶活性。先前的研究表明,禾本科植物具有一个重复的植物烯合酶基因(44). 对两个带注释的UniGene序列进行的彻底分析证实,它们与在禾本科植物中发现的重复的植物烯合酶基因相对应。第三个八氢番茄红素合成酶已在Z.五月夏块菌(45,46). 虽然这三个欧·萨提娃植物烯合酶基因存在于数据库中夏块菌在dbWFA中未发现该植物烯合成酶基因的UniGene。

植物烯合酶活性也对应于GO:0016767 MapMan bin 16.1.4.1。在dbWFA中搜索此GO或MapMan bin会得到与上面相同的结果。当数据库安装在本地计算机上时,可以在单个MySQL查询中组合多个覆盖系统(例如PlantCyc pathway reaction和GO)。根据预期结果,还可以使用MySQL比较和生成查询的并集或交集。

查询2

尽可能多地查找有关成绩单列表的信息

非重复序列
GO(开始)TAIR公司混合动力系统植物周期地图管理员
身份证号码匹配
塔41960AT5G17230型去:000950701.06.06.132.5.1.3216.1.4.1
八氢番茄红素合酶编号:001611770.26.032.5.1.32
GO:0016767号
去:0046905
非重复序列
GO(开始)TAIR公司混合动力系统植物周期地图管理员
身份证号码匹配
塔41960AT5G17230型转到:000950701.06.06.132.5.1.3216.1.4.1
八氢番茄红素合酶编号:001611770.26.032.5.1.32
GO:0016767号
去:0046905

数据库的效率源于其多个注释系统。dbWFA的跨系统注释功能集成在“Transcript(s)annotation”搜索方法的web界面中。这种类型的查询可以用于获取在dbWFA中集成的不同注释系统中感兴趣的UniGenes列表的信息。查询查询1中检索到的第一个植物烯合成酶转录物的UniGene集合会产生上表所示的注释。在web界面上,用户可以选择仅显示最佳点击(如上表所示)或五个最佳点击,覆盖率和标识百分比大于用户设置的阈值。用户还可以选择要包含在查询和模型物种中的注释系统。结果将用户重定向到不同注释系统的网页,从而可以在感兴趣的抄本列表注释中获得更详细的信息。

查询3

在MapMan中找到与糖酵解途径相关的所有转录物进行转录组分析

Bin代码姓名标识符说明类型
4.1糖酵解.胞质分支塔_S16058223类似于UTP–葡萄糖-1-磷酸尿苷基转移酶,推定,表达T型
覆盖率:99.5745%,身份:92.75%
4.1.10糖酵解.细胞溶质分支.非磷酸化甘油醛3-磷酸脱氢酶(NPGAP-DH)塔_S13048872类似于醛脱氢酶T型
覆盖率:100%,身份:87.1%
4.1.10糖酵解.细胞溶质分支.非磷酸化甘油醛3-磷酸脱氢酶(NPGAP-DH)塔_S13048873类似于醛脱氢酶T型
覆盖率:100%,身份:79.23%
4.1.11糖酵解.胞质分支.醛缩酶塔_S15902802类似醛缩酶超家族蛋白T型
覆盖率:50.1873%,身份:85.07%
4.1.11糖酵解.胞质分支.醛缩酶塔_S17888674类似醛缩酶超家族蛋白T型
覆盖率:88.5475%,身份:48.91%
Bin代码姓名标识符说明类型
4.1糖酵解.胞质分支塔_S16058223类似于UTP–葡萄糖-1-磷酸尿苷酰转移酶,推测表达T型
覆盖率:99.5745%,身份:92.75%
4.1.10糖酵解.细胞溶质分支.非磷酸化甘油醛3-磷酸脱氢酶(NPGAP-DH)塔_S13048872类似于醛脱氢酶T型
覆盖率:100%,身份:87.1%
4.1.10糖原溶解。胞质分支。非磷酸化甘油醛3-磷酸脱氢酶(NPGAP-DH)塔_S13048873类似于醛脱氢酶T型
覆盖率:100%,身份:79.23%
4.1.11糖原溶胞分支醛缩酶塔_S15902802类似醛缩酶超家族蛋白T型
覆盖率:50.1873%,身份:85.07%
4.1.11糖酵解.胞质分支.醛缩酶塔_S17888674类似醛缩酶超家族蛋白T型
覆盖率:88.5475%,身份:48.91%

在搜索方法“MapMan映射文件生成器”中,用户可以选择代谢途径并自动创建映射文件,以可视化使用夏块菌使用组学数据查看和分析工具MapMan定制NimbleGen 40 k微阵列。糖酵解途径对应于bin代码4。上面显示了dbWFA为此查询生成的表的前五行。当数据库安装在本地计算机上时,可以同时查询多个路径以创建自定义夏块菌MapMan的映射文件。

籽粒发育早期和晚期特异表达单基因的鉴定与注释

UniGene集合(构建#55)中总共有39 029个转录本,以及wDBTF数据库中1613个转录因子,UniGene集中没有这些转录因子夏块菌NimbleGen 40 k微阵列(36). 以前的研究表明,这些转录本中的18140(44.6%)在夏块菌粮食开发(47). 在dbWFA中,34-40%(取决于构建)的这些转录本具有假定的功能注释。

夏块菌籽粒发育包括几个不同的阶段,首先是合胞体阶段,然后是细胞化阶段(花后约0–100°C天),然后是胚乳细胞活跃分裂(ECD)、膨胀和分化的第一个分化阶段(花后约100–250°C天后),第二个分化阶段是贮藏聚合物迅速积累的阶段(花后约250–750°C天),成熟阶段是籽粒迅速干燥的阶段(花后约750–900°C天(48,49). 这些阶段之间的转换与谷物转录组的主要变化有关(5,36,50,51)和蛋白质组(52,53).

为了验证数据库的基本原理,并提供dbWFA有用性的另一个例子,我们分析了在谷物发育的ECD或SPA阶段中特别表达的转录本的功能注释。我们使用自定义的转录组数据夏块菌用于夏块菌品种Recital在温室标准条件下生长,开花后132至686°C天内每34–117°C天取样一次(35). 使用J-Express 2012软件包对不同表达模式的转录本进行分类(54)使用基于欧几里德距离的k-means聚类。在本分析中,聚类数量根据经验设置为25,因为这使我们能够清楚区分特定于谷物发育的ECD和SPA阶段的基因表达聚类。一个由238个基因组成的集群包含仅在ECD阶段表达的基因(图4A和B)。另外两个簇包含SPA阶段独家表达的基因。后两个簇合并为一个包含195个基因的SPA簇。然后使用dbWFA从两个簇中检索转录物的功能分类。使用了MIPS功能分类,因为它是与先前研究进行比较时信息最丰富、最直观的。

在小麦籽粒发育的早期细胞分裂或晚期SPA阶段特异表达的基因的功能注释。(A) 早期和晚期发育特异性基因的表达热图。(B) 早期和晚期发育特异性基因簇的正常表达。标准化表达<7的转录本不被认为是表达的(即与背景噪声没有差异)。数据为两个UniGene簇基因的中位数±1 SD。(C)MIPS功能类别。
图4

细胞分裂早期或SPA晚期特异表达基因的功能注释夏块菌粮食发展。(A)早期和晚期发育特异性基因的表达热图。(B)早期和晚期发育特异性基因簇的正常表达。标准化表达<7的转录本不被认为是表达的(即与背景噪声没有差异)。数据为中位数±1 SD。(C)两个UniGene簇基因的MIPS功能类别。

使用IWGSC推荐的覆盖率(50%)和身份(45%)百分比,分别将68(29%)个ECD特异性转录本和129(66%)个SPA特异性转录物分配到MIPS功能类别(图4C) ●●●●。注释结果与之前的转录组一致(5,51)和蛋白质组(52,53)发展研究夏块菌六棱大麦(55)颗粒。基因簇的功能分类不同。毫不奇怪,12个涉及细胞命运和细胞类型、组织分化和器官分化的转录物在ECD阶段特异性表达,而没有SPA阶段特异性转录物被注释为属于这些MIPS功能类别。同样与我们对谷物发育的了解相一致的是,在SPA阶段,55个种子贮藏蛋白转录物被特异表达,而在注释的ECD特异基因中没有发现任何转录物。

还观察到这两组转录本注释的数量差异。SPA特异性簇中的几个转录物涉及细胞拯救、防御和毒力以及与环境的相互作用。特别是,参与植物激素调节的转录物在SPA特异性基因簇中过度表达。编码参与蛋白质合成的蛋白质和具有代谢功能的蛋白质的转录物在ECD簇中过度表达。这些结果与之前的转录组一致(5,36,56)和蛋白质组分析(53). 最后,我们注意到MIPS功能类别“具有结合功能或辅因子要求的蛋白质”存在重大差异,ECD簇中更多的转录物参与DNA结合,SPA簇中更多转录物参与RNA结合。

所有这些数据都显示出与发布的结果非常相似夏块菌六棱大麦,反映了dbWFA提供的自动注释的准确性。与其他几种不同夏块菌转录组分析,在该分析中,必须进行一个复杂的过程来为选定的转录物和/或蛋白质指定功能注释(5,57)在这里,只向dbWFA数据库发出了一个请求,以检索45%感兴趣的转录本的功能分类,以及40642个转录本的40%夏块菌NimbleGen 40 k微阵列。注释成绩单的这一百分比与之前报告的(38%)相似夏块菌Affymetrix GeneChip®微阵列(4).

见解

dbWFA数据库是通过集成大量数据源创建的。因此,它是一个实用的异构数据源,用于功能注释夏块菌抄本。该网站允许访问可应用于数据库的最常见查询,而免费提供的MySQL数据库是一个功能强大的工具,可用于更具体的请求。尽管需要进一步分析以确认dbWFA注释结果,但该数据库为获取广泛的功能信息提供了一个高效快速的解决方案。cDNA资源有助于从基因组序列预测外显子区域;因此,对UniGene资源进行注释的工作将对正在进行的序列数据的分析做出重大贡献夏块菌倡议和其他基因组测序项目。

这里介绍的dbWFA版本是可操作的,但目的不是将数据库限制为存储欧·萨提娃拟南芥注释,但随着功能注释变得更加一致,将其扩展到包括来自其他植物物种基因组的数据。InterProScan的集成(58)在工作流中可以是增强流程的一种有价值的方法。此外,AFAWE的集成(59)将使用不同的功能预测工具提供注释工作流。然而,AFAWE的当前版本不能独立于其web界面使用,因此必须使用其工作流中调用的工具来实现,这些工具可用作web服务。最后,即将在工作流中集成的BLAST程序将允许用户注释自己的序列,并使dbWFA适用于其他物种。

致谢

作者感谢Etienne Paux博士和Catherine Feuillet博士(INRA,UMR1095 GDEC,Clermont-Fleard,France)的有益讨论和建议,感谢Sébastien Reboux先生、Claire Viseux女士和Michael Alaux先生(INRA、URGI、Versailles,France,)在URGI服务器上安装和维护数据库。

基金

这项工作得到了法国高等教育和研究部对J.V.的博士学位资助。

利益冲突。未申报。

工具书类

1
费伊莱特
C类
Eversole公司
K(K)
小麦基因组的物理制图:为基因组测序奠定基础并为育种人员开发工具的协调努力
以色列。植物科学杂志。
2007
,体积。 
55
(第
307
-
313
)
2
费伊莱特
C类
浸出
JE公司
罗杰斯
J型
作物基因组测序:教训和原理
植物科学趋势。
2011
,体积。 
16
(第
77
-
88
)
勒罗伊
P(P)
吉约
N个
酒井
H(H)
TriAnnot:植物基因组自动注释的多功能高性能管道
前面。植物科学。
2012
,卷。 
(第
1
-
14
)
4
布伦奇利
R(右)
斯潘纳格尔
M(M)
普法伊费尔
M(M)
面包小麦全基因组鸟枪测序分析
自然
2012
,卷。 
491
(第
705
-
710
)
5
Y(Y)
普尔
RL公司
赫特人
阿克
六倍体小麦籽粒发育的转录组分析
BMC基因组学
2008
,卷。 
9
第页。 
121
 
6
佩尔尼
TK公司
洛夫格罗夫
A类
弗里曼
J型
发育中小麦淀粉胚乳的细胞壁:成分和RNA-Seq转录组的比较
植物生理学。
2012
,卷。 
158
(第
612
-
627
)
7
科勒
J型
Baumbach公司
J型
陶贝特
J型
用ONDEX对实验结果进行基于图形的分析和可视化
生物信息学
2006
,卷。 
22
(第
1383
-
1390
)
8
利森科
A类
辛德尔
MM(毫米)
陶贝特
J型
植物基因组学数据集成——拟南芥数据库
生物信息学简介
2009
,体积。 
10
(第
676
-
693
)
9
拉佐
希腊
S公司
Hummel公司
尽职调查
,等人
小麦表达序列标签(EST)资源的开发(小麦L.):16000-locus bin-delinated图的EST生成、单基因分析、探针选择和生物信息学
遗传学
2004
,卷。 
168
(第
585
-
593
)
10
H(H)
斯列尼瓦苏鲁
N个
韦斯科
W公司
基于表达序列标签的大麦转录组大规模分析
工厂J。
2004
,卷。 
40
(第
276
-
290
)
11
阿洛伊斯。
S公司
摩尔。
G公司
贝莱克。
A类
六倍体小麦的构建及特性(小麦L.)参考种质“中国春天”的BAC文库
谷物研究委员会。
2003
,卷。 
31
(第
331
-
338
)
12
萨法尔
J型
巴托斯
J型
詹达
J型
大而复杂的基因组解剖:面包小麦个体染色体的流分选和BAC克隆
工厂J。
2004
,卷。 
39
(第
960
-
968
)
13
威尔金森
PA公司
温菲尔德
卫生官员
巴克
GLA公司
谷物数据库2.0:植物育种家和科学家的综合资源
BMC生物信息学
2012
,卷。 
13
第页。 
219
 
14
K(K)
伯克曼
PJ公司
洛伦茨
M(M)
WheatGenome.info:小麦基因组信息的集成数据库和门户
植物细胞生理学。
2012
,卷。 
53
第页。 
第2页
 
15
施吕特
标准偏差
布伦德尔
V(V)
PlantGDB,植物基因组数据库和分析工具
核酸研究。
2004
,卷。 
32
 
数据库问题
(第
D354号
-
D359号
)
16
费伊莱特
C类
斯坦因
N个
罗西尼
L(左)
整合谷物基因组学以支持小麦科的创新
功能。集成。基因组学
2012
,卷。 
12
(第
573
-
583
)
17
关闭
TJ公司
瓦纳梅克
S公司
鲁斯
毫升
HarvEST公司
方法分子生物学。
2007
,卷。 
406
(第
161
-
177
)
18
埃斯特尔
JC公司
贝内特森
JL公司
植物基因组中基因和转座元件注释的DAWGPAWS管道
工厂方法
2009
,卷。 
5
第页。 
8
 
19
持田
K(K)
吉田
T型
樱井
T型
TriFLDB:小麦科簇状全长编码序列数据库及其在比较草基因组学中的应用
植物生理学。
2009
,卷。 
150
(第
1135
-
1146
)
20
马尼卡维鲁
A类
川村
K(K)
上好佳
K(K)
普通小麦表达序列标签的综合功能分析(小麦)
DNA研究。
2012
,卷。 
19
(第
165
-
177
)
21
拟南芥基因组计划
开花植物基因组序列分析拟南芥
自然
2000
,卷。 
408
(第
796
-
815
)
22
J型
S公司
J型
水稻基因组序列草图(水稻L.ssp.公司。印度)
科学类
2002
,卷。 
296
(第
79
-
92
)
23
国际水稻基因组测序项目
基于地图的水稻基因组序列
自然
2005
,卷。 
436
(第
793
-
800
)
24
Schnable公司
PS(聚苯乙烯)
器皿
D类
富尔顿
RS系列
B73玉米基因组:复杂性、多样性和动态
科学类
2009
,卷。 
326
(第
1112
-
1115
)
25
施穆茨
J型
加农炮
某人
施吕特
J型
古多倍体大豆的基因组序列
自然
2010
,卷。 
463
(第
178
-
183
)
26
帕特森
AH(AH)
鲍尔斯
JE公司
布鲁格曼
R(右)
,等人
高粱双色基因组与禾本科植物的多样性
自然
2009
,卷。 
457
(第
551
-
556
)
27
国际钪倡议
模式草短梗草基因组测序及分析
自然
2010
,卷。 
463
(第
763
-
768
)
28
迈耶
KFX公司
R(右)
兰里奇
P(P)
大麦基因组的物理、遗传和功能序列组装
自然
2012
,卷。 
491
(第
711
-
716
)
29
范·贝尔
M(M)
普鲁斯特
S公司
Wischnitzki公司
E类
利用PLAZA比较基因组学平台解剖植物基因组
植物生理学。
2012
,卷。 
158
(第
590
-
600
)
30
达萨纳亚克
M(M)
DH(决断高度)
哈斯
JS公司
极端嗜热十字花科菌Thellungiella parvula的基因组
自然遗传学。
2011
,卷。 
43
(第
913
-
918
)
31
科内萨
A类
哥茨
S公司
加西亚-戈梅兹
吉咪
Blast2GO:功能基因组学研究中注释、可视化和分析的通用工具
生物信息学
2005
,卷。 
21
(第
3674
-
3676
)
32
拉梅什
P(P)
贝拉尔迪尼
TZ公司
D类
,等人
拟南芥信息资源(TAIR):改进的基因注释和新工具
核酸研究。
2011
,卷。 
40
(第
D1202号
-
210天
)
33
欧阳
S公司
W公司
汉密尔顿
J型
TIGR水稻基因组注释资源:改进和新特点
核酸研究。
2007
,卷。 
35
(第
D883型
-
D887型
)
34
阿尔特舒尔
旧金山
马登
TL公司
Schäffer公司
AA公司
缺口BLAST和PSI-BLAST:新一代蛋白质数据库搜索程序
核酸研究。
1997
,卷。 
25
(第
3389
-
3402
)
35
罗默夫
泰西(Tessier)
D类
达尔德韦
M(M)
wDBTF:研究小麦转录因子家族的综合数据库资源
BMC基因组学
2010
,卷。 
11
第页。 
185
 
36
Capron公司
D类
穆泽亚尔
S公司
巨砾状的
A类
小麦籽粒发育过程中E3连接酶和激素相关基因的转录谱分析
BMC植物生物学。
2012
,卷。 
12
第页。 
35
 
37
勒斯滕霍尔茨
C类
舒莱
F类
劳希耶
C类
3B染色体3000-loci转录图揭示了六倍体小麦基因岛的结构和功能特征
植物生理学。
2011
,卷。 
157
(第
1596
-
1608
)
38
阿什伯恩
M(M)
加利福尼亚州
布莱克
青年成就组织
,等人
基因本体论:生物学统一的工具
自然遗传学。
2011
,卷。 
25
(第
25
-
29
)
39
P(P)
德勒埃
K(K)
卡斯基
A类
建立全基因组代谢途径数据库毛果杨利用新方法重建和管理植物代谢途径
植物生理学。
2010
,卷。 
153
(第
1479
-
1491
)
40
Thimm公司
O(运行)
布莱辛
O(运行)
吉邦
Y(Y)
Mapman:一个用户驱动的工具,用于在代谢途径和其他生物过程的图表上显示基因组数据集
工厂J。
2004
,卷。 
37
(第
914
-
939
)
41
Ruepp公司
A类
佐尔拉
A类
迈尔
D类
FunCat,一种用于全基因组蛋白质系统分类的功能注释方案
核酸研究。
2004
,卷。 
32
(第
5539
-
5545
)
42
李(Rhee)
SY公司
比维斯
W公司
贝拉尔迪尼
TZ公司
拟南芥信息资源(TAIR):一个模型生物数据库,提供了一个集中式的、有计划的途径,可以访问拟南芥子生物学、研究材料和社区
核酸研究。
2003
,卷。 
31
(第
224
-
228
)
43
坎宁安
外汇
甘特图
E类
植物类胡萝卜素生物合成的基因和酶
每年。植物生理学修订版。植物分子生物学。
1998
,卷。 
49
(第
557
-
583
)
44
加拉赫
总工程师
马修斯
PD公司
F类
类胡萝卜素生物合成途径中的基因复制先于禾本科植物的进化
植物生理学。
2004
,卷。 
135
(第
1776
-
1783
)
45
F类
瓦拉布哈尼
R(右)
沃策尔
电子技师
PSY3是禾本科植物烯合酶基因家族的一个新成员,也是非生物胁迫诱导根胡萝卜素生成的调节因子
植物生理学。
2008
,卷。 
146
(第
1333
-
1345
)
46
迪巴里
B类
穆拉特
F类
肖松
A类
解读禾草中与胡萝卜素生成相关的植物烯合成酶的基因组结构、功能和进化
BMC基因组学
2012
,卷。 
13
第页。 
221
 
47
罗默夫
识别生物信息学blétendre转录工作人员(小麦)et mise enévidence des factors de transcription impliques s dans la synthèse des protéines de réserve
2010
 
博士论文《克莱蒙特-法尔德第二大学》,布莱斯·帕斯卡,克莱蒙特–法尔德,法国,第223页
48
贝内特
医学博士
拉奥
迈克科尔斯
史密斯
接线盒
花药、胚珠和种子中的细胞发育小麦L.Var.中国春天
菲洛斯。T.R.Soc.B公司
1975
,卷。 
266
(第
6
-
81
)
49
埃弗斯
T型
米勒
S公司
谷物的结构和发育:对品质的一些影响
谷物科学杂志。
2002
,卷。 
36
(第
261
-
284
)
50
德雷亚
S公司
领导者
流行音乐播音员
阿诺德
不列颠哥伦比亚省
小麦颖果基因表达的系统空间分析
植物细胞。
2005
,卷。 
17
(第
2172
-
2185
)
51
劳登西亚·辛坎科
DL公司
斯塔莫娃
英国标准
FM公司
小麦颖果发育的cDNA微阵列转录谱分析
植物分子生物学。
2007
,体积。 
63
(第
651
-
668
)
52
纳达尔
吉鲁斯
C类
借记
C类
,等人
小麦籽粒发育早期的蛋白质组和形态分析
蛋白质组学
2010
,卷。 
10
(第
2901
-
2910
)
53
塔斯利姆-塔希尔
A类
纳达尔
尚邦
C类
小麦籽粒发育21个阶段淀粉胚乳代谢蛋白的表达谱
蛋白质组研究杂志。
2012
,卷。 
11
(第
2754
-
2773
)
54
戴斯维克
B类
乔纳森
J-Express:使用Java探索基因表达数据
生物信息学
2001
,卷。 
17
(第
369
-
370
)
55
斯雷尼瓦苏鲁
N个
拉丘克
V(V)
斯特里克特
M(M)
基因表达模式揭示了控制大麦种子发育过程中程序性细胞死亡和ABA调节成熟的组织特异性信号网络
工厂J。
2006
,卷。 
47
(第
310
-
327
)
56
克拉克
不列颠哥伦比亚省
霍布斯
M(M)
Skylas公司
D类
小麦胚乳发育中的活性基因
功能。集成。基因组学
2000
,卷。 
1
(第
44
-
55
)
57
苏奇
A类
贾格尔
K(K)
尤尔卡
缺水单独或与高温联合对小麦早期籽粒发育直接影响的组织学和微阵列分析(小麦)
物理植物。
2010
,卷。 
140
(第
174
-
188
)
58
戈洪
M(M)
麦克威廉
H(H)
W公司
EMBL–EBI的新生物信息学分析工具框架
核酸研究。
2010
,卷。 
38
(第
W695型
-
W699型
)
59
约克
A类
霍夫曼
F类
格罗斯库特
A类
基于web服务的集成环境中的蛋白质功能预测和注释(AFAWE)
生物信息学
2008
,卷。 
24
(第
2393
-
2394
)

作者注释

现住址:Zhanwu Dai,INRA,ISVV,UMR1287 Ec cophysologie et Génomique Fonctionnelle de la Vigne(EGFV),F-33 882 Villenave d'Ornon,France

引文详情:Vincent,J.、Dai,Z.W.、Ravel,C。等。dbWFA:一个基于web的数据库,用于功能注释小麦抄本。数据库(2013)卷2013:文章ID bat014;doi:10.1093/database/bat014

这是一篇根据知识共享署名非商业许可条款发布的开放存取文章(http://creativecommons.org/licenses/by-nc/3.0/)它允许在任何媒体上无限制地进行非商业性使用、分发和复制,前提是正确引用了原始作品。