摘要
禾本科植物是一种公认的植物比较基因组分析资源。数据通过自动化和管理分析生成,并通过GrameneMart等web界面提供。Gramene项目是BioMart软件的早期采用者,该软件仍然是Gramene网站不可或缺且使用广泛的组件。BioMart可访问的数据集包括植物基因注释、植物变异目录、遗传标记、物理绘图实体、各种类型的公共DNA/mRNA序列和各种物种的精选数量性状位点。
数据库URL:http://www.gramene.org/biomart/martview网站
项目描述
Gramene项目(网址:http://www.gramene.org)于2001年3月推出,作为一个精心策划的、开源的、可通过网络访问的数据资源,用于比较基因组分析(1). Gramene的目的是为公共部门内可用的数据集提供附加值,这有助于研究人员了解植物基因组,并利用一个物种已知的基因组序列来识别和了解其他草物种的相应基因、途径和表型。这是通过在物种之间建立自动化和管理的关系来实现的,可以使用GrameneMart等基于网络的界面进行查询和显示。
自发布以来的10年中,Gramene数据库的范围和规模都有所增加。2011年10月发布的第34个构建包含数百种植物的49M个遗传标记和相关DNA序列,以及22个组装植物基因组(14个已完成,8个部分)。图1显示了Gramene数据库在Gramene基因组模块中表示的完整和部分测序物种数量方面的增长。
除了Gramene开发的代码外,该项目自2002年1月以来还使用了Ensembl项目开发的代码(2)用于基因组浏览器。Gramene的第一个版本包括BioMart软件(三)是2005年7月的第18版,它使用了Ensembl提供的数据转换工具。
随着2009年合奏基因组项目的启动(4)Gramene已就植物集成数据库的生成展开密切合作,包括共享植物基因和植物变异生物标记;这些数据库以及用于查询它们的界面在Gramene和Ensembl Genomes网站上都有反映。第一个协同发布是2009年10月发布的Gramene v30,Ensembl Genomes 3。
在2011年10月发布的Gramene v34中,GrameneMart使用BioMart 0.7版软件构建,Gramene网站使用BioMart 0.7版本软件。
查询示例
GrameneMart的MartView web界面位于http://www.biomert.org/biomart/martview,也可以从中央生物城门户访问http://www.biomert.org/biomart/martview植物基因Mart和植物变异Mart的镜像可通过集合基因组获得;http://plants.ensembl.org/biomart/martview.
为了演示GrameneMart数据库的各种功能,我们在中提供了各种示例查询表1.
数据库. | 数据集. | 过滤器. | 属性. |
---|
问题1:查找拟南芥葡萄中具有同源基因的基因、葡萄同源基因的EntrezGene ID和同源程度 |
植物基因 | 1拟南芥基因 | 1.a.多物种比较:同源过滤器:同源葡萄基因:仅 | 1.同音词: 1.a.基因:集合,集合基因ID 1.b.矫形:葡萄同源型直系 1.c.正交:葡萄正交曲线,%恒等式
|
2葡萄基因一 | | |
问题2:哪一个阻止了密码子引入SNP拟南芥与可评分表型相关,概率是多少? |
植物变化 | 1拟南芥变化 | | 1.变更: 1.a.序列变量:变量信息,变量ID 1.b.序列变异:变异注释,表型名称 1.c.序列变更:变更注释,P(P)-价值
|
问题3:列出所有高粱RFLP标记及其相关的GenBank序列 |
Gramene标记 | 1.RFLP标记 | 1.品种:双色高粱 1.b.标记:分析对应类型:entrez 1.c.标记:分析对应标记类型:GSS
| 1.a.标记:物种 1.b.标记:标记名称 1.c.标记:分析性信函、分析性信函类型 1.d.标记:分析对应关系,标记名称
|
问题4:在2006年玉米染色体指纹Contig(FPC)地图上列出所有克隆及其位置。 |
Gramene映射 | 1.物理映射 | | 1.a.位置:地图集名称 1.b.位置:地图名称 1.c.位置:映射开始 1.d.位置:映射结束 1.e.标记:标记类型 1.f.标记:标记名称
|
问题5:哪些水稻QTL与产量相关的表型相关? |
革兰烯QTL | 1.qtl | | 1.a.qtl:qtl登录ID 1.b.qtl:性状类别 1.c.qtl:性状名称
|
数据库. | 数据集. | 过滤器. | 属性. |
---|
问题1:查找拟南芥葡萄中具有同源基因的基因、葡萄同源基因的EntrezGene ID和同源程度 |
植物基因 | 1拟南芥基因 | 1.a.多物种比较:同源过滤器:同源葡萄基因:仅 | 1.同音词: 1.a.基因:集合,集合基因ID 1.b.矫形:葡萄同源型直系 1.c.矫形:葡萄正交曲线,%恒等式
|
2葡萄基因一 | | |
问题2:哪一个阻止了密码子引入SNP拟南芥与可评分表型相关,概率是多少? |
植物变化 | 1拟南芥变化 | | 1.变更: 1.a.序列变量:变量信息,变量ID 1.b.序列变异:变异注释,表型名称 1.c.序列变更:变更注释,P(P)-价值
|
问题3:列出所有高粱RFLP标记及其相关的GenBank序列 |
Gramene标记 | 1.RFLP标记 | 1.品种:双色高粱 1.b.标记:分析对应类型:entrez 1.c.标记:分析对应标记类型:GSS
| 1.a.标记:物种 1.b.标记:标记名称 1.c.标记:分析性信函、分析性信函类型 1.d.标记:分析对应、标记名称
|
问题4:在2006年玉米染色体指纹Contig(FPC)地图上列出所有克隆及其位置。 |
Gramene映射 | 1.物理映射 | | 1.a.位置:地图集名称 1.b.位置:地图名称 1.c.位置:映射开始 1.d.位置:映射结束 1.e.标记:标记类型 1.f.标记:标记名称
|
问题5:哪些水稻QTL与产量相关表型相关? |
革兰烯QTL | 1.qtl | | 1.a.qtl:qtl登录ID 1.b.qtl:性状类别 1.c.qtl:性状名称
|
数据库. | 数据集. | 过滤器. | 属性. |
---|
问题1:查找拟南芥葡萄中具有同源基因的基因、葡萄同源基因的EntrezGene ID和同源程度 |
植物基因 | 1拟南芥基因 | 1.a.多物种比较:同源过滤器:同源葡萄基因:仅限 | 1.同音词: 1.a.基因:集合,集合基因ID 1.b.矫形:葡萄同源型直系 1.c.矫形:葡萄正交曲线,%恒等式
|
2葡萄基因一 | | |
问题2:哪一个阻止了密码子引入SNP拟南芥与可评分表型相关,概率是多少? |
植物变化 | 1拟南芥变化 | | 1.变更: 1.a.序列变量:变量信息,变量ID 1.b.序列变异:变异注释,表型名称 1.c.序列变更:变更注释,P(P)-价值
|
问题3:列出所有高粱RFLP标记及其相关的GenBank序列 |
Gramene标记 | 1.RFLP标记 | 1.a.物种:双色高粱 1.b.标记:分析对应类型:entrez 1.c.标记:分析对应标记类型:GSS
| 1.a.标记:物种 1.b.标记:标记名称 1.c.标记:分析性信函、分析性信函类型 1.d.标记:分析对应、标记名称
|
问题4:在2006年玉米染色体指纹Contig(FPC)地图上列出所有克隆及其位置。 |
Gramene映射 | 1.物理映射 | | 1.a.位置:地图集名称 1.b.位置:地图名称 1.c.位置:映射开始 1.d.位置:映射结束 1.e.标记:标记类型 1.f.标记:标记名称
|
问题5:哪些水稻QTL与产量相关表型相关? |
革兰烯QTL | 1.qtl | | 1.a.qtl:qtl登录ID 1.b.qtl:性状类别 1.c.qtl:性状名称
|
数据库. | 数据集. | 过滤器. | 属性. |
---|
问题1:查找拟南芥葡萄中具有同源基因的基因、葡萄同源基因的EntrezGene ID和同源程度 |
植物基因 | 1拟南芥基因 | 1.a.多物种比较:同源过滤器:同源葡萄基因:仅 | 1.同音词: 1.a.基因:集合,集合基因ID 1.b.矫形:葡萄同源同源物 1.c.矫形:葡萄正交曲线,%恒等式
|
2葡萄基因一 | | |
问题2:哪一个阻止了密码子引入SNP拟南芥与可评分表型相关,概率是多少? |
植物变化 | 1拟南芥变化 | | 1.变更: 1.a.序列变量:变量信息,变量ID 1.b.序列变异:变异注释,表型名称 1.c.序列变更:变更注释,P(P)-价值
|
问题3:列出所有高粱RFLP标记及其相关的GenBank序列 |
Gramene标记 | 1.RFLP标记 | 1.品种:双色高粱 1.b.标记:分析对应类型:entrez 1.c.标记:分析对应标记类型:GSS
| 1.a.标记:物种 1.b.标记:标记名称 1.c.标记:分析性信函、分析性信函类型 1.d.标记:分析对应、标记名称
|
问题4:在2006年玉米染色体指纹Contig(FPC)地图上列出所有克隆及其位置。 |
Gramene映射 | 1.物理映射 | | 1.a.位置:地图集名称 1.b.位置:地图名称 1.c.位置:映射开始 1.d.位置:映射结束 1.e.标记:标记类型 1.f.标记:标记名称
|
问题5:哪些水稻QTL与产量相关表型相关? |
革兰烯QTL | 1.qtl | | 1.a.qtl:qtl登录ID 1.b.qtl:性状类别 1.c.qtl:性状名称
|
数据内容
Gramene有五个BioMart数据库;植物基因Mart、植物变异Mart、Gramene标记、GrameneMappings和GrameneQTL。其中,两个植物火星是由集合基因组发展而来的,而其他三个,即Gramene标记、Gramene映射和Gramene QTL,是Gramene特有的。每个数据库如下所述。
Plant Gene Mart数据库
截至2011年10月,Gramene版本的Plants Genes Mart数据库保存了Gramene中14个完全测序的植物基因组中的每个基因组的数据集。植物基因数据库的一个有用功能是能够使用广泛的基因锚定交叉参考集将一种类型的基因标识符映射到另一种类型。来自Plant Gene Mart的交叉引用源包括EMBL(5)、EntrezGene(6),IPI(7),PDB(8),参考序列(9),UniProt公司(10)和UniGene(11),PlantGDB转录汇编(12)和基因索引中的标识符(13). 还有一些物种特定的标识符,包括BGI-RIS(14),水稻基因组注释项目(15)和RAP-DB(16)水稻基因鉴定;IGGP公司(17)葡萄基因鉴定;JGI基因标识符琴叶拟南芥(18),高粱(19)和杨树(20);和TAIR(21)标识符拟南芥.
与其他Gramene模块的交叉引用,如基因、标记/序列(见下文)和通路(1)还表示并用于将其他基因分配给EC编号和来自各种本体的术语,包括植物本体和基因本体(22).
植物基因集市允许用户根据基因组区域、基因生物类型、数据库交叉引用、本体术语、与其他物种中的基因的同源关系或与同一物种中的基因的同源关系、蛋白质结构域注释以及任何潜在基因组变体的后果(如有)进行筛选和导出相关属性。针对Plant Gene Mart数据库的查询示例包括在表1.
Plant Variation Mart数据库
Plant Variation Mart数据库保存了DNA变体目录,包括单核苷酸多态性(SNP)和插入/缺失(indels)拟南芥水稻(粳稻组)、水稻(籼稻组)和葡萄。这个拟南芥数据集包含从多个研究中汇编的超过8700000个变体(23,24)代表1000多个SNP发现和基因分型拟南芥加入。除了变异体、它们的基因组位置和相应的遗传后果外,还有一些性状关联数据(23)也暴露在外。水稻数据集,包括籼稻和粳稻,包含约5500000个变体,主要来自dbSNP(25),但在水稻NP的20份材料中也发现了15万个SNP(26)和来自395份材料的1536个SNP小组基因分型数据(27). 葡萄变异数据集包含18个葡萄品种的下一代测序发现的46万个SNP(28).
Plant Variation Mart允许用户通过基因组区域、变异ID、表型关联、变异集/研究、菌株/加入、基因关联和结果筛选并导出相关属性。针对Plant Variation Mart数据库的查询示例包括在表1.
Gramene标记数据库
该数据库包含Gramene中的所有遗传标记和相关DNA/mRNA序列记录,截至2011年10月,共有4900万条记录。与旨在为其各自基因组提供综合目录的基因和变异市场数据库不同,标记数据库代表了许多物种的广泛实体,这些实体已在公共领域提供,例如通过GenBank等数据库。
Gramene Markers数据库中的实体按类型分类,并为每种类型创建一个数据集。不同的类型和数量如所示表2。标记通过对应关系相互连接,例如,单个表达序列标记对应于它们所属的EST簇,这些关联在数据库中表示并作为过滤器/属性公开。数据库还将类型中的标记分组到库中。
表2。标记类型和每个标记的记录数在Gramene Markers生物标记数据库中表示为数据集
标记类型/BioMart数据集. | 记录的数量. |
---|
扩增片段长度多态性 | 8150 |
断点间隔 | 303 |
中心粒 | 57 |
克隆 | 2 242 577 |
删除 | 333 |
EST集群 | 6 154 296 |
表达序列标签,EST | 20 690 805 |
荧光原位杂交,FISH,探针。 | 37 |
指纹轮廓,FPC | 17 479 |
基因组调查序列 | 10 653 993 |
基因预测 | 354 564 |
基因 | 10 781 |
基因组DNA | 5 263 129 |
基于插入位点的多态性 | 691 |
插入 | 310 |
微阵列探针 | 260 656 |
信使核糖核酸 | 651 207 |
Overgo杂交探针 | 24 464 |
寡核苷酸 | 2 396 466 |
点 | 332 |
底漆 | 80 555 |
被探测的站点 | 11 532 |
数量性状位点 | 11 625 |
多态性DNA的随机扩增 | 175 |
限制性片段长度多态性 | 18 761 |
简单序列重复,SSR | 24 422 |
序列标记站点,STS | 3437 |
端粒 | 20 |
标记类型/BioMart数据集. | 记录的数量. |
---|
扩增片段长度多态性 | 8150 |
断点间隔 | 303 |
中心粒 | 57 |
克隆 | 2 242 577 |
删除 | 333 |
EST集群 | 6 154 296 |
表达序列标签,EST | 20 690 805 |
荧光原位杂交,FISH,探针。 | 37 |
指纹轮廓,FPC | 17 479 |
基因组调查序列 | 10 653 993 |
基因预测 | 354 564 |
基因 | 10 781 |
基因组DNA | 5 263 129 |
基于插入位点的多态性 | 691 |
插入 | 310 |
微阵列探头 | 260 656 |
信使核糖核酸 | 651 207 |
Overgo杂交探针 | 24 464 |
寡核苷酸 | 2 396 466 |
点 | 332 |
底漆 | 80 555 |
被探测的站点 | 11 532 |
数量性状位点 | 11 625 |
多态性DNA的随机扩增 | 175 |
限制性片段长度多态性 | 18 761 |
简单序列重复,SSR | 24 422 |
序列标记站点,STS | 3437 |
端粒 | 20 |
表2。标记类型和每个标记的记录数在Gramene Markers生物标记数据库中表示为数据集
标记类型/BioMart数据集. | 记录的数量. |
---|
扩增片段长度多态性 | 8150 |
断点间隔 | 303 |
中心粒 | 57 |
克隆 | 2 242 577 |
删除 | 333 |
EST集群 | 6 154 296 |
表达序列标签,EST | 20 690 805 |
荧光原位杂交,FISH,探针。 | 37 |
指纹轮廓,FPC | 17 479 |
基因组调查序列 | 10 653 993 |
基因预测 | 354 564 |
基因 | 10 781 |
基因组DNA | 5 263 129 |
基于插入位点的多态性 | 691 |
插入 | 310 |
微阵列探头 | 260 656 |
信使核糖核酸 | 651 207 |
Overgo杂交探针 | 24 464 |
寡核苷酸 | 2 396 466 |
点 | 332 |
底漆 | 80 555 |
被探测的站点 | 11 532 |
数量性状位点 | 11 625 |
多态性DNA的随机扩增 | 175 |
限制性片段长度多态性 | 18 761 |
简单序列重复,SSR | 24 422 |
序列标记站点,STS | 3437 |
端粒 | 20 |
标记类型/BioMart数据集. | 记录的数量. |
---|
扩增片段长度多态性 | 8150 |
断点间隔 | 303 |
中心粒 | 57 |
克隆 | 2 242 577 |
删除 | 333 |
EST集群 | 6 154 296 |
表达序列标签,EST | 20 690 805 |
荧光原位杂交,FISH,探针。 | 37 |
指纹Contig,FPC | 17 479 |
基因组调查序列 | 10 653 993 |
基因预测 | 354 564 |
基因 | 10 781 |
基因组DNA | 5 263 129 |
基于插入位点的多态性 | 691 |
插入 | 310 |
微阵列探头 | 260 656 |
信使核糖核酸 | 651 207 |
Overgo杂交探针 | 24 464 |
寡核苷酸 | 2 396 466 |
点 | 332 |
底漆 | 80 555 |
被探测的站点 | 11 532 |
数量性状位点 | 11 625 |
多态性DNA的随机扩增 | 175 |
限制性片段长度多态性 | 18 761 |
简单序列重复,SSR | 24 422个 |
序列标记站点,STS | 3437 |
端粒 | 20 |
Gramene Markers数据库允许用户筛选和导出与物种、种质、名称/同义词、库/源和相关(对应)实体相关的属性。Gramene Markers数据库的示例查询包含在表1.
Gramene Mappings数据库
Gramene Mappings数据库对标记(如上所述)和分子图之间的映射进行建模。各种图谱类型、bin、细胞遗传学、缺失、遗传、物理、数量性状位点(QTL)、序列都被建模为单独的数据集。
Gramene Mappings数据库允许用户筛选和导出与物种、地图集/地图(例如染色体)、地图位置、标记名称、标记类型和分析相关的属性。针对Gramene Mappings数据库的示例查询包含在表1.
Gramene QTL数据库
QTL数据库包含Gramene中所有QTL的详细信息;目前有10个物种中的11624个。该数据库的重点是通过Trait本体查询和报告QTL(22)术语。针对Gramene QTL数据库的示例查询包含在中的“查询5”中表1.
讨论和未来方向
Gramene是BioMart软件的长期用户。我们已经部署了Ensembl数据转换和界面配置,并从基于MySQL的数据资源到定制模式开发了Gramene特定转换,我们广泛使用了BioMart MartBuilder和MartEditor软件。GrameneMart已成为Gramene网站不可或缺且使用广泛的组成部分。我们将酌情采用Ensembl和BioMart项目的软件更新。
Gramene未来的BioMart工作将专注于数据联合,既包括Gramene数据库之间的内部联合,也包括与第三方数据集的外部联合。我们预计这将显著提高Gramene广泛的本体论和表型连锁数据的效用。
基金
国家科学基金会(NSF)(批准号0703908,0851652)。开放存取费用的资金来源:NSF(拨款IOS-0703908)。
利益冲突。未申报。
致谢
我们要感谢用户的反馈和支持,以及为Gramene提供数据的合作者和贡献者。我们还要感谢安大略省癌症研究所(OICR)的生物超市团队开发和支持生物超市软件,也感谢欧洲生物信息学研究所和Wellcome Trust Sanger研究所的集成和集成基因组团队开发并支持集成软件。
工具书类
1, , 等2010年Gramene数据库:更新和扩展
, 核酸研究。
, 2011
,卷。 39
(第D1085号
-1094
) 2, , 等2011年合奏
, 核酸研究。
, 2011
,卷。 39
(第D800型
-D806型
) 三, , 等BioMart-简化生物查询
, BMC基因组学
, 2009
,卷。 10
第页。 22
4, , 等集成基因组:跨分类空间扩展集成
, 核酸研究。
, 2010
,卷。 38
(第D563型
-第569页
) 5, , 等集成跟踪档案和EMBL核苷酸序列数据库中核苷酸跟踪、序列和注释数据捕获的优先级
, 核酸研究。
, 2007
,卷。 36
(第D5型
-第12天
) 6, , , . Entrez Gene:NCBI以基因为中心的信息
, 核酸研究。
, 2011
,卷。 39
(第D52型
-D57型
) 7, , 等国际蛋白质索引:蛋白质组学实验的综合数据库
, 蛋白质组学
, 2004
,卷。 4
(第1985
-1988
) 8, , , . 全球蛋白质数据库(wwPDB):确保PDB数据的单一、统一存档
, 核酸研究。
, 2007
,卷。 35
(第D301号
-D303号
) 9, , , . NCBI参考序列:当前状态、政策和新举措
, 核酸研究。
, 2009
,卷。 37
(第第32天
-第36天
) 10UniProt财团
2010年全球蛋白质资源(UniProt)
, 核酸研究。
, 2010
,卷。 38
(第D142号
-D148号
) 11, , 等国家生物技术信息中心的数据库资源
, 核酸研究。
, 2011
,卷。 39
(第第38天
-D51型
) 12, , 等PlantGDB:比较植物基因组学资源
, 核酸研究。
, 2008
,卷。 36
(第D959型
-D965号
) 13, , 等TIGR基因指数:高采样真核生物的基因转录序列分析
, 核酸研究。
, 2001
,卷。 29
(第159
-164
) 14, . BGI-RIS第二版
, 方法分子生物学。
, 2007
,卷。 406
(第275
-299
) 15, , 等TIGR水稻基因组注释资源:改进和新特点
, 核酸研究。
, 2007
,卷。 35
(第D883型
-D887型
) 16, , 等水稻注释项目数据库(RAP-DB):2008年更新
, 核酸研究。
, 2008
,卷。 36
(第D1028号
-D1033型
) 17, , 等葡萄基因组序列表明主要被子植物门中祖先的六倍体
, 自然
, 2007
,卷。 449
(第463
-467
) 18, , 等这个琴叶拟南芥基因组序列与基因组大小快速变化的基础
, 自然遗传学。
, 2010
,卷。 43
(第476
-481
) 19, , 等这个双色高粱基因组与禾本科植物的多样性
, 自然
, 2009
,卷。 457
(第551
-556
) 20, , 等黑杨的基因组,毛果杨(托尔和格雷)
, 科学类
, 2006
,卷。 313
(第1596
-1604
) 21, , 等拟南芥信息资源(TAIR):基因结构和功能注释
, 核酸研究。
, 2008
,卷。 36
(第D1009号
-D1014号
) 22, . 水稻数据库中的生物本体。Gramene和Oryzabase活性简介
, 植物细胞生理学。
, 2005
,卷。 46
(第63
-68
) 23, , 等拟南芥自交系107个表型的基因组关联研究
, 自然
, 2010
,卷。 465
(第627
-631
) 24, . 拟南芥1001基因组计划
, 基因组生物学。
, 2009
,卷。 10
第页。 107
25, , 等dbSNP:NCBI遗传变异数据库
, 核酸研究。
, 2001
,卷。 29
(第308
-311
) 26, , 等对多种多样的水稻品种进行测序。将全基因组变异与表型联系起来
, 植物生理学。
, 2006
,卷。 141
(第26
-31
) 27, , 等水稻基因组多样性和渐渗揭示了驯化和育种对水稻基因组的影响
, 公共科学图书馆一号
, 2010
,卷。 5
第页。 电子10780
28, , 等葡萄属植物的快速基因组特征
, 公共科学图书馆一号。
, 2011
,卷。 5
第页。 电子8219
29, , 等Ensembl BioMarts:跨分类空间的数据检索中心
, 数据库
, 2011
©作者2012。牛津大学出版社出版。
这是一篇根据知识共享署名非商业许可条款发布的开放存取文章(http://creativecommons.org/licenses/by-nc/3.0)它允许在任何媒体上无限制地进行非商业性使用、分发和复制,前提是正确引用了原始作品。