数据库(牛津)。2012; 2012年:bar056。
GrameneMart:Gramene项目的BioMart数据门户
,
1 ,1 ,2和1,* 威廉·斯普纳
1冷泉港实验室,地址:1 Bungtown Road,Cold Spring Harbor,NY 11724,USA和2欧洲生物信息学研究所,Wellcome Trust Genome Campus,Hinxton,Cambridge,CB10 1SD,UK
肯·尤恩斯·克拉克
1冷泉港实验室,地址:1 Bungtown Road,Cold Spring Harbor,NY 11724,USA和2欧洲生物信息学研究所,Wellcome Trust Genome Campus,Hinxton,Cambridge,CB10 1SD,UK
丹尼尔·斯坦斯
1冷泉港实验室,地址:1 Bungtown Road,Cold Spring Harbor,NY 11724,USA和2欧洲生物信息学研究所,Wellcome Trust Genome Campus,Hinxton,Cambridge,CB10 1SD,UK
Doreen Ware公司
1冷泉港实验室,地址:1 Bungtown Road,Cold Spring Harbor,NY 11724,USA和2欧洲生物信息学研究所,Wellcome Trust Genome Campus,Hinxton,Cambridge,CB10 1SD,UK
1冷泉港实验室,地址:1 Bungtown Road,Cold Spring Harbor,NY 11724,USA和2欧洲生物信息学研究所,威康信托基因组校区,剑桥,CB10 1SD,英国
通讯作者。2011年4月30日收到;2011年11月18日修订;2011年11月21日接受。
摘要
禾本科植物是一种公认的植物比较基因组分析资源。数据通过自动化和管理分析生成,并通过GrameneMart等web界面提供。Gramene项目是BioMart软件的早期采用者,该软件仍然是Gramene网站不可或缺且使用广泛的组件。BioMart可访问的数据集包括植物基因注释、植物变异目录、遗传标记、物理绘图实体、各种类型的公共DNA/mRNA序列和各种物种的精选数量性状位点。
数据库URL:
http://www.gramene.org/biomart/martview网站
项目描述
Gramene项目(网址:http://www.gramene.org)于2001年3月推出,作为比较基因组分析的精选、开源、可通过网络访问的数据资源(1). Gramene的目的是为公共部门内可用的数据集提供附加值,这有助于研究人员了解植物基因组,并利用一个物种已知的基因组序列来识别和了解其他草物种的相应基因、途径和表型。这是通过在物种之间建立自动化和精心策划的关系来实现的,这些关系可以使用GrameneMart等基于网络的界面进行查询和显示。
自发布以来的10年中,Gramene数据库的范围和规模都有所增加。2011年10月发布的第34个构建包含数百种植物的49M个遗传标记和相关DNA序列,以及22个组装植物基因组(14个已完成,8个部分)。显示了Gramene数据库在Gramene基因组模块中表示的完整和部分测序物种数量方面的增长。
除了Gramene开发的代码外,该项目自2002年1月以来还使用了Ensembl项目开发的代码(2)用于基因组浏览器。Gramene的第一个版本包括BioMart软件(三)是2005年7月的第18版,它使用了Ensembl提供的数据转换工具。
随着2009年合奏基因组项目的启动(4)Gramene已就植物集成数据库的生成展开密切合作,包括共享植物基因和植物变异生物标记;这些数据库以及用于查询它们的界面在Gramene和Ensembl Genomes网站上都有反映。第一个协同发布是2009年10月发布的Gramene v30,Ensembl Genomes 3。
在2011年10月发布的Gramene v34中,GrameneMart使用BioMart 0.7版软件构建,Gramene网站使用BioMart 0.7版本软件。
查询示例
GrameneMart的MartView web界面位于http://www.biomert.org/biomart/martview,也可以从中央生物城门户访问http://www.biomert.org/biomart/martview植物基因Mart和植物变异Mart的镜像可通过集合基因组获得;http://plants.ensembl.org/biomart/martview.
为了演示GrameneMart数据库的各种功能,我们在中提供了各种示例查询.
表1。
数据库 | 数据集 | 过滤器 | 属性 |
---|
问题1:查找拟南芥葡萄中具有同源基因的基因、葡萄同源基因的EntrezGene ID和同源程度 |
植物基因 | 1拟南芥基因 | 1.a.多物种比较:同源过滤器:同源葡萄基因:仅 | 1.同音词:1.a.基因:集合,集合基因ID 1.b.矫形:葡萄同源型直系 1.c.矫形:葡萄正交对数,%同一性
|
2葡萄基因一 | | |
问题2:哪一个阻止了密码子引入SNP拟南芥与可评分表型相关,概率是多少? |
植物变异 | 1拟南芥变化 | | 1.变更:1.a.序列变量:变量信息,变量ID 1.b.序列变异:变异注释,表型名称 1.c.序列变更:变更注释,P(P)-价值
|
问题3:列出所有高粱RFLP标记及其相关的GenBank序列 |
Gramene标记 | 1.RFLP标记 | 1.品种:双色高粱 1.b.标记:分析对应类型:entrez 1.c.标记:分析对应标记类型:GSS
| 1.a.标记:物种 1.b.标记:标记名称 1.c.标记:分析性信函、分析性信函类型 1.d.标记:分析对应、标记名称
|
问题4:在2006年玉米染色体指纹Contig(FPC)地图上列出所有克隆及其位置。 |
Gramene映射 | 1.物理映射 | | 1.a.位置:地图集名称 1.b.位置:地图名称 1.c.位置:映射开始 1.d.位置:映射结束 1.e.标记:标记类型 1.f.标记:标记名称
|
问题5:哪些水稻QTL与产量相关表型相关? |
革兰烯QTL | 1.qtl | | 1.a.qtl:qtl登录ID 1.b.qtl:性状类别 1.c.qtl:性状名称
|
数据内容
Gramene有五个BioMart数据库;植物基因Mart、植物变异Mart、Gramene标记、GrameneMappings和GrameneQTL。其中,两个植物火星是由集合基因组发展而来的,而其他三个,即Gramene标记、Gramene映射和Gramene QTL,是Gramene特有的。每个数据库如下所述。
Plant Gene Mart数据库
截至2011年10月,Gramene版本的Plants Genes Mart数据库保存了Gramene中14个完全测序的植物基因组中的每个基因组的数据集。植物基因数据库的一个有用功能是能够使用广泛的基因锚定交叉参考集将一种类型的基因标识符映射到另一种类型。来自Plant Gene Mart的交叉引用源包括EMBL(5)、EntrezGene(6),IPI(7),PDB(8),参考序列(9)、UniProt(10)和UniGene(11),PlantGDB转录汇编(12)和基因索引中的标识符(13). 还有一些物种特定的标识符,包括BGI-RIS(14),水稻基因组注释项目(15)和RAP-DB(16)水稻基因鉴定;IGGP公司(17)葡萄基因鉴定;JGI基因标识符琴叶拟南芥(18),高粱(19)和杨树(20); 和TAIR(21)标识符拟南芥.
与其他Gramene模块的交叉引用,如基因、标记/序列(见下文)和通路(1)还表示并用于将其他基因分配给EC编号和来自各种本体的术语,包括植物本体和基因本体(22).
Plant Gene Mart允许用户筛选和导出与基因组区域、基因生物型、数据库交叉引用、本体术语、与其他物种基因的直系关系或与同一物种基因的共生关系、蛋白质域注释以及任何潜在基因组变体的后果(如果可用)相关的属性。针对Plant Gene Mart数据库的示例查询包含在.
Plant Variation Mart数据库
Plant Variation Mart数据库保存了DNA变体目录,包括单核苷酸多态性(SNP)和插入/缺失(indels)拟南芥水稻(粳稻组)、水稻(籼稻组)和葡萄。这个拟南芥数据集包含从许多研究中汇编的8700000多种变体(23,24)代表1000多个SNP发现和基因分型拟南芥加入。除了变异体、它们的基因组位置和相应的遗传后果外,还有一些性状关联数据(23)也暴露在外。水稻数据集,包括籼稻和粳稻,包含约5500000个变体,主要来自dbSNP(25),但在水稻NP的20份材料中也发现了15万个SNP(26)和来自395份材料的1536个SNP小组基因分型数据(27). 葡萄变异数据集包含18个葡萄品种的下一代测序发现的46万个SNP(28).
Plant Variation Mart允许用户通过基因组区域、变异ID、表型关联、变异集/研究、菌株/加入、基因关联和结果筛选并导出相关属性。针对Plant Variation Mart数据库的查询示例包括在.
Gramene标记数据库
该数据库包含Gramene中的所有遗传标记和相关DNA/mRNA序列记录,截至2011年10月,共有4900万条记录。与旨在为其各自基因组提供综合目录的基因和变异市场数据库不同,标记数据库代表了许多物种的广泛实体,这些实体已在公共领域提供,例如通过GenBank等数据库。
Gramene Markers数据库中的实体按类型分类,并为每种类型创建一个数据集。不同的类型和数量如所示。标记通过对应关系相互连接,例如,单个表达序列标记对应于它们所属的EST簇,这些关联在数据库中表示并作为过滤器/属性公开。数据库还将类型中的标记分组到库中。
表2。
标记类型和每个标记的记录数在Gramene Markers生物标记数据库中表示为数据集
标记类型/BioMart数据集 | 记录的数量 |
---|
扩增片段长度多态性 | 8150 |
断点间隔 | 303 |
中心粒 | 57 |
克隆 | 2 242 577 |
删除 | 333 |
EST集群 | 6 154 296 |
表达序列标签,EST | 20 690 805 |
荧光原位杂交,FISH,探针。 | 37 |
指纹轮廓,FPC | 17 479 |
基因组调查序列 | 10 653 993 |
基因预测 | 354 564 |
基因 | 10 781 |
基因组DNA | 5 263 129 |
基于插入位点的多态性 | 691 |
插入 | 310 |
微阵列探头 | 260 656 |
信使核糖核酸 | 651 207 |
Overgo杂交探针 | 24 464 |
寡核苷酸 | 2 396 466 |
点 | 332 |
底漆 | 80 555 |
被探测的站点 | 11 532 |
数量性状位点 | 11 625 |
多态性DNA的随机扩增 | 175 |
限制性片段长度多态性 | 18 761 |
简单序列重复,SSR | 24 422 |
序列标记站点,STS | 3437 |
端粒 | 20 |
Gramene Markers数据库允许用户筛选和导出与物种、种质、名称/同义词、库/源和相关(对应)实体相关的属性。针对Gramene Markers数据库的示例查询包含在中的“查询3”中.
Gramene Mappings数据库
Gramene Mappings数据库对标记(如上所述)和分子图之间的映射进行建模。各种图谱类型、bin、细胞遗传学、缺失、遗传、物理、数量性状位点(QTL)、序列都被建模为单独的数据集。
Gramene Mappings数据库允许用户筛选和导出与物种、地图集/地图(例如染色体)、地图位置、标记名称、标记类型和分析相关的属性。针对Gramene Mappings数据库的示例查询包含在.
Gramene QTL数据库
QTL数据库包含Gramene中所有QTL的详细信息;目前有10个物种中的11624个。该数据库的重点是通过Trait本体查询和报告QTL(22)术语。针对Gramene QTL数据库的示例查询包含在中的“查询5”中.
讨论和未来方向
Gramene一直是BioMart软件的长期用户。我们已经部署了Ensembl数据转换和界面配置,并从基于MySQL的数据资源到定制模式开发了Gramene特定的转换,我们广泛使用了BioMart MartBuilder和MartEditor软件。GrameneMart已成为Gramene网站不可或缺且使用广泛的组成部分。我们将酌情采用Ensembl和BioMart项目的软件更新。
Gramene未来的BioMart工作将专注于数据联合,既包括Gramene数据库之间的内部联合,也包括与第三方数据集的外部联合。我们预计这将显著提高Gramene广泛的本体论和表型连锁数据的效用。
基金
国家科学基金会(NSF)(拨款编号0703908;,0851652;). 开放存取费用资助:NSF(授予IOS-0703908).
利益冲突。未申报。
致谢
我们要感谢用户的反馈和支持,以及为Gramene提供数据的合作者和贡献者。我们还要感谢安大略省癌症研究所(OICR)的生物超市团队开发和支持生物超市软件,也感谢欧洲生物信息学研究所和Wellcome Trust Sanger研究所的集成和集成基因组团队开发并支持集成软件。
工具书类
1Youens-Clark K、Buckler E、Casstevens T等。2010年Gramene数据库:更新和扩展。核酸研究。2011;39:D1085–1094。 [PMC免费文章][公共医学][谷歌学者] 2Flicek P、Amode MR、Barrell D等,2011年合奏。核酸研究。2011;39:D800–D806。 [PMC免费文章][公共医学][谷歌学者] 三。Smedley D、Haider S、Ballester B等。生物超市-生物查询变得简单。BMC基因组学。2009;10:22. [PMC免费文章][公共医学][谷歌学者] 4Kersey PJ、Lawson D、Birney E等,《集合基因组:跨越分类空间的集合延伸》。核酸研究。2010;38:D563–D569。 [PMC免费文章][公共医学][谷歌学者] 5Cochrane G、Akhtar R、Aldebert P等,《集合追踪档案和EMBL核苷酸序列数据库中核苷酸追踪、序列和注释数据捕获的优先级》。核酸研究。2007;36:D5–D12。 [PMC免费文章][公共医学][谷歌学者] 6Maglott D、Ostell J、Pruitt KD、Tatusova T.Entrez基因:NCBI以基因为中心的信息。核酸研究。2011;39:D52–D57。 [PMC免费文章][公共医学][谷歌学者] 7Kersey PJ、Duarte J、Williams A等。国际蛋白质指数:蛋白质组学实验的综合数据库。蛋白质组学。2004;4:1985–1988.[公共医学][谷歌学者] 8Berman H、Henrick K、Nakamura H、Markley JL。全球蛋白质数据库(wwPDB):确保PDB数据的统一存档。核酸研究。2007;35:D301–D303。 [PMC免费文章][公共医学][谷歌学者] 9.Pruitt KD、Tatusova T、Klimke W、Maglott DR.NCBI参考序列:当前状态、政策和新举措。核酸研究。2009;37:D32–D36。 [PMC免费文章][公共医学][谷歌学者] 10.UniProt联盟。2010年的Universal Protein Resource(UniProt)。核酸研究。2010;38:D142–D148。 [PMC免费文章][公共医学][谷歌学者] 11Sayers EW、Barrett T、Benson DA等。国家生物技术信息中心数据库资源。核酸研究。2011;39:D38–D51。 [PMC免费文章][公共医学][谷歌学者] 12.Duvick J,Fu A,Muppirala U等。植物GDB:比较植物基因组学资源。核酸研究。2008;36:D959–D965。 [PMC免费文章][公共医学][谷歌学者] 13.Quackenbush J,Cho J,Lee D等。TIGR基因指数:高采样真核生物物种中基因转录序列的分析。核酸研究。2001;29:159–164. [PMC免费文章][公共医学][谷歌学者] 14He X,Wang J.BGI-RIS V2。方法分子生物学。2007;406:275–299.[公共医学][谷歌学者] 15欧阳S,朱伟,汉密尔顿J,等。TIGR水稻基因组注释资源:改进和新特点。核酸研究。2007;35:D883–D887。 [PMC免费文章][公共医学][谷歌学者] 16Tanaka T、Antonio BA、Kikuchi S等。水稻注释项目数据库(RAP-DB):2008年更新。核酸研究。2008;36:D1028–D1033。 [PMC免费文章][公共医学][谷歌学者] 17.Jaillon O、Aury J、Noel B等。葡萄基因组序列表明,主要被子植物门中存在祖先的六倍体。自然。2007;449:463–467.[公共医学][谷歌学者] 18Hu TT、Pattyn P、Bakker EG等琴叶拟南芥基因组序列和基因组大小快速变化的基础。自然遗传学。2010;43:476–481. [PMC免费文章][公共医学][谷歌学者] 19.Paterson AH、Bowers JE、Bruggmann R等人双色高粱基因组与禾本科植物的多样性。自然。2009;457:551–556.[公共医学][谷歌学者] 20Tuskan GA、Difazio S、Jansson S等。黑杨的基因组,毛果杨(托尔和格雷)科学。2006;313:1596–1604.[公共医学][谷歌学者] 21Swarbreck D、Wilks C、Lamesch P等。拟南芥信息资源:基因结构和功能注释。核酸研究。2008;36:D1009–D1014。 [PMC免费文章][公共医学][谷歌学者] 22Yamazaki Y,Jaiswal P.水稻数据库中的生物本体。介绍了禾本科和水稻糖酶的活性。植物细胞生理学。2005;46:63–68.[公共医学][谷歌学者] 23Atwell S,Huang YS,Vilhjálmsson BJ,等。拟南芥自交系107个表型的全基因组关联研究。自然。2010;465:627–631. [PMC免费文章][公共医学][谷歌学者] 25Sherry ST、Ward MH、Kholodov M等。dbSNP:NCBI遗传变异数据库。核酸研究。2001;29:308–311. [PMC免费文章][公共医学][谷歌学者] 26McNally KL、Bruskiewich R、Mackill D等。对多种多样的水稻品种进行测序。将全基因组变异与表型联系起来。植物生理学。2006;141:26–31. [PMC免费文章][公共医学][谷歌学者] 27Zhao K,Wright M,Kimball J等。O.sativa的基因组多样性和渗入揭示了驯化和育种对水稻基因组的影响。公共科学图书馆一号。2010;5:e10780。 [PMC免费文章][公共医学][谷歌学者] 28Myles S,Chia J-M,Hurwitz B,等。葡萄属植物的快速基因组特征。公共科学图书馆一号。2011;5:e8219。 [PMC免费文章][公共医学][谷歌学者] 29Kinsella RJ、Kähäri A、Haider S等。集成生物标记:跨分类空间的数据检索中心。数据库。2011新闻界。[PMC免费文章][公共医学][谷歌学者]