跳到主要内容

谷物数据库2.0:植物育种家和科学家的综合资源

摘要

背景

粮食安全是一个重新受到审查的问题,因为人们担心粮食作物的大幅增产需要养活世界上日益增长的人口。小麦在这方面至关重要,是人类消费和牲畜饲料的三种最重要作物之一;然而,作物产量的增长并没有跟上世界人口不断增长的需求。为了解决这个问题,植物育种家需要新的分子工具来帮助他们识别可引入优良品种的重要农艺性状的基因。利用下一代测序对基因组进行研究,可以识别分子标记,如单核苷酸多态性,育种家在育种新品种时可以使用这些标记来识别和跟踪基因。下一代测序技术的发展和应用使小麦SNP标记的表征相对便宜和简单。越来越需要向植物育种家广泛传播这一信息。

描述

谷类数据库是一个包含一系列小麦基因组数据集的在线资源(小麦)这将有助于植物育种家和科学家为标记辅助选择选择最合适的标记。谷类数据库包括一个数据库,该数据库目前包含超过100000个假定品种SNP,其中数千个已通过实验验证。此外,CerealsDB还包含DArT标记和EST序列的数据库,并链接到小麦品种Chinese Spring的基因组序列草案。

结论

谷类数据库是一个开放访问的网站,它正在迅速成为小麦研究和植物育种界的宝贵资源。

背景

粮食安全问题(定义为获得充足、安全、营养的食物以维持健康和积极的生活)已成为世界各国政府关注的焦点,并稳步上升到政治议程的前列。预计到2050年,人类人口将达到90亿,据估计,如果我们要应对养活我们自己和我们赖以生存的动物的挑战,到目前为止,谷物产量需要增加50%[1]. 谷物作物小麦、玉米和水稻是人类和家畜的主要营养来源[2]. 小麦约占全球谷物消费量的30%[]在这方面至关重要,预计2010年的收成为6.51亿吨[4]. 确保小麦产量增加以满足未来需求已成为农业研究的一个重要重点。不幸的是,1950年至2000年期间,以传统育种技术为基础的产量显著增加,无法满足世界人口迅速增长的需求。此外,小麦产量的相对增长在接近20世纪末时有所减缓[5]. 为了帮助满足这一需求,植物育种家和科学家必须采用现代分子生物学技术,使他们能够更有针对性地进行植物改良。

单核苷酸多态性是DNA序列中的单碱基对变化,是同一物种个体间最常见的序列变异形式。由于SNP在基因组中的频率,SNP已成为重要农艺性状(如抗病性和抗旱性)的标记辅助选择(MAS)的选择标记[6]. 为了将基因定位在整个基因组的任何位置,有必要使用可用于MAS的经验证的SNP标记使小麦基因组饱和。通过使用下一代测序(NGS),我们实验室正在积极搜索小麦基因组中的SNP,并开发这些SNP的PCR检测方法,以便它们可以被植物育种家用作分子标记。

NGS平台和高通量基因分型方法的发展使得以相对较低的成本快速表征和验证小麦中数千个假定的SNP标记成为可能[7,8]. 已有许多在线数据库链接到SNP标记和其他基因组资源,如禾本科植物比较基因组分析的在线数据资源Gramene[9]和GrainGenes,小麦科及其野生近缘种的遗传和基因组信息数据库[10]. 虽然这些网站包含丰富的信息,但它们主要是为科学家设计的。为了最大限度地提高SNP标记在植物育种中的效用和应用,必须让非分子生物学专家能够免费获得这些信息。向植物育种家传播经验证的SNP标记数据的这一要求为CerealsDB SNP数据库的开发提供了动力。

我们极大地扩展了CerealsDB的功能,该数据库最初用于存储26382个EST序列的数据集[11],包括一些与小麦基因组学相关的可搜索在线数据库。原则上,CerealsDB网站现在面向那些希望获得SNP标记信息的人,例如,SNP标记所基于的序列、用于其基于PCR-的鉴定的引物或常见英国品种的SNP单倍型信息。CerealsDB网站还允许用户搜索原始的CerealsDB-EST序列和小麦品种Chinese Spring(使用Roche 454技术组装)的基因组草图,并搜索已被bin-map到染色体臂的多样性阵列技术(DArT)标记。

结构和内容

实施

CerealsDB是使用运行在MacOSX服务器上的MySQL关系数据库管理系统(RDMS)数据库(5.051b版)实现的,并使用Apache web服务器(2.2版)托管,其中包含用于所有数据检索和输出的Perl和PHP脚本。MySQL被选为数据库,因为它是领先的开源工业力量RDMS之一,并且与其他主要专有数据库的质量和性能相匹配。MySQL在具有独立模块和快速执行过程的多层服务器设计方面也有优势。Apache HTTP服务器之所以被采用,是因为它具有可靠性、相对易于配置和广泛的语言接口支持系统。

CerealsDB是具有适当属性(字段)的实体(表)的关系集合,用于定义小麦SNP。SNP数据库的实体关系(ER)模型如图所示1目前,SNP数据库由11个表组成,其中四个表通过其公共主键“SNP_id”与“Contig”表共享标识关系。“Contig”表包含111442条记录(代表假定的SNP位点),由16个属性组成,包括关于那些包含假定SNP的Contig的信息:例如,Contig数据的来源、Contig序列和序列中的SNP位置。“Contig”表还包含一个字段,指示SNP是否已通过实验验证。

图1
图1

cerealsDB SNP数据库的实体关系(ER)模型,使用MySQL workbench生成。该模式显示SNP数据库中不同表之间的关系。

“位置”表由3813个条目组成,其中包含了所有已绘制SNP的染色体位置和在厘米(cM)中的位置信息。“Primers”表有6337条记录,其中包含实验分析的所有SNP的KASPar引物序列(两个正向和一个反向)。“单倍型”表包括6337条记录,并包含针对101个小麦品种的所有验证SNP的SNP调用。“blast_url2”表包含37837个条目,这些条目通过1:1标识关系中的“NewContigName”属性链接到contig表。此表包含对每个对照组与NCBI“胚胎植物”蛋白质数据库进行BLASTX相似性搜索时报告的所有点击数[12]. 包含此表允许用户搜索具有特定注释(例如,抗病性)的contigs上的SNP。CerealsDB用户目前无法查询“Source”表,它是一种内部资源。它包含3263个条目,并保存了关于已验证SNP的原始来源以及DNA在我们实验室储存的样本板上的位置的信息。

“Homo_and_var_SNPs”(511439个条目)和“VarievalSNPS”表(99945个条目)通过1:1的非标识关系相互链接,并与其他任何表断开链接。“Homo_and_var_SNPs”表包含来自特定实验的信息,该实验旨在识别八个小麦品种(Alchemy、Avalon、Cadenza、Hereward、Rialto、Robigus、Savannah和Xi19)中的同源SNP和品种SNP:同源SNP是存在于不同基因组(a、B和D)之间的序列变异它构成了六倍体小麦基因组,小麦品种之间存在一个品种SNP,能够根据特定的SNP位置区分两个品种。该表包含511439个条目,其中包含一个主键,该主键唯一地标识了SNP和从中派生的contig,以及所有八个品种的每个位点的SNP调用、深度和值。该信息已在Winfield等人[13].

“品种SNPs”表仅包含被归类为品种的假定SNP的信息;也就是说,SNP可以清楚地区分不同的小麦品种。这些品种SNP对育种家特别感兴趣。此表主要用于数据库搜索,用于填充多个网页头部的摘要表。

有三个独立的表未链接到数据库中的任何其他表。“WheatVariety”表包含101条记录,每个研究品种对应一个条目,并包含有关系谱、冬/春习性和迄今为止研究的101个小麦品种的原始植物育种家的信息。Images表(21条记录)包含21条小麦染色体SNP图图像的URL,表“IUPAC_codes”包含36个用于翻译歧义码的条目。

使用级联样式表(CSS)对CerealsDB网站进行了广泛的重新设计,以标准化网站的格式,改进呈现方式,提供更直观的浏览体验。提供了WheatBP教育资源和其他相关网站的链接,这些网站提供了有关小麦基因组学的额外背景信息。

数据来源

SNP数据来自之前的研究[14]以及正在进行的实验。利用基于等位基因特异探针差异扩增的KBioscience竞争性等位基因特异性PCR(KASPar)基因分型方法验证SNP[15]. 对所有SNP数据进行整理,以消除冗余和重复值。数据库中使用的连续序列是从小麦(5x Chinese Spring var.)cDNA序列的集合中生成的。使用11个字符的代码为每个contig创建唯一ID,参考序列使用Bristol-contig(BC)前缀,后跟9位数字(例如BC000000001)。所有唯一的SNP都被指定为10个字符的代码,以Bristol SNP(BS)前缀开头,后跟8位数字(例如,BS00000001)。使用自定义Perl脚本执行文件格式的交叉引用和标准化。CerealsDB网站还包含中国春季基因组草图的序列,该基因组由5321847个连续序列组成,基因组覆盖率为5倍。在这一覆盖水平上,我们预计至少有一个>95%的基因组读数。

KASPar SNP数据库目前由来自8个小麦品种的111442个SNP数据组成,其中99945个是品种SNP(这些SNP对植物育种家有价值)。其中4986个SNP已被验证(通过对101个品种的筛选),3813个SNP定位于特定的染色体位置。经验证的SNP条目包含参考连续体中的位置信息和用于验证的引物序列。

谷类数据库包括原始小麦EST数据库,其中包含26382个表达序列标签,这些标签是由六倍体冬小麦(var.Mercia)cDNA生成的,之前由Wilson等人[11]. 这些小麦EST可以通过基因名称或BLAST进行搜索。还有一个DArT数据数据库,可以通过可点击的小麦象形文字访问;表意文字的每一个染色体图像都会将您带到与特定染色体相关的数据。DArT技术是一种基于杂交的基因分型工具,它融合了AFLP分析的许多特点,并使用DNA微阵列平台进行高通量遗传分析。我们使用了从堪萨斯州小麦遗传和基因组资源中心(WGGRC)获得的缺失系(http://www.k-state.edu/wgrc/种质/删除/delindex.html)将DArT标记分配到染色体臂特定的箱子。在WGGRC保存的420个缺失系中,选择了74个系,因为它们是NSF小麦EST基因组项目中使用的系,该项目旨在将小麦EST分配给染色体箱。这些品系在单染色体臂上具有同源末端缺失。这些缺失系(在中国春小麦品种中培育)为小麦染色体的物理定位提供了强大的工具,使我们不仅能够将标记定位到特定的同源染色体上,而且能够将其分配到约28Mb的染色体箱中[16]在特定的染色体臂上。虽然DArT标记不再被植物育种家使用(已被SNP标记取代),但该信息仍与更广泛的科学研究界相关。

实用程序和讨论

Web界面和用户查询功能

谷类数据库网站包含一系列可通过菜单栏访问的数据集,包括KASPar SNP数据库、查询小麦基因组序列的BLAST搜索页面、小麦基因组草图下载页面、小麦EST数据库、,用于小麦DArT数据的搜索页面和描述使用小麦缺失系的DArT标记的映射的页面。

KASPar SNP数据库允许SNP名称和连续查询。一些查询(例如SNP名称)是准确的。序列查询基于BLAST相似性[17]. 图中显示了CerealsDB站点的一些功能2。CerealsDB中列出的所有SNP都被分配了一个唯一的ID,查询的输出页面提供了有关基因名称和位点的信息。所有经验证的SNP信息都可以通过染色体和亚基因组进行搜索,结果数据可以作为Excel电子表格下载。

图2
图2

KASPar SNP数据库的功能通过(a)CerealsDB主页显示,其中有一系列页面可用于查询SNP数据库。例如,含有SNPs的重叠群可以通过BLAST进行搜索(b条)SNP地图可以通过点击象形文字从数据库中动态检索(c(c))对于其中一个子基因组上的特定染色体。

界面设计简单,为可能不具备深入遗传学知识的植物育种家提供快速访问。通过可点击的图像(象形文字)访问染色体信息。这些基因根据它们所属的染色体和亚基因组排列在屏幕上。KASPar SNP数据库的初始页面包含数据库中SNP的统计数据,还链接到条形图,显示绘制种群Avalon x Cadenza和Rialto x Savannah的所有绘制SNP在21条小麦染色体上的分布。此外,还有一些图表显示了基于相对长度的三个基因组(A、B和D)中每个基因组的预期映射SNP数量与实际映射数量之间的关系。

KASPar SNP数据库有四个主要查询根:

  1. 1)

    “选择引物”;这可以提供关于单个SNP或特定染色体上所有SNP的引物的信息。可以通过点击表意图的相关染色体图像或输入特定SNP ID来选择每条染色体上SNP的引物。或者,可以通过Excel电子表格下载该特定染色体上的所有SNP。向下滚动页面可以看到染色体的图谱以及当前映射到它的SNP。

  2. 2)

    “获得单倍型”;选择101个小麦品种中的SNP等位基因信息,SNP已针对这些小麦品种进行验证。单击表意文字的相关染色体图像,用户将看到该特定染色体的信息。或者,可以为特定亚基因组和染色体上的特定品种选择单倍型。同样,结果可以作为Excel电子表格下载。

  3. 3)

    “爆炸连续体”;允许用户输入核苷酸序列并对Bristol contigs进行相似性搜索(使用BLAST)。如果搜索识别出一个contig并包含SNP,则用户可以显示该特定contig中每个SNP的位置。

  4. 4)

    “Contig信息”;通过提供SNP ID或contig名称来查看其是否包含SNP,有助于搜索有关在其上找到SNP的contig的信息。如果发现SNP,则输出显示连续序列、SNP位置、映射信息和任何相关的BLAST注释(还包括原始BLASTX报告)。提供一个字段,用于根据特定术语搜索contigs,例如“抗病性”或“感冒”,并将在contigs的相关BLASTX报告中返回包含此术语的所有contigs。

可以使用BLAST搜索中国春季基因组的基因丰富区域的草图汇编或原始序列读取,并且可以使用下拉字段设置e值截止值。

小麦EST可以通过基因名称、相似性搜索(通过BLAST)或westdb cloneID进行搜索。小麦DArT标记可以通过标记名或小麦品系进行搜索,并且可以使用该工具下载Excel格式的DArT数据集。也可以通过点击表意文字的适当染色体图像,在其各自的染色体上查看映射的DArT标记。

最后,还有一个面向用户的帮助/常见问题解答页面,其中包含关于数据库中数据的潜在问题的答案以及网站上的其他功能。

结论

通过包含SNP和DArT标记以及其他基因组资源的数据库,对原始谷类数据库站点进行了实质性增强。为了使非科学家能够理解CerealsDB并保持其与科学专家的相关性,2.0版改进了web界面的功能和用户友好性。随着SNP数据库规模的增长和KASPar验证的SNP数量的增加,我们预计到CerealsDB站点的流量会增加。该网站已经引起了植物育种和研究界的极大兴趣,在过去一年中,平均每月有5600多个独立访问(Webalizer 2.23版生成的网络流量统计数据)。我们的实验室正在积极开发和验证SNP标记,并定期将其添加到数据库中。CerealsDB站点计划的未来发展包括SNP数据与表型数据的链接,以及KASPar SNP数据库与其他谷物基因组数据库的集成。我们的目标是通过无限制地将所有数据发布到公共领域,使CerealsDB成为一个重要的、免费可用的资源。这将确保世界各地的小麦育种家拥有创造新品种小麦所需的数据,以帮助2050年后的世界粮食供应。

可用性和要求

可利用性

谷物数据库可以通过以下网址在线访问:http://www.cerealsdb.uk.net/CrealsDB/Documents/DOC_cerealsdb.phpSNP数据库是公开的,可以自由访问,无需注册,也无使用限制。

技术要求

建议使用以下浏览器之一:Linux、Mac OSX或Windows上的Mozilla Firefox 3、Windows上的Internet Explorer 8、Mac OSX或Windows下的Safari 4、Linux或Windows上是Chrome。

缩写

不列颠哥伦比亚省:

布里斯托尔-康提格

爆炸:

基本本地对齐搜索工具

英国标准:

布里斯托尔SNP

CSS(客服代表):

级联样式表

投掷:

分集阵列技术

呃:

实体关系

美国东部时间:

表达序列标签

联合国粮农组织:

联合国粮食及农业组织

常见问题解答:

事实和问题

HTTP协议:

超文本传输协议

身份证件:

识别

MAS公司:

标记辅助选择

NCBI公司:

国家生物技术信息中心

非政府组织:

下一代测序

Perl语言:

实用提取和报告语言

菲律宾比索:

超文本预处理器

关系型数据库管理系统:

关系数据库管理系统

SNP公司:

单核苷酸多态性

网址:

统一资源定位器。

工具书类

  1. 前瞻性:粮食和农业的未来政府科学办公室:在最终项目报告中。伦敦;2011

    谷歌学者 

  2. Shewry公关:小麦。J Exp机器人2009, 60: 1537–1553. 10.1093/jxb/erp058

    第条 中国科学院 公共医学 谷歌学者 

  3. 联合国粮农组织:《世界农业:走向2015/2030》。摘要报告罗马:联合国粮食及农业组织;2002

    谷歌学者 

  4. FAOSTAT数据库.http://faostat.fao.org/

  5. Alston JM、Babcock BA、Pardey PG:全球农业生产和生产力的转移模式艾姆斯:爱荷华州立大学;2010年CARD-MATRIC在线卷CARD-MATRIC在线卷

    谷歌学者 

  6. Gupta PK、Rustgi S、Mir RR:作物改良的基于阵列的高通量DNA标记。遗传2008, 101(1):5–18. 2008.35年10月18日

    第条 中国科学院 公共医学 谷歌学者 

  7. Berkman PJ、Lai K、Lorenc MT、Edwards D:下一代测序在小麦作物改良中的应用。美国J Bot2012, 99(2):365–371. 2012年10.3732/ajb.1100309

    第条 中国科学院 谷歌学者 

  8. Paux E,Sourdille P,Mackay I,Feuillet C:小麦中基于序列的标记开发:育种进展和应用。生物技术进展2011, 2011: 2011–2011.

    谷歌学者 

  9. Youens-Clark K、Buckler E、Casstevens T、Chen C、Declerck G、Derwent P、Dharmawardhana P、Jaiswal P、Kersey P、Karthikeyan AS、Lu J、McCouch SR、Ren L、Spooner W、Stein JC、Thomason J、Wei S、Ware D:2010年的Gramene数据库:更新和扩展。核酸研究2011年第39期:D1085-D1094。10.1093/nar/gkq1148年10月10日

    第条 公共医学中心 中国科学院 公共医学 谷歌学者 

  10. Carolo V、Matthews DE、Lazo GR、Blake TK、Hummel DD、Lui N、Hane DL、Anderson OD:GrainGenes 2.0。小颗粒社区的改进资源。植物生理学2005, 139: 643–651. 10.1104/页.105.064485

    第条 公共医学中心 中国科学院 公共医学 谷歌学者 

  11. Wilson ID、Barker GLA、Beswick RW、Shepherd SK、Lu C、Coghill JA、Edwards D、Owen P、Lyons R、Parker JS、Lenton JR、Holdsworth MJ、Shewry PR和Edwards KJ:小麦功能基因组学的转录组学资源。植物生物技术J2004, 2: 495–506. 10.1111/j.1467-7652.2004.00096.x号

    第条 公共医学 谷歌学者 

  12. Pruitt KD、Tatusova T、Brown GR、Maglott DR:NCBI参考序列(RefSeq):现状、新特征和基因组注释政策。核酸研究2012年,第130天至第135天。

    谷歌学者 

  13. Winfield MO、Wilkinson PA、Allen AM、Barker GLA、Coghill JA、Burridge A、Hall A、Brenchley RC、D'Amore R、Hall N、Bevan MW、Richmond T、Gerhardt D、Jeffrey A、Jeddeloh JA、Edwards KJ:异源六倍体小麦外显子的定向重测序。植物生物技术J2012年8月10日(6):733–742。10.1111/j.1467-7652.2012.00713.x号

    第条 中国科学院 公共医学 谷歌学者 

  14. Allen AM、Barker GL、Berry ST、Coghill JA、Gwilliam R、Kirby S、Robinson P、Brenchley RC、D'Amore R、McKenzie N、Waite D、Hall A、Bevan M、Hall N、Edwards KJ:六倍体面包小麦(Triticum aestivum L.)的转录特异性单核苷酸多态性发现和连锁分析。植物生物技术J2011, 9: 1086–1099. 10.1111/j.1467-7652.2011.00628.x号

    第条 中国科学院 公共医学 谷歌学者 

  15. Cuppen E:通过等位基因特异扩增(KASPar)进行基因分型。Cold Spring Harb协议2007年,pdb.prot4841 pdb.port4841

    谷歌学者 

  16. Qi LL,Echalier B,Friebe B,Gill BS:一组用于EST染色体定位的小麦缺失株的分子特征。功能整合基因组学2003, 3: 39–55.

    中国科学院 公共医学 谷歌学者 

  17. Altschul SF、Gish W、Miller W、Myers EW、Lipman DJ:基本的局部对齐搜索工具。分子生物学杂志1990, 215: 403–410.

    第条 中国科学院 公共医学 谷歌学者 

下载参考资料

致谢和资金

我们感谢英国生物技术和生物科学研究委员会为这项工作提供资金(授予BB/I003207/1、BB/I017496/1、BB/F010370/1)。我们还感谢艾米丽·史密斯女士农业研究站为下一代测序提供资金。

作者信息

作者和附属机构

作者

通讯作者

与的通信保罗·A·威尔金森.

其他信息

竞争性利益

作者声明,他们没有相互竞争的利益。

作者的贡献

PAW和MOW撰写了手稿。MOW、GLAB和PAW构建了CerealsDB 2.0版,AMA和AB进行了SNP验证实验,JC进行了NGS测序,KJE构思了该研究,参与了其设计和协调,并帮助起草了手稿。所有作者都已阅读并批准了最终稿。

作者提交的原始图像文件

下面是作者提交的原始图像文件的链接。

图1的作者原始文件

图2的作者原始文件

权利和权限

本文由BioMed Central Ltd.授权发布。这是一篇根据知识共享署名许可条款发布的开放存取文章(http://creativecommons.org/licenses/by/2.0)它允许在任何介质中不受限制地使用、分发和复制原始作品,前提是正确引用了原始作品。

转载和许可

关于本文

引用这篇文章

Wilkinson,P.A.,Winfield,M.O.,Barker,G.L。等。谷物数据库2.0:植物育种家和科学家的综合资源。BMC生物信息学 13, 219 (2012). https://doi.org/10.1186/1471-2105-13-219

下载引文

  • 收到:

  • 认可的:

  • 出版:

  • 内政部:https://doi.org/10.1186/1471-2105-13-219

关键词