实施
CerealsDB是使用运行在MacOSX服务器上的MySQL关系数据库管理系统(RDMS)数据库(5.051b版)实现的,并使用Apache web服务器(2.2版)托管,其中包含用于所有数据检索和输出的Perl和PHP脚本。MySQL被选为数据库,因为它是领先的开源工业力量RDMS之一,并且与其他主要专有数据库的质量和性能相匹配。MySQL在具有独立模块和快速执行过程的多层服务器设计方面也有优势。Apache HTTP服务器之所以被采用,是因为它具有可靠性、相对易于配置和广泛的语言接口支持系统。
CerealsDB是具有适当属性(字段)的实体(表)的关系集合,用于定义小麦SNP。SNP数据库的实体关系(ER)模型如图所示1目前,SNP数据库由11个表组成,其中四个表通过其公共主键“SNP_id”与“Contig”表共享标识关系。“Contig”表包含111442条记录(代表假定的SNP位点),由16个属性组成,包括关于那些包含假定SNP的Contig的信息:例如,Contig数据的来源、Contig序列和序列中的SNP位置。“Contig”表还包含一个字段,指示SNP是否已通过实验验证。
“位置”表由3813个条目组成,其中包含了所有已绘制SNP的染色体位置和在厘米(cM)中的位置信息。“Primers”表有6337条记录,其中包含实验分析的所有SNP的KASPar引物序列(两个正向和一个反向)。“单倍型”表包括6337条记录,并包含针对101个小麦品种的所有验证SNP的SNP调用。“blast_url2”表包含37837个条目,这些条目通过1:1标识关系中的“NewContigName”属性链接到contig表。此表包含对每个对照组与NCBI“胚胎植物”蛋白质数据库进行BLASTX相似性搜索时报告的所有点击数[12]. 包含此表允许用户搜索具有特定注释(例如,抗病性)的contigs上的SNP。CerealsDB用户目前无法查询“Source”表,它是一种内部资源。它包含3263个条目,并保存了关于已验证SNP的原始来源以及DNA在我们实验室储存的样本板上的位置的信息。
“Homo_and_var_SNPs”(511439个条目)和“VarievalSNPS”表(99945个条目)通过1:1的非标识关系相互链接,并与其他任何表断开链接。“Homo_and_var_SNPs”表包含来自特定实验的信息,该实验旨在识别八个小麦品种(Alchemy、Avalon、Cadenza、Hereward、Rialto、Robigus、Savannah和Xi19)中的同源SNP和品种SNP:同源SNP是存在于不同基因组(a、B和D)之间的序列变异它构成了六倍体小麦基因组,小麦品种之间存在一个品种SNP,能够根据特定的SNP位置区分两个品种。该表包含511439个条目,其中包含一个主键,该主键唯一地标识了SNP和从中派生的contig,以及所有八个品种的每个位点的SNP调用、深度和值。该信息已在Winfield等人[13].
“品种SNPs”表仅包含被归类为品种的假定SNP的信息;也就是说,SNP可以清楚地区分不同的小麦品种。这些品种SNP对育种家特别感兴趣。此表主要用于数据库搜索,用于填充多个网页头部的摘要表。
有三个独立的表未链接到数据库中的任何其他表。“WheatVariety”表包含101条记录,每个研究品种对应一个条目,并包含有关系谱、冬/春习性和迄今为止研究的101个小麦品种的原始植物育种家的信息。Images表(21条记录)包含21条小麦染色体SNP图图像的URL,表“IUPAC_codes”包含36个用于翻译歧义码的条目。
使用级联样式表(CSS)对CerealsDB网站进行了广泛的重新设计,以标准化网站的格式,改进呈现方式,提供更直观的浏览体验。提供了WheatBP教育资源和其他相关网站的链接,这些网站提供了有关小麦基因组学的额外背景信息。
数据来源
SNP数据来自之前的研究[14]以及正在进行的实验。利用基于等位基因特异探针差异扩增的KBioscience竞争性等位基因特异性PCR(KASPar)基因分型方法验证SNP[15]. 对所有SNP数据进行整理,以消除冗余和重复值。数据库中使用的连续序列是从小麦(5x Chinese Spring var.)cDNA序列的集合中生成的。使用11个字符的代码为每个contig创建唯一ID,参考序列使用Bristol-contig(BC)前缀,后跟9位数字(例如BC000000001)。所有唯一的SNP都被指定为10个字符的代码,以Bristol SNP(BS)前缀开头,后跟8位数字(例如,BS00000001)。使用自定义Perl脚本执行文件格式的交叉引用和标准化。CerealsDB网站还包含中国春季基因组草图的序列,该基因组由5321847个连续序列组成,基因组覆盖率为5倍。在这一覆盖水平上,我们预计至少有一个>95%的基因组读数。
KASPar SNP数据库目前由来自8个小麦品种的111442个SNP数据组成,其中99945个是品种SNP(这些SNP对植物育种家有价值)。其中4986个SNP已被验证(通过对101个品种的筛选),3813个SNP定位于特定的染色体位置。经验证的SNP条目包含参考连续体中的位置信息和用于验证的引物序列。
谷类数据库包括原始小麦EST数据库,其中包含26382个表达序列标签,这些标签是由六倍体冬小麦(var.Mercia)cDNA生成的,之前由Wilson等人[11]. 这些小麦EST可以通过基因名称或BLAST进行搜索。还有一个DArT数据数据库,可以通过可点击的小麦象形文字访问;表意文字的每一个染色体图像都会将您带到与特定染色体相关的数据。DArT技术是一种基于杂交的基因分型工具,它融合了AFLP分析的许多特点,并使用DNA微阵列平台进行高通量遗传分析。我们使用了从堪萨斯州小麦遗传和基因组资源中心(WGGRC)获得的缺失系(http://www.k-state.edu/wgrc/种质/删除/delindex.html)将DArT标记分配到染色体臂特定的箱子。在WGGRC保存的420个缺失系中,选择了74个系,因为它们是NSF小麦EST基因组项目中使用的系,该项目旨在将小麦EST分配给染色体箱。这些品系在单染色体臂上具有同源末端缺失。这些缺失系(在中国春小麦品种中培育)为小麦染色体的物理定位提供了强大的工具,使我们不仅能够将标记定位到特定的同源染色体上,而且能够将其分配到约28Mb的染色体箱中[16]在特定的染色体臂上。虽然DArT标记不再被植物育种家使用(已被SNP标记取代),但该信息仍与更广泛的科学研究界相关。