摘要
数据集成是现代生物信息学的关键挑战。它旨在为生物学家提供工具,以探索不同研究产生的相关数据。大型国际项目可能会产生大量异质且无关的数据。面临的挑战是将此信息与其他公开可用的数据集成。新技术提高了核苷酸测序吞吐量;这增加了对能够存储、管理和探索数据的强大信息系统的需求。GnpIS是一个专门研究植物和真菌害虫的多物种综合信息系统。它将遗传数据和基因组数据连接起来,使研究人员能够获取农艺相关物种的遗传信息(例如遗传图、数量性状位点、标记、单核苷酸多态性、种质和基因型)和基因组数据(例如基因组序列、物理图、基因组注释和表达数据)。GnpIS被大型国际项目和法国国家农业研究所的植物科学部门使用。在这里,我们举例说明它的用途。
数据库URL:http://urgi.versailles.inra.fr/gnpis
引言
为了迎接21世纪的挑战,需要进行第二次绿色革命。在考虑环境后果和气候变化的同时,需要足够数量的作物生产(粮食和生物燃料)。植物遗传学和基因组学已经取得了进展,现在有了研究表型变异的分子基础、加速育种和利用遗传多样性的强大工具。整合了大量的作物遗传和基因组数据。然而,这些数据是由许多不同的群体产生的,因此是异质的,甚至可能看起来不相关。高效信息系统(IS)面临的挑战是通过确定这些数据在数据库内和公开可用材料中的关系来整合这些数据。核苷酸测序技术的吞吐量越来越快,对强大的信息系统的需求也越来越大,这些信息系统能够存储、管理和探索大规模数据,以便在基因组学和遗传学领域得到充分利用。
已经开发了几个IS。有些是专门针对一个物种的:TAIR(1)的拟南芥、玉米GDB(2)用于玉米和Flybase(三,4)的果蝇属其他,如Gramene(5,6)、合奏(7,8),NCBI基因组(9)、植物虫(10),工厂GDB(11),MIPSPlantDB(12)和Tropgene-DB(13),包含多个物种的信息。很少有数据库提供集成的多物种系统,其中导航为数据浏览提供了直观的用户界面。通过减少搜索所需的窗口和数据库数量,可以通过限制用户混淆的风险来改进数据探索。改进系统中使用的链接的完整性也应增加数据的一致性。然而,为了根据研究人员的需要整合数据,数据必须面向特定的兴趣领域。
GnpIS的建立是为了满足研究人员对作物改良的需求。GnpIS代表Genoplante Information System,源于法国植物基因组学研究联邦计划Genoplance的名称(网址:http://www.genoplante.com),这开启了它的发展。它最初整合了农艺基因靶标的表达序列标签(EST)数据(14)然后扩展到包括遗传、基因组和转录组数据。GnpIS目前的形式是十年来许多其他科学项目、用户交互和重复开发的数据集成的结果。法国国家农业研究所(INRA)的几个植物科学部门和许多大型国际合作项目都使用该系统来管理和探索其数据。在本文中,我们展示了其中一些项目来说明GnpIS的使用。
材料和方法
GnpIS架构
GnpIS是一个基于网络的模块化信息系统,依赖于前沿数据库和数据仓库技术(请参阅中的“GnpIS软件技术”补充信息). 它包含一个“综合数据库”(由数据库模块组成)、“查询数据库”(也称为“数据集市”)和“数据库”(图1).
“综合数据库”在单个数据库模式中实际实现,在概念上围绕几个模块组织,这些模块收集与科学领域相关的表。一个名为“Aster”的核心模块(图2),包含在生物体、种质、本体论和项目等几个科学模块之间共享的横向表。科学模块处理各种类型的数据:序列、遗传标记和图谱、遗传集合、表型、转录组和DNA多态性。关键科学条目,如种质、有机体、本体论和项目,是互操作性的支点。IS中链接数据的关键属性显示在这些表中。分类号(Taxon)是分别来自表生生物和种质的登录(或批)标识符,它可以链接给定物种和遗传资源的可用数据。项目表中的项目标识符链接同一科学项目中生成的数据,允许检索一致生成的数据以回答特定的生物学问题。本体存储在一个中心表中,以确保其他模块之间的一致性,还允许链接由相同本体术语描述的数据。此模式减少了数据库中的数据冗余,提高了数据一致性,并通过减少SQL联接的数量提高了查询性能。这个单一的集成系统通过面向模块的接口(也称为“主题接口”)进行访问,并从一个独特的门户进行查询。它是GnpIS连接遗传和基因组数据的关键结构。
专用模块存储特定于科学领域的数据。“序列模块”存储由Sanger测序和新测序技术产生的EST和mRNA序列(Solexa,454,HiSeq2000)。为单核苷酸多态性(SNP)鉴定和RNA-Seq分析产生的简短读数也可以存储在这里。“遗传图谱模块”致力于遗传图谱、标记、性状、数量性状位点(QTL)和QTL荟萃分析。这两个模块之间的互操作性允许用户聚合数据并发现基因(如果他们的EST或mRNA是遗传标记)和QTL之间的共定位。还存在与标记的双向链接,这些标记已作为注释映射到基因组上(请参阅更多“基因组模块”)。“转录组模块”存储来自不同表达实验的原始和标准化数据以及基因列表,例如微阵列(带有cDNA和探针)和宏阵列(带有高密度过滤器)。利用“转录组”和“基因组模块”之间的联系,用户可以找到与基因表达相关的生物信息或注释。“多态性模块”存储遗传资源材料之间的SNP、小插入和缺失。与“遗传资源模块”建立链接,以提供有关加入的详细信息,并与“基因组模块”建立连接,以检索基因组注释上下文中的序列变异。该模块能够存储大规模数据,例如在下一代测序(NGS)实验中发现的SNP。“基因组模块”基于“Chado”数据库模型(15)以及与其他GnpIS模块的交叉引用。它包含基因组序列数据、结构或功能注释以及可以映射到基因组上的所有GnpIS数据的合成视图。为了提高数据管理效率,GnpIS为每个物种提供一个“基因组模块”。该模块还能够存储近缘或远缘物种之间的共时关系信息以及物理地图。“遗传资源模块”管理植物收集的护照描述符(登录/种质鉴定、分类学、地理起源、系谱)和表型。它通过记录的种质名称与多态性模块相连。“表型模块”致力于存储基因型-环境(气候、土壤)相互作用研究期间产生的表型数据。表型可以用本体来描述,并用“遗传资源”和“多态性模块”链接到数据。
数据管理
GnpIS是使用定义良好的流程和过程构建的,用于有效的数据管理。这有助于确保系统的稳健性和质量。
使用专用提交门户网站上传数据,使用标准(如FASTA、GFF3、VCF)、现场主软件的输出文件或表格文本文件或电子表格。提交门户网站描述了接受的文件和数据格式。文件不仅可以手动提供,还可以使用提取转换加载软件或脚本从其他数据库自动生成。存放在web上的数据文件将自动进行检查,以确保正确提交数据。可接受的数据类型包括注释、基因表达、DNA多态性、遗传标记、遗传和物理图谱、遗传收集和表型。
数据访问通过用户帐户进行控制。根据用户访问权限授予角色层次结构(select/update/insert/delete/admin)。在数据库级别,使用表字段维护细粒度机密性级别,这些字段的值是根据相应的用户组分配的。”SQL视图用于根据用户组限制访问。因此,在发布数据之前,可以对数据进行保密,并将其限制为特定的用户组。
数据发布政策支持开放数据模型。尽可能快地公布数据。然而,可以在项目结束之前或发表描述工作的科学文章之前维护数据机密性,以保护作者的知识产权。
查询、数据搜索和导航
用户可以使用(i)快速搜索模式,(ii)高级搜索模式和(iii)面向主题模块的导航来查询GnpIS。
快速搜索模式使用Lucene,这是一个高性能的全功能文本搜索引擎库(http://lucene.apache.org). 用户使用“谷歌搜索引擎”在文本框中输入单词(或部分单词)。匹配的单词将返回给用户,其中包含所点击文本的详细信息以及指向相应数据的链接。当用户不知道数据在存储库中的位置时,此模式非常有用。
高级搜索界面用于组合搜索条件。“集成数据库”模式针对数据集成进行了优化,但对于响应复杂查询的数据检索效率不高。为了提高复杂查询的性能,“查询数据库”(“datamarts”)是通过提取和重组另一个针对特定查询调整的模式中的数据来构建的。GnpIS包含一组“数据集市”,用于根据当前用户需求回答特定问题。例如,“数据集市”可能侧重于基因组注释或定位于遗传标记或SNP。此“高级搜索工具”基于BioMart(16),一个面向查询的数据管理系统,允许快速开发此类数据集市和query-builder接口。该系统具有数据挖掘功能,可用于搜索复杂的描述性数据。将数据源转换为BioMart数据集完全由包中包含的工具自动化。BioMart允许建立高效的基于过滤器的查询:例如,查询以查找感兴趣基因上映射的所有SNP,或检索特定基因组区域中某个物种的所有QTL。结果包含指向适当GnpIS数据的web链接,以便可以找到更多详细信息和解释。结果可以以各种平面格式导出以进行分析,也可以上传到Galaxy工具中(17,18),将在工作流中使用(请参阅下文)。
其他工具也用于其他类型的“查询数据库”。G行2(19)每个物种专用的实例用于浏览存储在Bio::DB::SeqFeature::Store(MySQL)数据模型中的基因组注释,以及BAM文件中的NGS数据。G浏览同步(19,20)用于显示基因组同步性。加拿大地图(21)从GnpIS中提取的基因数据为那些喜欢使用此工具显示基因图的科学社区或用户提供了信息。
用户可以使用快速搜索查询、BioMart高级搜索或直接从主题web界面执行的简单查询来浏览数据。这些接口是使用JSP技术或其他web专用语言(如CSS和JavaScript)开发的。搜索结果显示了指向更具体信息区域的链接,从而缩小了对所需数据的搜索范围。
序列检索系统(22)用于从数据库中查询和提取DNA或蛋白质序列。爆炸(23,24)和布拉特(25)服务器,来自序列检索系统或Mobyle(26),允许根据数据库中序列的相似性进行搜索。
搜索和检索性能是数据库模式属性和存储数据的直接结果。与其他通常侧重于基因组学的类似植物数据库相比,遗传数据是我们集成模式的主要重点。遗传图谱、遗传标记(RFLP、SSR、SNP等)、QTL、表型和登录标识符位于系统的核心,允许对其进行详细存储和整合。其他数据库也关注这些数据,但它们存储在独立的数据库中,限制了数据的一致性和整个遗传领域整合的可能性。在各自的Biomarts实例下提供的数据集市反映了这些差异。尽管有些数据库只提供基因组数据集市或不同数据库之间集成不足的数据集市,但GnpIS提供高度集成的遗传数据。
结果
一个高效的数据查询和浏览系统
人机工程学导航通过用户交互和反复的系统修改不断改进。国际科学界可以通过具有直观界面和搜索工具的单一入口点访问GnpIS(http://urgi.versailles.inra.fr/gnpis). 用户可以使用快速搜索或高级搜索工具(如“材料和方法”部分所述)访问数据,或将搜索重点放在特定主题上,例如(i)遗传图谱和QTL,(ii)结构和功能基因注释,(iii)序列多态性,(iv)表型或(v)基因表达。提供专用查询接口(“数据接口”)。用户可以获得结果列表或数据卡,这些结果或数据卡编译了描述所请求对象的所有信息,并链接到存储在系统或远程数据库中的数据。
例如,从遗传数据主题界面,可以引导用户从(i)选定的图谱、(ii)选定的性状或(iii)名称中找到QTL。结果以QTL列表或卡片的形式提供,例如描述标记或遗传图谱。用户可以通过访问GBrowse中相关特征的web超链接进一步探索QTL基因组背景。对于具有注释基因组的物种,可以访问对应于QTL的基因组区域中基因的结构和功能注释。用户还可以进行以SNP为中心的查询,搜索与基因组上某个位置相关的一组基因型或系中的SNP。SNPs也可以根据其基因组位置进行检索。例如,提供给用户的结果将是(i)发现SNP的基因和系,(ii)当前SNP卡和系卡上的链接,或(iii)登录卡(种质)上的链接(如果在“遗传资源模块”中引用),该链接将给出相应的护照描述符和测量的表型。
可以使用用于命名或描述QTL、标记、基因、基因注释、项目等的单词或单词组合进行快速搜索。GnpIS快速搜索工具根据信息的性质在不同的选项卡中显示结果。用户可以通过选择显示的列表中的选项卡来识别感兴趣的匹配项。结果列表根据索引文本字段中的文本匹配覆盖率按相关性排序。将鼠标移到结果上会显示一个弹出窗口,可以在其中找到其他信息。每个结果上可用的超链接允许使用适当的界面访问数据。如果需要,用户可以通过更改搜索词或在搜索文本框中输入字符串搜索运算符来快速查找请求的信息或优化查询。
基于BioMart的高级搜索可以接收(i)在基因组序列上定位的所有QTL和相关的定位信息,(ii)位于基因组区域[由其在碱基对(bp)中的坐标指定]中的所有遗传标记和预测基因,以及地图、标记和在厘蒂摩根(cM)中的遗传位置的详细信息,以及(iii)一个基因或一组基因的所有SNP及其5′和3′侧翼序列和变异模式的详细信息。BioMart有自己的网站,可以进行配置和定制。通过适用于科学问题的专用查询表提供对数据集的访问。通过编程,可以通过web服务或用Perl和Java编写的API访问它。BioMart可以交叉查询两个数据集,甚至可以通过Web远程连接到站点。因此,它可以被认为是一个在计算机网络上集成多个分散数据库系统的元数据库管理系统。通过数据抽象,这个联邦数据库系统可以提供统一的用户界面,并使用户能够使用单个操作操作多个分散数据库中的数据。用户可以查询我们的系统,将结果与外部BioMart数据集远程交叉,并通过BioMart内置web服务访问。
用户可以使用URGI Galaxy系统(Galaxy的本地实例化)来完善他们的分析(17)]; 这个软件系统为各种工具提供了一个简单的基于web的界面,并通过它们访问数据库。Galaxy能够连接到GnpIS、BioMart和其他远程BioMart站点,以查询和检索数据。工具可以链接在用户可能共享的工作流中。这使得不具备信息学或编程技能的用户只需使用web浏览器即可执行复杂的大规模分析。Galaxy中的数据操作很容易;在电子表格上可以进行许多操作。它们可以根据列值进行联接,并以与数据库中的表类似的方式进行操作。Galaxy还可以集成来自几个不同数据库和用户文件的异构数据(18).
国际财团用于大型项目的数据存储库
GnpIS是一个多物种信息系统,可以集成大规模数据。其基础架构具有高效可靠的存储能力,确保数据一致性和信息的长期保存。
GnpIS用于管理、存储和显示大型协作项目期间收集的数据。INRA和其他国际项目的数据已经整理了10年以上。他们对系统开发作出了贡献并从中受益。法国基因组计划选择GnpIS来存储其数据,并在系统中提供来自许多物种的数据(参见表1和中的“数据摘要”补充数据).
数据类型. | 出租车. | 实验. | 特征. |
---|
遗传图谱 | 7 | | 68 |
遗传标记 | 7 | | 32 896 |
QTL基因 | 2 | 32 | 819 |
MetaQTL(元QTL) | 1 | 11 | 19 |
SNP公司 | 42 | 449 | 193 519 |
索引 | 42 | 197 | 10 441 |
表达 | 5 | 8 | 103 |
基因组 | 8 | | 11 |
基因 | 8 | | 818 867 |
遗传资源 | 4772 | | 16 587个 |
表型 | 4772 | | 80 768 |
表型(GxE) | 6 | 三 | 131 |
数据类型. | 出租车. | 实验. | 特征. |
---|
遗传图谱 | 7 | | 68 |
遗传标记 | 7 | | 32 896 |
QTL基因 | 2 | 32 | 819 |
MetaQTL(元QTL) | 1 | 11 | 19 |
SNP公司 | 42 | 449 | 193 519 |
索引 | 42 | 197 | 10 441 |
表达 | 5 | 8 | 103 |
基因组 | 8 | | 11 |
基因 | 8 | | 818 867 |
遗传资源 | 4772 | | 16 587 |
表型 | 4772 | | 80 768 |
表型(GxE) | 6 | 三 | 131 |
数据类型. | 出租车. | 实验. | 特征. |
---|
遗传图谱 | 7 | | 68 |
遗传标记 | 7 | | 32 896 |
QTL基因 | 2 | 32 | 819 |
MetaQTL(元QTL) | 1 | 11 | 19 |
SNP公司 | 42 | 449 | 193 519 |
索引 | 42 | 197 | 10 441 |
表达 | 5 | 8 | 103 |
基因组 | 8 | | 11 |
基因 | 8 | | 818 867 |
遗传资源 | 4772 | | 16 587 |
表型 | 4772 | | 80 768 |
表型(GxE) | 6 | 三 | 131 |
数据类型. | 出租车. | 实验. | 特征. |
---|
遗传图谱 | 7 | | 68 |
遗传标记 | 7 | | 32 896 |
QTL基因 | 2 | 32 | 819 |
MetaQTL(元QTL) | 1 | 11 | 19 |
SNP公司 | 42 | 449 | 193 519 |
索引 | 42 | 197 | 10 441 |
表达 | 5 | 8 | 103 |
基因组 | 8 | | 11 |
基因 | 8 | | 818 867 |
遗传资源 | 4772 | | 16 587 |
表型 | 4772 | | 80 768 |
表型(GxE) | 6 | 三 | 131 |
所代表的物种数量和数据集成需求正在增长。GnpIS目前用于两种植物病原真菌,黄斑钩端螺旋体(27)和灰葡萄孢(28). 基因和重复注释与基因组序列一起显示。基因报告系统连接到“基因组模块”,提供基因结构的详细注释和相关信息源的参考[例如Blast(23,24)和口译员(29)结果或肽信号预测]。转录组数据可用于灰霉病杆菌基因组共有性显示(i)灰霉病杆菌和密切相关的物种菌核病(ii)七人之间钩端螺旋体物种。
树数据也存储在GnpIS中。杨树和苹果树基因组序列及其注释与SNP、遗传标记和QTL一起显示。随着NGS的发展,树木物种(如橡树、海松)中的大量SNP在没有参考基因组序列的情况下被储存。
最近,工作集中在两种作物上:葡萄和小麦。INRA多年来一直致力于葡萄种植。遗传和基因组程序产生了大量数据,这些数据现在被整合到GnpIS中;这包括遗传图谱、标记和QTL。国际葡萄基因组计划(IGGP)选择GnpIS来管理其基因组序列数据和注释,例如葡萄12X装配顺序(30,31). 来自微阵列的转录组数据和来自大型国家和欧洲项目的SNP数据已经整合。因此,可以在基因组背景下探索数据,该系统能够为科学家提供葡萄基因组、注释、表达和多态性的综合视图。
INRA还为小麦的遗传改良积累了大量数据。GnpIS存储这些数据,为小麦研究界提供综合视图(图3). 已有面包小麦遗传图谱、标记和QTL。带有MySQL Bio::DB::GFF模式的GBrowse2(32)用于管理GnpIS中的物理地图。上下文弹出菜单提供了指向生成的遗传标记和序列的链接。研究人员可以浏览基因图谱、物理图谱和该基因组的现有序列。可用的注释显示在序列以及多态性、遗传标记和QTL上。国际小麦基因组测序联合会(IWGSC)使用GnpIS作为存储库来管理小麦序列并向科学界展示。
讨论
数据互操作性和集成
在计算机科学中,互操作性是指不同软件通过交换数据协同工作的能力。这是通过使用一组通用的交换格式和兼容协议实现的。能够读写相同文件格式的软件可能具有基本的互操作性,但web服务需要更精细的表单。在数据库中,可以通过交叉引用链接实现简单的互操作性。
数据集成使用数据互操作性来组合来自不同来源的数据。集成为用户提供了这些数据的统一视图。有两种体系结构能够支持这个概念:虚拟数据库(也称为联邦数据库系统)和数据仓库。
联邦数据库是一种元数据库管理系统,它通过计算机网络透明地集成了多个分散的数据库系统。联邦数据库系统使用数据抽象来提供统一的用户界面,并允许通过单个操作操作多个分散数据库中的数据。为了实现这一点,系统将初始查询分解为子查询,以提交到各个数据库。然后将返回的结果集组合成单个结果。联合数据库系统使用包装器来翻译数据库管理系统之间可能不同的语言。
数据仓库聚合用于报告的数据,而生产数据库旨在高效存储数据。数据仓库将加载来自一个或多个生产数据库的聚合数据。原始数据被清理、转换、编目,并可用于导航和数据挖掘。在体系结构上,数据仓库提供了高级别的数据一致性,因为数据在查询时一起驻留在单个存储库中(与联合数据库不同)。它还确保了引用完整性:引用完整性是一种属性,如果一个记录包含另一个记录引用的值,则不能删除该记录。一些关系数据库管理系统通过删除引用记录或在删除时返回错误来强制执行引用完整性。数据仓库比联邦数据库更难维护和更新,但提供了更好的数据一致性。在实践中,数据仓库往往与数据集市(通过提取数据子集、根据用户需求组织和存储而获得的数据库)相关联。数据集市设计通常基于对用户需求的分析,因此强调访问的易用性和特定用途的可用性。相反,数据仓库的设计可能基于对现有数据的分析以及如何存储这些数据以供以后使用。
GnpIS架构基于数据仓库方法,以确保尽可能最佳的数据一致性。我们关联了数据集市,以便系统能够适应用户需求。这种结构的主要优点是可以适应数据访问,而不需要修改数据仓库模式。修改这样的数据库很复杂,因为规范化模式可能涉及数百个表,并且需要转换大量数据以适应新的规范化模式。经过调整的数据集市模式通过减少完成查询所需的联接数来提高最终用户的响应时间。数据集市模式没有规范化,需要更多的存储空间,但由于搜索的重点是特定主题,因此只需要数据的一个子集。所需的表和字段更少,从而使数据集市能够以比数据仓库更低的成本实现。当引用数据库中的底层数据发生更改时,数据集市中的现有数据不会被转换,而是被从引用数据库中提取的新数据替换。数据集市还有助于定义用户组,有助于进一步定义用户的特定需求。GnpIS还使用BioMart来促进数据库联合,使我们的系统可以通过其他BioMart或Galaxy系统进行互操作,而无需开发web服务(BioMart也提供这些服务)。
协作系统
GnpIS是十多年来数据集成、重复开发和用户交互的结果。它是与科学项目一起开发的,涉及植物基因组学或生物信息学的研究人员。它帮助科学家管理和探索他们的数据,根据他们的需求使用界面和数据库设计。研究人员、工程师、生物学家和生物信息学家之间的密切合作促进了合作项目的发展。已经建立了工作组,并使用敏捷软件开发方法来捕获用户需求,为系统的成功做出了贡献。简短的迭代开发过程提高了对更改的反应能力,因为频繁的发布允许用户提供快速反馈。因此,软件进化受到最终用户的密切指导。组织会议、软件演示、培训课程和视频会议,以保持合作者之间的沟通,并确保软件的有效发展。专用网页确保了这种沟通(http://urgi.versailles.inra.fr/Platform/Training网站)
自GnpIS创建以来,已有56个科学项目使用了它。这些项目要么是在INRA植物科学部门研究人员的合作项目框架内实现的,要么是大型国际合作项目,如GrapeReSeq、TriticaeGenome、IWGSC、IGGP(详见http://urgi.versailles.inra.fr/Projects网站/). 科学家使用该系统不仅可以探索和共享他们的数据,还可以协调他们的工作。他们从该系统中获得的好处还包括可见性和资金。因此,许多科学项目都获得了成功的资助,因为它们的预期结果将通过GnpIS提供给社区。科学家和资助者认为,向科学界快速、广泛地发布数据是至关重要的,数据可以重复使用,并与其他可用数据进行比较。根据GnpIS数据建立了几个新项目,并丰富了IS。TriticaeGenome项目之间的联系(http://wheat-urgi.versailles.inra.fr/Projects/TriticaeGenome2)IWGSC进行的小麦测序项目就是一个完美的例子。小麦基因组项目制作了一些用于小麦基因组测序的物理图谱。然后将小麦序列插入并链接到显示其关系的物理图。
结论
植物基因组学的一个主要挑战是寻找与农艺性状相关的基因,例如与产量和质量(如小麦)、抗病性(如葡萄)或逆境适应(如杨树)相关的基因。为了创造营养和环境特性得到改善的新作物品种,需要轻松浏览和整合遗传和基因组数据。GnpIS依赖于最先进的技术和方法,并已被证明是一个灵活和可扩展的系统。它是一个原创的信息系统,允许用户轻松浏览异构数据,并同时查询不同的科学领域。它将许多不同研究的数据存储在同一数据库中。作为参考数据仓库,它还可以用于促进数据交换和向整个科学界传播。它可以用于各种特别感兴趣的生物,这些生物是国际合作的主题,包括小麦(IWGSC)、葡萄(IGGP)和植物病原真菌(例如L。黄斑和B类.灰霉病). GnpIS能够管理公共域中的数据机密性,同时还支持外部分析的数据提取。
致谢
我们非常感谢INRA和Genoplante的所有同事提交的数据以及他们参加的生物信息学会议,以帮助定义和丰富GnpIS环境。我们尤其要感谢弗里德里克·乔利特、菲利普·勒罗伊、凯瑟琳·拉威尔、艾蒂安娜·鲍克斯、凯瑟琳·费伊莱特、阿兰·查科斯特、维罗妮克·豪尔赫、伊莎贝拉·布盖特、帕特里夏·法夫雷·兰潘特、安妮·弗兰索瓦斯·亚当·布隆登、桑德拉·德索齐尔、法比安娜·格拉尼尔、多米尼克·布鲁内尔和希瑟·麦克坎。我们还要感谢赫莱恩·卢卡斯、凯瑟琳·克里斯托夫、克里斯托夫·普洛米恩和多米尼克·拉博德对我们的支持。
基金
这项工作得到了INRA植物生物学和育种部、法国国家研究机构、Genoplante计划和TransPLANT项目(欧盟第七框架计划,合同号283496)的支持。开放存取费用的资金来源:INRA。
利益冲突。未声明。
工具书类
1, , 等拟南芥信息资源(TAIR):改进的基因注释和新工具
, 核酸研究。
, 2012
,卷。 40
(第D1202号
-210天
) 2, , 等MaizeGDB,玉米遗传和基因组学社区数据库
, 核酸研究。
, 2004
,卷。 32
(第D393号
-D397号
) 三. FlyBase:用于果蝇属研究团体
, 方法分子生物学。
, 2008
,卷。 420
(第45
-59
) 4, , . FlyBase 101-导航FlyBases的基础知识
, 核酸研究。
, 2012
,卷。 40
(第D706型
-D714号
) 5, , 等2010年Gramene数据库:更新和扩展
, 核酸研究。
, 2011
,卷。 39
(第D1085号
-D1094号
) 6, , 等Gramene QTL数据库:发展、内容和应用
, 数据库
, 2009
,卷。 2009
第页。 巴普005
7, , 等合奏2012
, 核酸研究。
, 2012
,卷。 40
(第D84(数字84)
-D90型
) 8, , 等Ensembl基因组数据库项目
, 核酸研究。
, 2002
,卷。 30
(第38
-41
) 9, , 等国家生物技术信息中心的数据库资源
, 核酸研究。
, 2011
,卷。 39
(第第38天
-D51型
) 10, , 等植物群落:绿色植物基因组学的比较平台
, 核酸研究。
, 2012
,卷。 40
(第D1178号
-D1186号
) 11, , 等PlantGDB:比较植物基因组学资源
, 核酸研究。
, 2008
,卷。 36
(第D959型
-D965号
) 12, , 等MIPSPlantsDB–用于整合和比较植物基因组研究的植物数据库资源
, 核酸研究。
, 2007
,卷。 35
(第D834号
-D840号
) 13, , 等热带作物信息系统TropGEN-DB
, 核酸研究。
, 2004
,卷。 32
(第D364号
-D367号
) 14, , 等GénoPlante-Info(GPI):植物基因组学数据库和生物信息学资源的集合
, 核酸研究。
, 2003
,卷。 31
(第179
-182
) 15, . Chado案例研究:基于本体论的模块化模式,用于表示基因组相关生物信息
, 生物信息学
, 2007
,卷。 23
(第i337型
-i346型
) 16, , 等BioMart:大型协作项目的数据联合框架
, 数据库
, 2011
,卷。 2011
第页。 巴038
17, , . 银河系:支持生命科学中可访问、可复制和透明计算研究的综合方法
, 基因组生物学。
, 2010
,卷。 11
第页。 86兰特
18, , 等将各种数据库集成到统一的分析框架中:银河方法
, 数据库
, 2011
,卷。 2011
第页。 棒011
19. 使用通用基因组浏览器(GBrowse)
, 货币。协议。生物信息学
, 2009
20, , . 使用通用同步浏览器(GBrowse_syn)
, 货币。协议。生物信息学
, 2010
21, , 等CMap 1.01:互联网的比较地图应用程序
, 生物信息学
, 2009
,卷。 25
(第3040
-3042
) 22, , . SRS:分子生物学数据库信息检索系统
, 方法酶学。
, 1996
,卷。 266
(第114
-128
) 23, , 等基本本地对齐搜索工具
, 分子生物学杂志。
, 1990
,卷。 215
(第403
-410
) 24, , 等缺口BLAST和PSI-BLAST:新一代蛋白质数据库搜索程序
, 核酸研究。
, 1997
,卷。 25
(第3389
-3402
) 25. BLAT-类似BLAST的对齐工具
, 基因组研究。
, 2002
,卷。 12
(第656
-664
) 26, , 等Mobyle:一个新的全网络生物信息学框架
, 生物信息学
, 2009
,卷。 25
(第3005
-3011
) 27, , 等隔间内的效应器多样化黄斑钩端螺旋体重复诱导点突变对基因组的影响
, 国家公社。
, 2011
,卷。 2
第页。 202
28, , 等坏死性真菌病原菌的基因组分析菌核病和灰葡萄孢
, 公共科学图书馆-遗传学。
, 2011
,卷。 7
第页。 e1002230号
29, . InterProScan—一个用于InterPro中签名再识别方法的集成平台
, 生物信息学
, 2001
,卷。 17
(第847
-848
) 30, , 等葡萄基因组序列表明主要被子植物门中祖先的六倍体
, 自然
, 2007
,卷。 449
(第463
-467
) 31, , 等, , . 基因组序列倡议
, 葡萄遗传学、基因组学与育种
, 2011
佛罗里达州博卡拉顿
科学出版社和CRC出版社
(第211
-234
) 32, , 等1Gbase面包小麦3B染色体的物理图谱
, 科学类
, 2008
,卷。 322
(第101
-104
)
作者注释
©作者2013。牛津大学出版社出版。
这是一篇根据知识共享署名许可条款发布的开放存取文章(http://creativecommons.org/licenses/by/3.0/)它允许在任何介质中不受限制地重用、分发和复制原始作品,前提是正确引用了原始作品。