摘要

生物样本数据库(http://www.ebi.ac.uk/biosamples网站)是EBI的一个新数据库,用于存储分子实验中使用的生物样品的信息,如测序、基因表达或蛋白质组学。生物样本数据库的目标包括:(i)在EBI数据库(如ENA、ArrayExpress和PRIDE)中一致地记录和链接样本信息;(ii)通过一次提交样本描述并在稍后的数据提交中引用到分析数据库,最大限度地减少EBI数据库提交者的数据输入工作量,以及(iii)通过样本特征支持跨数据库查询。数据库中的每个样本都分配了一个登录号。该数据库包括一组不断增长的参考样品,例如细胞系,这些样品在实验中反复使用,并且可以通过其登录号从任何数据库中轻松引用。参考样品的登录号将与NCBI的类似数据库进行交换。数据库中的样品可以通过其属性进行查询,例如样品类型、疾病名称或样品提供者。简单的制表符分隔格式有助于将样本信息提交到数据库,最初通过电子邮件发送到biosamples@ebi.ac.uk

简介

生物样品现在通常通过各种高通量分子技术进行分析,如微阵列、新一代测序或质谱。欧洲生物信息学研究所(EBI)的许多数据资源,例如功能基因组数据ArrayExpress的档案(1),欧洲核苷酸档案馆(ENA)(2)蛋白质组鉴定数据库PRIDE()和欧洲基因组-现象档案(EGA)捕获并表示与存储的(分子)数据相关的样本信息。同一样品可以通过多种技术进行分析;例如,癌症样本通常进行DNA甲基化和基因表达的基因分型和分析。样本之间可能存在关系,例如,在癌症轮廓分析中,有时会将肿瘤样本的DNA与从同一个人的肿瘤外围或血液中获得的DNA进行比较。为了解释这些实验的数据,重要的是要了解基本的样本属性以及不同样本及其来源之间的关系。这些属性可以指定采样的材料、场所微生物、组织和表型信息,包括疾病状态。我们将所有此类元数据称为样本数据(或样本信息).

大多数生物信息学资源将在未来记录样本数据,因为分子分析现已从创建参考数据集转变为分析个人和特定条件。样品通常在一个地点收集,然后分发到几个远程地点,每个地点用于特定类型的分析。一些参考样品,如标准细胞系,被商业化分发并广泛重复使用。因此,将样本信息记录在单独的专用数据库中变得越来越有利,然后该数据库可以链接到存储在适当的分析数据库中的关于特定样本的分析数据。

这导致EBI建立了一个新的数据库:生物样品数据库(BioSD)。该数据库的主要目标是:

  1. 在EBI中一致记录和管理样本信息,并将样本信息链接到多个资源的分析数据;

  2. 尽量减少用户的数据输入工作,尤其是只允许提交一次样本描述,并在以后从其他数据库和提交中引用它们;

  3. 通过样本描述支持跨数据库的样本查询;

  4. 构建一组不断增长的一致注释样本,这些样本在实验中重复使用,并且可以从EBI内部和外部的任何数据库中轻松引用。这些被称为参考层样品。

为了实现这些目标,我们为BioSD中的样本分配了稳定的登录号。此外,我们已经与正在开发类似数据库的国家生物技术信息中心(NCBI)商定了一个共同的加入系统和样本数据交换(http://www.ebi.ac.uk/biosamples/documents/BioSampleDB_ebi_NCBI.pdf). 所有参考层样品将以协调的方式交换、添加,并可从NCBI和EBI数据库访问。

生物样本数据库是过去10年记录和存储项目和领域特定样本数据EBI经验的结晶。阵列Express(4)是EBI自2002年以来第一个处理高通量基因表达数据集复杂样本注释的数据库,此后其他EBI分子分析数据库也做出了类似的努力。我们还与合作者共同开发了样本信息管理系统PASSIM(5)用于预先注册和注释为特定生物医药基因组学项目收集的样本,其中样本注释是标准化的、预先知道的和严格控制的。该系统仍在许多项目中用于样本注释和跟踪,其中包括关于肾癌的国际癌症基因组项目CAGEKID。最近,ISA Infrastructure等项目(6),开发了资源,可用于以研究为中心的方式存储多组学项目的数据和示例注释。样品可用性系统(SAIL)(7)旨在整合生物银行收集的样本信息。

集中的样品储存库(如BioSD)必须足够灵活,以获取以下样品的任何生物样品描述先验的未知类型。样本可以有复杂的链接,可以以多种方式分组;关键的是,这些链接和组可能事先未知,并且可能与提交时的任何特定项目或研究无关。现有样本可能会被合并到新的研究中,并且可能会进行各种荟萃分析。在稍后提交数据时,需要将此类研究产生的数据与样本联系起来。生物学家和项目所有者必须易于预先注册样本,输入可用的样本信息并获得登录号。样品信息在提交时可能不完整,并会逐步扩展或更正。由于EBI的化验数据库已经保存了大量样本记录,因此BioSD必须能够处理这些数据,并在未来扩展到更多。

BioSD的实施支持这些要求。样品可以以简单的表格格式提交,称为SampleTab,数据库允许用户驱动的样品注册和提交,并合并来自外部参考收集(例如细胞系)和EBI的许多分析数据库(包括ENA、ArrayExpress和PRIDE)的数据;它已经包含了一百多万个样本的样本数据。BioSD还可以作为未来化验数据库的样本数据的主要存储库,这些数据库可能不喜欢在本地存储样本信息,例如EBI的遗传变异DGVa数据库(8). 以这种方式集中样本信息允许对注释进行一致性检查,鼓励使用常见术语,例如实验因子本体(9)并为示例相关数据提供单个查询门户。简单的查询界面允许用户通过各种属性或属性查询BioSD中的所有样本,并导航到分析数据库。

BioSD数据模型及其实现

示例数据表示为两种类型的对象:样品样本组。我们没有开发多种不同类型的对象来表示所有可能的样本类型(个体、血液、活检、细胞系、小鼠菌株等),而是为通用样本建模并使用属性定义类型。样本是一个可识别的对象,其上附有物种、疾病信息或细胞类型等注释。样品可以是派生的其他样品。例如,可以将个人表示为带有性别、年龄和种族信息的类型化样本。在特定时间从该个人获得的血液样本将表示为通过派生的关系。其他类型的关系,例如个人之间的血统关系,也可能会被记录下来。可以断言多个样品是指相同物理材料的等分样品。这些被建模为数据库中的多个样本对象,我们在它们之间建立了等价关系。这允许记录关于等价关系的来源信息,以及向特定样本中增量添加信息,而不会产生信息所有权冲突。

在大多数情况下,样本是自然分组的,例如,特定采集的细胞系,例如国家老龄研究所,或与出版物或项目相关的样本。同一组中的样本通常注释一致,即为所有(或至少大多数)样本提供相同的属性,并使用相同的术语注释组中的所有样本。对于属于不同组的样本来说,这并不一定是真的——代表人类受试者或细菌细胞培养物的样本将具有很大不同的属性,而且我们不能自动假设不同样本组中相同名称的属性具有完全相同的含义或使用相同的术语。从逻辑上讲,一个样本可能属于多个组。

使用组可以实现批提交。分析数据库通常对样本进行分组,查询可以返回组中的单个样本和相关样本。

用于填充BioSD的数据来自三种不同类型的来源:

  1. 样品直接提交给BioSD,以便在以后提交给分析数据库的数据中参考。例如,商业细胞系或大型分析项目(如ENCODE)中使用的样本。我们建议将名为SampleTab的格式用于此路由(见下文)。

  2. 从分析数据库导入的样本数据(称为分析样本)。对于现有的分析数据库,样品信息通常也保留在各自的分析数据库中,但EBI的新分析数据库可能只在BioSD中存储样品信息。

  3. 提交给NCBI的参考样品的数据交换。

在许多情况下,对于直接提交给BioSD的样本,提交和样本组之间存在一对一的关系。以这种方式采集的样本的精选子集(与与NCBI交换的样本一起)构成参考样本集。我们还积极使用标准样本集合来填充数据库。通过路线2获得的一些样品也可在处理后纳入参考集。请注意,路线1支持提交属于协调的多组学研究的样品-样品提交给BioSD,然后从各自的分析数据库中引用。

样本组还用于在无法发布特定样本的详细信息的场景中提供信息。例如,众所周知,一组人体样本有年龄、性别和出生日期,但出于道德原因,无法提供这些详细信息。然而,可以在道德准则范围内提供群体层面的总结信息,例如年龄在18至30岁之间。同样,对于某些毒理学数据,单个样本的数据池的结果是,只有每组样本的平均数据可用。

最后,使用组概念可以提供示例组上下文来支持查询。例如,HeLa衍生样品用于分析和参考收集。提供组级信息,如“Coriell catalogue”或“ArrayExpress experiment”,可以在出现多个点击时为查询结果提供上下文。

BioSample数据库的实现旨在适应高度可变的样本描述,并具有足够的灵活性,以支持未来的更改,而无需进行大规模的系统修改,例如RDBMS中的模式更改。BioSD的核心是一个自定义的基于图形的数据引擎,它将信息作为附加了任意属性集的对象进行管理,并且可以通过定义的关系进行链接,例如派生的等价于数据引擎包括加载数据的语义描述,例如对象的类型、可能的属性和关系,以及允许对象与属性或关系具有关联的规则。因此,数据模型灵活、易于扩展和编辑,使我们能够专注于查询和数据表示用例的最佳数据组织,而不是遵守来自多个外部数据库的现有数据约束。

使用语义注释图进行数据描述,可以通过推断对象之间的新关系来丰富信息,例如样本等价性、系谱关系和样本相似性。实现了从对象图中选择和处理信息的数据索引和搜索服务。最重要的是全文索引,它允许用户根据注释查找样本和组。当用户可以根据一些预定义的标签来选择信息时,BioSD还支持基于标签的搜索,这些标签用于按标准(如数据源或相关项目)对样本进行分组。

BioSD文件格式:SampleTab

我们开发了一种名为SampleTab的文件格式来表示有关BioSamples的信息。这主要是为了供生物学家使用,是人类可读的,适合于数据交换,并且受到了类似电子表格的标签分隔格式(如MAGE-tab)的启发(10)和ISA-TAB(11). 每个SampleTab文件都将样本描述为属性-值对的集合。此外,每个文件都包含有关样品材料来源和描述样品的数据的信息。提供了SampleTab文件的完整描述和不同示例类型的示例(http://www.ebi.ac.uk/microarray-srv/biosd/static/st.html)因此,此处仅提供简要总结。

SampleTab文件由两部分组成,即Meta-Sample Information(MSI)部分和Sample Characteristics Description(SCD)部分。在完整的SampleTab文件中,这些部分的开头分别由行“[MSI]”和“[SCD]”表示,但在工作副本中,它们可以作为单独的电子表格存储在工作簿中。MSI和SCD部分的示例如所示图12分别是。

SampleTab文件的MSI节示例。
图1。

SampleTab文件的MSI节示例。

SampleTab文件的SCD部分示例。
图2。

SampleTab文件的SCD部分示例。

SampleTab文件的MSI部分具有基于行的格式,其中第一列由描述四类信息的属性组成。这些是:BioSD提交的文件、任何相关出版物、组织和联系人。至少必须包括以下内容:提交标题、提交示例选项卡版本以及联系人的组织或个人电子邮件地址。

在SCD部分中,有一个包含属性名称的标题行。随后的每一行表示一个样本(或相互派生的多个样本)。并非每个样本都必须有每个属性的值,例如,在没有可用数据的情况下(例如,AsSMC的性别和Astrocy样本图2). 每个样本至少必须有一个“样本名称”。预计几乎所有提交的样本都将包含指定物种的“生物体”属性,尽管对于某些数据来说这可能不适用(例如宏基因组样本)。大多数样本还将包含“材料类型”属性,例如纯化DNA、细胞系、血样。我们鼓励提交者提供更多信息,例如收集位置、基因修改。还可以对样本之间的关系进行编码,例如从个人之间的关系和从他们身上采集的血样中导出的关系。

我们并不寻求根据以下条件指定SampleTab文件中必须提供的信息先验的数据假设;提交的格式和过程保持灵活性,以接受现有的数据,因为随着标准的制定和应用,数据在未来可能会发生变化。因此,SampleTab格式的提交可以提供任意数量的附加列,这些列标记为样本的特征或关于样本的注释。这可以在图2在“特征[核型]”列和“注释[谱系]”列中。通过这种机制,提交者可以用他们熟悉的术语捕获与其相关的信息,而无需理解冗长的技术规范文档。

通过电子邮件向BioSD提交biosamples@ebi.ac.uk使用提交模板。其他提交工具和路线正在开发中,并将作为开源应用程序发布。还可以将提交前查询和数据检索查询定向到该地址。SampleTab的托管格式扩展和后续版本将可用于支持提交者的未来需求和数据交换。我们欢迎对SampleTab格式的评论和反馈。

BioSD查询界面、API和内容

可以通过样本或样本组属性浏览或查询BioSD内容,例如“血液”、“人类”、“癌症”、“ENCODE”。用户界面遵循组/示例概念,并将搜索结果表示为与查询条件匹配的组列表。对于查询,使用常见的类似搜索引擎的语法;用户可以输入感兴趣的关键字组合。还支持使用AND、NOT等操作的逻辑表达式。搜索结果可以受到组、样本、属性名称、属性值和上述任意组合中的点击数的限制,也可以受到源:分析数据库或参考层样本的限制。

可以扩展搜索结果列表中的每个组记录,以提供更详细的信息,包括:联系人、出版物、从属关系。除了组描述之外,还显示了组中的样本列表(请参见图3). 每行对应一个样本,每列表示一个样本属性。用户可以选择查看完整的样本组或与输入查询匹配的样本子集。

到2011年底,BioSD将包含来自参考收集和EBI分析数据库(包括ArrayExpress)的100多万个样本[包括GEO数据库交换数据(12)]以及欧洲核苷酸档案中的SRA部分(2). 构建了一个自动管道系统,通过现有的数据库API从每个源中提取、解析和加载数据,或者从没有合适API的文件下载中提取、分析和加载数据。例如,国际小鼠菌株库(IMSR)数据是从可通过http://www.findmice.org/reportlist.jsp针对这些不同的源,开发了自定义格式转换软件以生成SampleTab格式。进一步的处理步骤将添加内容分配给样本和组,将样本合并到提交内容中,确保受控词汇和文献参考有效。

未来

BioSD已经包含了大量在功能基因组学实验中常规使用的参考样本的信息。我们鼓励科学界通过其登录号引用这些样品,特别是当通过化验获得的数据提交给任何EBI化验数据库时。如果必要或需要,可以添加关于样本的附加信息。我们将与所有EBI分析数据库合作,确保访问和引用BioSD中的现有样本非常简单。由于一些分析数据库也在本地保存样本信息,我们将建立一个系统,自动将BioSD请求的样本信息推送到相应的分析数据库中。此外,还将建立一种机制,用于处理EBI分析数据库中的协调多组分提交。

BioSD web界面中的搜索结果示例。
图3。

BioSD web界面中的搜索结果示例。

BioSD和其他EBI数据库之间未来集成概述。
图4。

BioSD和其他EBI数据库之间未来集成概述。

BioSD的任务之一是建立提交修改工具,允许提交者轻松添加或编辑现有样本的信息。确保BioSD中的样本信息是一致的和更新的是一个不平凡的问题。使用的许多源都没有按类型公开更新的API。相反,我们定期重新分析所有源信息,与之前加载到生物样本数据库中的信息进行比较,并在适当的地方进行更新。对现有API的改进将大大简化此过程。

我们将继续与参考样本收集所有者合作,用样本信息填充BioSD。将开发在线提交工具,使直接提交者更容易提交SampleTab。参考层也将通过管理EBI分析数据库中的样本信息而逐步扩大,这些样本符合与NCBI联合制定的参考层标准。所有参考样本将与NCBI.的生物样本数据库交换,有关这些的信息将保存在这两个数据库中。

可以通过超链接从BioSD中的样本和组导航到分析数据库中的相关分析,以检索分析数据。一些数据库(包括ArrayExpress)目前不添加单个样本,这使得从BioSD中的单个样本创建和维护到单个分析的链接变得不直接。目前已为ENA和PRIDE实现了示例链接,其中包含ENA和ArrayExpress的组链接。为了使BioSD数据库更有用,将来将提供从BioSD中的单个样本到所有化验数据库中化验数据的超链接。

一种受控访问机制正在测试中,该机制允许用户将其样本描述保密,以便稍后发布(例如,在发布后),或允许受限访问符合道德要求。

GUI将得到进一步开发,以实现更复杂的查询、现有搜索结果的过滤、改进的布局和信息下载。使用实验因子本体(EFO)将提高查询能力(9)基于查询扩展;例如,搜索“癌症”将匹配癌症的所有亚型和同义词,如“癌症”和“恶性肿瘤”。此外,随着生物样品数据库用户基础的扩大和多样化,我们将进行用户体验研究,以确定其他需要改进的领域。

未来,BioSD将成为EBI生物样品所有信息的中心位置(参见图4)从EBI内部和外部的其他相关数据库中存储和引用这些信息,并且在这些数据库中可以轻松查询和发现这些信息。

基金

所有作者和BioSD开发的大部分资金主要来自EMBL成员国提供的EMBL核心预算,来自欧洲委员会拨款CAGEKID(HEALTH-F4-2010-241669)和ENGAGE(HEALPH-F4-2007-201413),来自欧盟委员会FP7计划。开放存取费用资金:EMBL核心基金。

利益冲突声明。未声明。

鸣谢

我们感谢NBCI的同事:Tanya Barrett、Steve Sherry和Jim Ostell进行了富有成果的讨论,并与我们分享了他们的XML模式。我们从PASSIM、BII/ISA项目和SAIL的经验和讨论中受益匪浅,尤其是与Juris Viksna、Maria Krestyaninova、Susanna Assunta Sansone和Philippe Rocca-Serra的讨论。我们还与Gramene、1000 Genomes和Encode项目就各自社区和物种的最佳访问模型和数据表示需求进行了富有成效的讨论。我们感谢许多EBI工作人员,特别是詹姆斯·马龙、托尼·伯德特、赵鹏、伊尔卡·拉帕莱宁、丽莎·斯基珀、阿提拉·索尔达斯、克里斯·亨特、菲尔·琼斯、保拉·德·马托斯、亨宁·赫姆贾科布、莎拉·亨特、约翰·奥文顿、克里斯托夫·斯坦贝克、保罗·弗利切克、伊万·伯尼和格雷厄姆·卡梅隆就BioSD应用进行的讨论,用例和实现。

参考文献

1
帕金森
H(H)
萨尔坎群岛
U型
列斯尼科夫
N个
阿贝古纳瓦德纳
N个
伯德特
T型
迪拉格
M(M)
埃玛
法尔内
A类
黑斯廷斯
电子
霍洛韦
电子
ArrayExpress更新–基于基因芯片和高通量序列分析的功能基因组学实验的存档
核酸研究。
2011
,卷。 
39
 
数据库问题
(第
D1002号
-
D1004号
)
2
莱诺宁
R(右)
阿赫塔
R(右)
伯尼
电子
鲍尔
L(左)
塞尔德诺·塔拉加
A类
Y(Y)
克利兰
法鲁克
N个
Goodgame游戏
N个
吉布森
R(右)
欧洲核苷酸档案
核酸研究。
2011
,卷。 
39
 
数据库问题
(第
第28天
-
第31天
)
维兹卡诺
青年成就组织
科特
R(右)
赖辛格
F类
酒吧
H(H)
培养
吉咪
拉美塞德
J型
信息字
H(H)
马滕斯
L(左)
蛋白质组学鉴定数据库:2010年更新
核酸研究。
2010
,卷。 
38
 
数据库问题
(第
D736号
-
D742号
)
4
巴西
A类
帕金森
H(H)
萨尔坎群岛
U型
肖贾塔拉布
M(M)
维洛
J型
阿贝古纳瓦德纳
N个
霍洛韦
电子
卡普什基
M(M)
凯默伦
P(P)
劳拉
GG公司
ArrayExpress–EBI微阵列基因表达数据的公共存储库
核酸研究。
2003
,卷。 
31
(第
68
-
71
)
5
维克斯纳
J型
塞尔姆斯
电子
奥普马尼斯
M(M)
波德涅克斯
K(K)
鲁塞夫斯基
P(P)
扎林斯
A类
巴雷特
A类
尼奥吉
新加坡
克雷斯塔尼诺娃
M(M)
麦卡锡
医疗保险
PASSIM–用于管理生物医学研究信息的开源软件系统
BMC生物信息学
2007
,卷。 
8
第页。 
52
 
6
罗卡·塞拉
P(P)
Brandizi公司
M(M)
马奎尔
电子
斯科利亚尔
N个
泰勒
C类
贝格利
K(K)
字段
哈里斯
S公司
隐藏
W公司
霍夫曼
ISA软件套件:支持符合标准的实验注释并支持社区级别的管理
生物信息学
2010
,卷。 
26
(第
2354
-
2356
)
7
戈斯特夫
M(M)
费尔南德斯·巴内特
J型
Rung公司
J型
迪特里希
J型
普罗科片科
里帕蒂
S公司
麦卡锡
医疗保险
巴西
A类
克雷斯塔尼诺娃
M(M)
SAIL-一个跨生物银行和队列的样本和表型可用性软件系统
生物信息学
2011
,卷。 
27
(第
589
-
591
)
8
教堂
DM公司
拉帕莱宁
斯奈登
TP(转移定价)
辛顿
J型
马圭尔
M(M)
洛佩兹
J型
获得
J型
帕沙尔
J型
迪库乔
M(M)
雅先科
电子
基因组结构变异公共数据档案
自然遗传学。
2010
,卷。 
42
(第
813
-
814
)
9
马龙
J型
霍洛韦
电子
阿达穆萨克
T型
卡普舍斯基
M(M)
J型
列斯尼科夫
N个
祖科娃
A类
巴西
A类
帕金森
H(H)
用实验因子本体建模样本变量
生物信息学
2010
,卷。 
26
(第
1112
-
1118
)
10
雷纳
TF公司
罗卡·塞拉
P(P)
斯皮尔曼
PT公司
考斯顿
碳氢化合物
法尔内
A类
霍洛韦
电子
爱尔兰语
无线电高度表
线路接口单元
J型
迈尔
DS公司
米勒
M(M)
一种简单的基于电子表格、支持MIAME的微阵列数据格式:MAGE-TAB
BMC生物信息学
2006
,卷。 
7
第页。 
489
 
11
桑索内
沙特阿拉伯
罗卡·塞拉
P(P)
布兰迪齐
M(M)
巴西
A类
字段
福斯特尔
J型
加罗
AG公司
吉尔伯特
J型
Goodsaid公司
F类
哈代
N个
第一次RSBI(ISA-TAB)研讨会:“对于复杂的研究,简单的格式能起作用吗?”
组学
2008
,卷。 
12
(第
143
-
149
)
12
巴雷特
T型
特鲁普
数据库
威尔希特
东南方
勒杜(Ledoux)
P(P)
伊万格利斯塔
C类
基姆
国际单项体育联合会
托马舍夫斯基
M(M)
马歇尔
灵魂
菲利普
千赫
谢尔曼
颗粒物
NCBI GEO:功能基因组数据集存档–10年后
核酸研究。
2011
,卷。 
39
(第
D1005号
-
D1010号
)

作者注释

作者希望知道,在他们看来,前两位作者应被视为联合第一作者。

现住址:Julio Fernandez-Banet,美国加利福尼亚州圣地亚哥科学中心路10724号,邮编92121,辉瑞公司全球研发部辉瑞肿瘤研究部计算生物学。

这是一篇根据知识共享署名非商业许可条款发布的开放存取文章(http://creativecommons.org/licenses/by-nc/3.0)它允许在任何媒体上无限制地进行非商业性使用、分发和复制,前提是正确引用了原始作品。

评论

0条评论
提交评论
您输入了无效代码
感谢您对本文发表评论。您的评论将由期刊自行审核和发表。请通过电子邮件查看更多通知。