摘要
生物研究(www.ebi.ac.uk/biostudies网站)是一个新的公共数据库,用于组织来自生物学研究的数据。通常,但不限于,研究与出版物相关。生物研究提供了一种描述研究结构的简单方法,并提供了灵活的数据沉积工具和数据访问接口。实际数据可以存储在BioStudies或远程,或两者兼而有之。BioStudies从欧洲PMC导入补充数据,是作者和出版商在手稿准备过程中打包数据的资源。它还可以支持协作项目的数据管理需求。多元组学实验和生命科学研究的其他多方面方法的发展意味着研究会在多个位置产生多样的数据输出。BioStudies提供了一种解决方案,以确保所有这些数据和相关出版物能够在较长时间内一致地找到。
背景
生命科学研究得到了各种专业化和结构化资源的支持,这些资源包含了越来越多的生物研究数据,这一NAR问题的贡献就是明证。同时,支持特定生物学研究的数据也在增加,这些研究可以作为与文章相关的补充数据,也可以在Dryad等多个通用存储库中找到(1)、Figshare(2)和泽诺多(https://zenodo.org/)它的出现有助于共享不适合专用存储库的“非结构化”数据。然而,这些努力与专门的生命科学数据库没有很好的联系,随着时间的推移,生物研究的不同数据输出有分散和断开的风险。从研究论文中严格引用支持研究的数据的做法仍在进行中(doi:10.1101/100784),而且可能采用的各种方法不仅使数据发现变得困难,而且也阻碍了科学家共享数据的努力。
生物研究数据库旨在解决其中一些问题(三)。它拥有生物研究的高级元数据描述,与欧洲生物信息学研究所(EBI)的专业生命科学数据库和/或其他数据库中的基础数据链接,包括上述通用存储库。必要时,BioStudies还可以托管尚未存放在其他地方的数据。通过创建一个单一的记录,将与一项研究相关的所有数据链接到其中,BioStudies提供了确保该研究的所有数据元素有效链接的方法,这对于可能在一段时间内在多个位置发布数据的多组学研究来说是一项特别具有挑战性的任务。这种方法还以有意义的方式简化了相关数据的引用。
截至2017年9月,生物研究数据库保存了100多万项研究,其中大部分是从欧洲PMC获得的。几个项目提供了数千个数据集(见下文);如果我们测量数据文件的大小,三分之一以上的数据来自项目。作者直接提交的研究数量正在增加。
范围
生物研究的目的是整理研究的所有数据,从而通过整合多种数据资源和生命科学文献来改进数据发现。因此,生物研究欢迎支持生物研究的数据沉积,尤其是来自结构化数据资源(如EMBL-EBI)中也有输出的研究。虽然生物研究接受所有不适合结构化专业资源的生物数据,但它也充当了多组学研究的封套,单个数据组件驻留在档案中,如欧洲核苷酸档案(ENA)(4),蛋白质鉴定数据库(PRIDE)(5)或功能基因组学档案ArrayExpress(6)。当ELIXIR(欧洲生命科学数据基础设施)制定关于核心数据资源的建议时(https://www.elixir-europe.org/platforms/data/core-data-resources)和沉积数据库(https://www.elixir-europe.org/platforms/data/elixir-deposition-databases)生物研究的范围是支持使用这些资源的研究。
数据提交
向BioStudies提交数据有两种方式:一种是针对个人存款人,另一种是用于批量数据管道。首先,我们提供了一个基于web的提交工具(http://www.ebi.ac.uk/biostudies/submissions网站)。用户可以将数据文件上传到他们的BioStudies主目录中,并通过一个基本的web表单,根据简单的BioStudies模型描述他们的数据集,即提供标题、研究的基本总体描述、存放在其他地方的数据的链接,如果需要,还可以提供这些数据或存放文件的描述。存款人保留对其数据集的完全控制权,可以稍后编辑其数据添加文件或进一步的描述。BioStudies保留每个数据集的版本历史记录(尽管此功能当前未在BioStugy的web视图中显示)。
第二种机制是通过简单的制表符分隔文件格式进行批量数据提交,该文件格式可以在任何电子表格编辑工具(如Microsoft Excel)中创建。我们将此格式称为“PageTab”(页面布局制表格式)。它提供了描述研究、其属性、相关文件、链接以及更复杂研究的逻辑层次结构的方法。所有信息都以与提供的输入极为相似的方式显示在网站上。数据以这种格式加载到许多沉积管道的BioStudies中,但也可以由单个提交者使用。在Biostudies中,“项目”是一组通过公共管道存储的数据集;其中包括欧洲PMC、diXa、EurocanPlatform。请参见图1有关数据提交路径的说明。
数据内容
为了说明生物研究如何在各种情况下工作,我们在这里描述了生物研究的一些当前数据来源:
欧洲PMC(7),生命科学文献数据库,为BioStudies提供了所有全文论文的数据包,这些论文要么包含补充材料,要么链接到其他地方的数据资源,或者两者兼而有之。这些研究还包括论文摘要、作者信息以及从论文中提取的资金来源。然而,我们鼓励研究人员直接向BioStudies提交数据,创建一个可以从出版物中轻松引用的数据包。我们将确保,对于在发表时在生物研究中有相关数据的论文,我们不会从欧洲PMC重新导入信息。我们已经开始与各种科学期刊合作,将提交给生物研究的补充材料整合到他们的管道中。
生物研究是欧洲平台项目的数据目录(8)-参见http://www.ebi.ac.uk/biostudies/EurocanPlatform/studies/该项目在ArrayExpress中确定了2710个癌症相关数据集,然后通过BioStudies记录在其上添加了进一步的注释层,通过链接到Experimental Factor Ontolog(用于描述EBI生物研究和材料的本体)来指示癌细胞来源和癌症类型(9)。这说明了如何使用BioStudies来管理项目的增值数据,其中研究的数据集已经存在于结构化存储库中(在本例中为ArrayExpress)。
diXa数据仓库是一个毒理组学实验数据的集合,与化学数据库链接(10)-总共约300项研究。它包含转录组、蛋白质组、代谢组和表观遗传数据:http://www.ebi.ac.uk/biostudies/diXa/studies网站/在这种情况下,我们既保存了研究的描述,也保存了相关的数据文件。
来自其他几个正在进行的项目的数据(http://www.hecatos.eu/,http://www.eu-toxrisk.eu/)目前为私人持有,只有项目成员才能使用;这些数据将根据这些项目的数据管理计划公开发布。如果数据存储在能够无缝地进行私有到公共转换的资源中,而不是需要在其他地方重新加载或重新放置,那么尽早捕获项目数据会增加数据在下游公开的可能性。我们还从生命科学社区学习如何构建上游数据捕获工具,以及如何最好地提供生物研究中的数据访问。
表1显示了BioStudies中最常见的文件类型的细分。
生物研究中最流行的文件格式
文件类型. | 文件数量. |
---|
pdf格式 | 667 349 |
文档,docx | 401 381 |
tif、tiff | 294 085 |
xls、xlsx | 216 331 |
html格式 | 156 684 |
电影,阿维 | 89 677 |
jpg格式 | 50 643 |
拉链 | 34 757 |
到岸价格 | 2007年7月30日 |
细胞 | 27 817 |
文件类型. | 文件数量. |
---|
pdf格式 | 667 349 |
文档,docx | 401 381 |
tif、tiff | 294 085 |
xls、xlsx | 216 331 |
html格式 | 156 684 |
电影,阿维 | 89 677 |
jpg格式 | 50 643 |
拉链 | 34 757 |
到岸价格 | 2007年7月30日 |
细胞 | 27 817 |
文件类型. | 文件数量. |
---|
pdf格式 | 667 349 |
文档,docx | 401 381 |
tif、tiff | 294 085 |
xls、xlsx | 216 331 |
html格式 | 156 684 |
电影,阿维 | 89 677 |
jpg格式 | 50 643 |
拉链 | 34 757 |
到岸价格 | 2007年7月30日 |
细胞 | 27 817 |
文件类型. | 文件数量. |
---|
pdf格式 | 667 349 |
文档,docx | 401 381 |
tif、tiff | 294 085 |
xls、xlsx | 216 331 |
html格式 | 156 684 |
电影,阿维 | 89 677 |
jpg格式 | 50 643 |
拉链 | 34 757 |
到岸价格 | 2007年7月30日 |
细胞 | 27 817 |
数据访问
主界面(http://www.ebi.ac.uk/biostudies网站/)允许在单个项目内和整个数据库中浏览和搜索数据。搜索得到了自动完成和本体扩展的补充。这意味着,当用户键入搜索词时,会显示建议的关键字,以及匹配的本体术语和本体层次结构。如果用户搜索更通用的术语(例如“肝病”),搜索也会搜索只存在一些子术语的地方(例如“自身免疫性肝炎”-请参阅http://www.ebi.ac.uk/biostudies/studies/S-EPMC2485412/?query=%22liver+疾病%22+例如)。
数据文件可以单独下载,也可以通过选择子集下载。对于大型研究,用户可以通过筛选关键字并对其中一个相关的文件注释进行排序(例如http://www.ebi.ac.uk/biostudies/studies/S-DIXA-012/-仅为名为“FP002BI_A12”的源选择文件)。所有公共数据集都可以通过FTP和Aspera协议下载。生物研究也显示了与当前显示的研究类似的研究。元数据(PageTab格式)有多种格式可供下载:JSON、XML和tab-delimited。身份验证和授权机制允许作者在相关论文发表之前将其数据集保密。该机制也可用于正在进行的项目;例如,可以创建一个只读用户来访问项目中的所有数据。
生物研究记录酌情与欧洲PMC链接(见图2)。通过以下查询可以找到欧洲PMC中具有相关生物研究记录的所有文章:http://europepmc.org/search?query=%28LABS_PUBS:%221518%22%29.
实施
生物研究基础设施由三个基本独立的软件模块组成。BioStudies后端是一个使用MySQL进行数据存储的应用程序,能够响应来自其他组件的服务请求(例如,“请登录此用户”或“允许此用户向哪个项目提交数据?”)。数据访问用户界面独立于后端(用户身份验证除外),并使用由Apache Lucene搜索引擎索引的JSON编码数据。数据提交工具是用JavaScript/Angular2编写的,它在自己的服务器端组件之上工作,负责临时数据存储和与主后端的通信。
未来计划
生物研究的主要目标之一是通过简化过程,鼓励在文章中引用数据的新兴实践,使与出版物相关的所有数据都能被一个引用。为了实现这一目标,我们正在与出版商合作,将生物研究开发为支持任何生命科学出版物的合适数据资源。我们的目标是开发生物研究数据提交系统,以便从手稿提交工作流轻松链接到该系统,并将实施数据沉积应用程序编程接口(API)以支持此类集成。
随着时间的推移,给定研究中的多个数据资源将链接到生物研究,以发现其他成分。也就是说,欧洲核苷酸档案中的记录可以链接到生物研究,以获取与该序列相关的更多信息,目前只能作为“补充材料”找到。生物研究也将包括在EBI的一般搜索机制中。
在整个研究生命周期中,文章、数据和研究人员之间的集成机制之一是科学家的持久标识符ORCID(11)。我们将在首次提交和提交后,轻松将数据集链接到研究人员的ORCID记录。
EBI正在开发下一代分析数据提交工具,该工具将为数据提交者提供一个单一系统,用于将数据输入所有EBI资源,如ENA、PRIDE、MetaboLights(12),生物样品(13)。生物研究将在此设置中发挥重要作用,并将从单个位置的研究中获取所有数据集的顶级信息。目前,超过330000项研究(约三分之一)包含其他资源中数据的链接(不包括欧洲PMC或DOI的链接);其中,约12%的研究与不止一种资源有关,支持分布式数据存储的重要性可能只会增加。
我们将继续与生成复杂数据的项目合作;特别是,数据提交工具将通过模板机制进行配置,在模板机制中,根据项目的不同,可以提前指定如何注释数据集。
在技术方面,我们将开发并发布数据访问系统的API,将提供数据过滤和分面机制,以及处理大型研究的更好功能。DOI可以根据要求分配,我们将简化此程序。数据提交者将能够提供其(尚未公开)研究的链接,以便在发布之前对禁运数据集进行同行审查。最后,所有组件的可扩展性改进将使我们能够与图像数据资源(IDR)合作提供大规模成像数据(14).
致谢
我们要感谢BioStudies的早期采用者,他们帮助我们定义了我们的流程,并耐心对待这些错误,特别是Vid Vartak、Xingjun Pi、Florian Graef、Robert Petryszak、Laura Clarke、Eleanor Williams、Anne Hersey、Francis Atkinson以及我们在diXa、HeCaToS、EU-ToxRisk和IDR项目中的同事。我们感谢我们的前同事Nikolay Kolesnikov和Rui Pereira在早期版本的系统上所做的工作。
基金
欧洲分子生物学实验室成员国;欧洲委员会[260791,283775,602156,681002,654039]。对于根据欧洲PMC内容生成的生物研究记录:欧洲PMC由28位欧洲生命科学研究资助者提供资金:http://europepmc.org/资助者/根据威康信托基金(Wellcome Trust)授予EMBL-EBI的赠款[098321]和[108758]。开放获取费用的资助:欧洲分子生物学实验室成员国。
利益冲突声明。未声明。
参考文献
1愿景
T.J.公司。
开放数据与科学出版的社会契约
.生物科学
.2010
;60
:330
——331
. 2辛格
J。
图共享
.《药理学杂志》。药物治疗。
2011
;2
:138
——139
. 三。麦肯太尔
J。
,萨尔坎群岛
美国。
,巴西
答:。
生物研究数据库
.摩尔系统。生物。
2015
;11
:1
——三
. 4托里维奥
A.L.公司。
,阿拉科
B。
,阿米德
C、。
,塞尔德诺·塔拉加
答:。
,克拉克
L。
,克利兰
一、。
,费尔利
美国。
,吉布森
R。
,Goodgame游戏
N。
,十个蹄铁
第页。
等人
2016年欧洲核苷酸档案
.核酸研究。
2017
;45
:第32页
——第36天
. 5维兹卡诺
J.A.公司。
,索达斯
答:。
,德尔·托罗
N。
,戴安娜斯
J.A.公司。
,格里斯
J。
,拉维达斯
一、。
,迈耶
G.公司。
,Perez-Riverol公司
年。
,赖辛格
F、。
,特伦特
T。
等人
2016年PRIDE数据库及其相关工具的更新
.核酸研究。
2016
;44
:D447号
——D456号
. 6列斯尼科夫
N。
,黑斯廷斯
E.公司。
,基伊斯
M。
,梅尔尼丘克
O。
,唐
Y.A.公司。
,威廉姆斯
E.公司。
,迪拉格
M。
,库尔巴托娃
N。
,Brandizi公司
M。
,伯德特
T。
等人
ArrayExpress更新—简化数据提交
.核酸研究。
2015
;43
:D1113号
——D1116号
. 7郭台铭
年。
,格拉夫
F、。
,基里安
O。
,卡夫卡斯
美国。
,卡图里
J。
,金
J.-H.公司。
,马里诺
N。
,麦肯太尔
J。
,莫里森
答:。
,圆周率
十、。
等人
欧洲PMC:生命科学全文文献数据库和创新平台
.核酸研究。
2015
;43
:D1042号
——D1048号
. 8Tsimberidou公司
上午。
,林堡
美国。
,席尔斯基
相对湿度。
在实施个性化药物过程中克服临床、监管和财务挑战的策略
.美国社会临床。昂科尔。教育。书
.2013
;2013
:118
——125
. 9马龙
J。
,霍洛韦
E.公司。
,阿达穆西亚克
T。
,卡普什基
M。
,郑
J。
,列斯尼科夫
N。
,祖科娃
答:。
,巴西
答:。
,帕金森
H。
用实验因子本体建模样本变量
.生物信息学
.2010
;26
:1112
——1118
. 10亨德里克斯
直径。
,阿尔茨
H.J.W.L.公司。
,Caiment公司
F、。
,克拉克
D。
,埃贝尔
T.M.D.公司。
,伊芙洛
C.T.公司。
,格穆恩德
H。
,希伯来人
D.G.A.J.博士。
,赫维格
R。
,赫舍勒
J。
等人
DiXa:用于化学安全评估的数据基础设施
.生物信息学
.2014
;31
:1505
——1507
. 11博哈农
J。
,多兰
英国。
ORCID简介
.科学类
.2017
;356
:691
——692
. 12豪格
英国。
,萨拉克
相对湿度。
,科内萨
第页。
,黑斯廷斯
J。
,德马托斯
第页。
,Rijnbeek公司
M。
,马亨德拉克
T。
,威廉姆斯
M。
,诺依曼
美国。
,罗卡·塞拉
第页。
等人
MetaboLights——代谢组学研究和相关元数据的开放存取通用存储库
.核酸研究。
2013
;41
:D781型
——D786型
. 13断层桥
答:。
,伯德特
T。
,Brandizi公司
M。
,戈斯特夫
M。
,佩雷拉
R。
,Vasant公司
D。
,萨尔坎群岛
美国。
,巴西
答:。
,帕金森
H。
欧洲生物信息学研究所生物样品数据库更新
.核酸研究。
2014
;42
:D50型
——D52型
. 14威廉姆斯
E.公司。
,摩尔
J。
,锂
西南部。
,鲁斯蒂奇
G.公司。
,塔尔科夫斯卡
答:。
,切塞尔
答:。
,狮子座
美国。
,安塔尔
B。
,弗格森
R.K.(英国)。
,萨尔坎群岛
美国。
等人
图像数据资源:生物图像数据集成与发布平台
.自然方法
.2017
;14
:775
——781
.
©作者2017。由牛津大学出版社代表核酸研究出版。