结晶数据

[ICSTI标志]

ICSTI 2012年冬季研讨会:提供科学数据

如今,有许多高级别活动侧重于研究数据集的管理、数据集的存档和重复使用,实际上是数据集的发布。2012年3月5日,科学和技术国际委员会在巴黎科学理事会总部召开了为期一天的研讨会,主题是“提供科学数据“调查一些最紧迫的问题。

上的会话数据和政策制定者开户人雷·哈里斯他于2009年至2011年间担任国际科学理事会信息和数据战略协调委员会主席。由于科联理事会是一个跨学科和国际机构,这些建议的重要性在于它们代表了全世界科学的优先事项。委员会关于科学数据的六项主要建议是:(1)科联理事会国家和联盟成员应通过最佳做法指南(见SCCID报告)涵盖数据政策、治理、规划和组织、标准和工具、管理和管理以及数据访问等方面。这应有助于在所有领域形成对这些问题重要性的共同看法。(2) 科联理事会成员应探讨并同意在“开放获取”的保护伞下使用的术语,以澄清一个非常混乱的术语,从而有助于区分并优先考虑导致普遍和公平获取出版物(由科联理事会和国家统计研究所指导)和数据(CODATA)的因素。(3) 科联理事会成员应改进作为出版物创建数据的整个过程,提高学术认可度,适当修改行为,并让合法存款图书馆在提供基础设施或服务方面发挥可能的作用。(4) 科联理事会应更积极地利用其附属组织CODATA和世界数据服务(WDS)管理大规模数据活动。(5) 需要再次利用ICSU及其附属机构的现有网络,向经济欠发达国家提供实际帮助。(6) 应加强与私营部门的互动,以利用商业专门知识和资源实现互利。

SCCID数据管理分析的一个潜在弱点是,它没有考虑“原始”与“处理”数据的单独策略。在某种程度上,这是一个哲学决定——处理电子信息的许多技术挑战并不取决于科学实验/出版生命周期内信息的性质。尽管如此,后来的几次演示确实表明了需要如何在不同的科学领域对经历了不同处理阶段的数据应用不同的策略。在结晶学方面,国际晶体学联合会期刊和委员会长期以来一直提倡要求保存坐标和结构因子振幅(我们的“处理数据”)的示范地位。IUCr衍射数据保存工作组目前正在努力下一步可能的“原始数据”归档工作。

讲习班上四次成功的专题介绍对国家和区域供资组织提供的政策和资金支持进行了调查,这些组织将在实现科联理事会提出的愿景方面发挥关键作用。

斯特凡·温克勒·内斯讨论了德国科学组织联盟的数据建议。德国的研究经费由联邦政府和地区兰德公司负责分配,部分原因是德国研究机构与私营行业的传统紧密关系。然而,与其他国家类似,已经出现了公共资助研究数据的存档和自由访问的共同原则,并且在资助方面进行了大量投资,以帮助德国科学组织实现这些原则。这位发言者提到了一些作者的一种常见看法,即合适的数据归档是“将CD或DVD塞进书桌抽屉”——显然,广大读者很难接触到,而且作者在出版物的生命周期内还活着。在IUCr DDD工作组的活动中,我们了解到,至少在英国,大学开始意识到需要为其员工提供集中档案,这不仅是一种良好的做法,也是为了避免无意中的研究不当行为。

卡洛斯·莫拉伊斯-佩雷斯欧洲委员会的报告描述了下一个欧洲研究发展和创新框架计划(地平线2020)的准备工作,并强调了对研究和发展的积极承诺,未来7年内可能增加40-45%的资金。委员会的重点将主要放在开放科学上,相信开放内容、开放基础设施和开放文化将共同创造最佳的研究成果和工具共享。本课程中数据管理战略的推动力来自具有影响力的乘风破浪“2010年10月的报告。

罗布·彭宁顿美国国家科学基金会描述了21世纪网络基础设施项目(CIF21)。这将有大约2亿美元可用于数据基础设施投资,但国家科学基金会一直热衷于评估如何在数据驱动科学的新范式中以最佳方式分配资金。他描述了详细的咨询和审查过程,这些过程为CIF21提供了信息,CIF21围绕几个重大挑战构建,但寻求提供多学科和多尺度集成,以从数据海洋中提取真正有用的科学。虽然国家科学基金会认为它在这一领域已经“落后于形势”,但它正在以非常坚定和专注的承诺向前迈进。已经获得资助的个人投资者需要在拨款提案中提供数据存档计划,并在向国家科学基金会提交的年度报告中以及在拨款授予结束时自行说明。他们政策的这种“监管”本身就是一个重要步骤。

刘润达代表中国科学技术情报研究所彭杰介绍了中国科学数据共享项目,中国科学技术信息研究所是该项目的积极参与者。中国希望在研究机构和最终用户之间遵循西方的数据共享和重用模式,并一直在建设一个全国分布式网络,目前包括10个数据中心和100多个分支和节点,覆盖3000多个数据库。中国积极参与CODATA活动,并积极参与世界数据系统。中科院与Wangfang Data Agency合作,为中国的科学数据集提供DOI注册,并在开发科学数据分类和导航系统以及构建科学数据资源信息的互联网平台方面进行了大量投资。

关于“实践中的数据“为这些高瞻远瞩的政策目标带来了一些基础性的观点。托德愿景描述了DRYAD,这是生命科学中的一个系统,允许作者在提交研究论文供发表的同时存放支持数据集。目前该领域有25种期刊具有沉积/提交一体化;每个存储的数据集具有唯一的DataCite提供的数字对象标识符(DOI)。该系统背后的理念是让作者轻松、低成本地存放数据,而这一策略正在广泛发挥作用。然而,缺点是存放的数据集由有限的元数据描述。有一些令人鼓舞的证据表明,其他研究人员重复使用了保存的数据集;但也有人担心,提供一条过于简单的沉积路线可能会转移现有管理数据中心的材料,从而损害它们。

如果DRYAD处理“长尾”科学数据,那么CERN的粒子物理设施将面临相反的极端,如下所述施敏夫2012年,大型强子对撞机(LHC)上记录了超过22 PB的数据,尽管这只是实验产生的数据量的一小部分。欧洲核子研究组织必须在数据过滤程序上投入大量资金,以便仅捕获特定实验可能感兴趣的实验结果的一小部分。即便如此,大量数据(其中大部分数据都是由欧洲核子研究组织以外的研究机构进行缩减和分析的)需要分布在世界各地的超大数据存储设施,以及专用的高带宽光纤专用网络来在节点之间传输数据。粒子物理学“信息”的一个有趣的特征是,当人们沿着数据金字塔从大量的原始数据通过较小的处理数据移动到相对较小的发布结果时,经过高度处理的信息的多个副本的激增实际上加剧了数据管理问题。据估计,一年中收集的22 PB原始数据总共产生了70 PB的重复和衍生数据,需要进行跟踪、验证和核对。数据爆炸的一个好处是,对于每一代人来说,前几代产品的归档(包括向新一代媒体的内容迁移)变得越来越轻松。大型强子对撞机数据输出的另一个特点是,这些数据并不能被其他许多研究人员真正消化;几乎所有能够消化数据的人都已经是该出版物的合著者了!

托比·格林经合组织(OECD)展示了经济合作与发展组织(Organization for Economic Cooperation and Development)发布的数据集的可视化和访问网关。如果有大量特征明确且同质的数据,那么开发工具使最终用户更容易访问和可视化这些数据就变得成本效益很高。对于经合组织的数据集,简单的基于网络的应用程序允许以多种方式提取和组合数据集。非常精细的数据集DOI有助于将统计表与出版物链接起来,跟踪时变数据集的潜在困难问题最初是通过详细的版本控制解决的。

上的午餐后会议全球倡议以描述开头迈克尔·迪彭布鲁克在国际科学理事会世界数据系统中,主要是地球科学数据中心联合会。这一制度背后的动力主要是在各种各样的活动中建立共同的质量和互操作性规范,早期的关注重点是组织方面,包括在日本建立一个协调的国际方案办公室。新系统的技术方面包括DOI的有序注册和与相关出版物的链接,这将为收集和管理数据的人提供应有的信誉。

扬·布雷斯DataCite的管理代理兼研讨会总主席解释了DataCite如何在科学领域注册数据DOI。DataCite的成员机构(通常是国家科学图书馆)向其研究社区提供本地支持服务,但合作提供统一水平的服务。目前已有130多万DOI注册。DataCite还对改进数据引用实践感兴趣,作为这项任务的一部分,它也是CODATA数据引用标准和实践工作组的主要参与者。

杰弗里·博尔顿预览了即将发布的皇家学会政策报告“科学作为一个开放的企业”,该报告将讨论围绕研究数据管理的主要政策问题,借鉴了最近的案例,如“气候门”事件,以及认为数据洪流在处理大量数据的规模上带来了这两个挑战的看法,还有机会让更广泛的研究团体,甚至公民科学家参与进来。该报告建议公开数据应成为科学研究的默认值,而不是例外;学会应该在学科和应用中促进开放科学的优先事项和机会。构成“公开”科学数据的四个标准是,它是可访问的、可理解的、可评估的(即特征明确、可验证和再分析),以及其他人可用的。一个稍微令人担忧的趋势是,随着私营公司在数据处理方面似乎正朝着更加开放的方向发展,大学面临着更加封闭的危险。

弗朗索瓦斯·热那亚以天文学虚拟天文台的介绍结束本次会议,这是一个关于数据处理和与出版物链接的学科范围和国际方法的好例子。在共同科学目标的驱动下,天文学家已经找到了处理异构数据集的方法,并朝着共同的数据策略努力。早期的标准化工作和与新IT技术的接触使社区能够在开发DOI和Web之前开发自己的持久标识符和远程查询系统;现在的重点是扩展这些方法,以提供对当前作为松散联邦存在的所有不同系统的无缝访问。主要挑战在于正在进行的标准制定工作:就特色鲜明的国际标准达成一致是一个困难的过程。然而,国际虚拟天文台联盟的发展是稳定和有机的,为实现开放数据的普遍获取带来的所有好处带来了巨大希望。在问答环节,弗朗索瓦斯强调了建立标准的重要性,以最大限度地减少数据归档过程中出现问题的可能性。实际上,同意“要归档的内容”对未来的成功至关重要。

在最后一次会议上,出版商和数据三家学术出版商就数据管理和归档与久负盛名的学术期刊业务的整合提出了自己的观点。

埃夫克·斯密特国际STM出版商协会(代表100多个出版商成员)介绍了一些通过链接相关数据集来增强科学文章的个别期刊倡议,并谈到了PARSE-Insight调查(“欧洲科学记录永久访问”)这就确定了当前以有序且可访问的方式存档的科学数据的零散分布。在一个新的欧洲项目(ODE:数据交换的机会)中,STM开发了一个数据发布金字塔模型,以大量原始研究数据为代表,通过连续的数据集、处理后的数据和数据库层将其缩小到以已发布文献为代表的相对较小的顶点。这个比喻反映了整个研讨会对不同类别(和卷)的不同处理信息的讨论。它是作为参考模型提供的,出版商可以围绕它有意识地构建系统,以区分“仅仅是数据”的数据和更直接支持已发表科学论据的数据,并对其进行适当处理。

弗雷德·迪拉美国物理研究所(AIP)倾向于强调出版企业的传统附加值,并将与支持数据的集成视为现有范式的简单扩展。正如他所说,出版是信息交流的后勤支持,为信息增加了有用的一致性,并使混乱中秩序井然。从他的角度来看,出版商的当务之急是从顶层开始解决STM的“数据金字塔”模型,即确保已发表文章与直接支持其论点的数据集之间的紧密联系。这并不需要过于复杂——AIP正在进行试点项目,将发布的图形和表格直接链接到它们所表示的数字数据(通常是简单的电子表格),从而将它们转换为可访问的数字数据对象。虽然这是一种提供数据访问的低能阈值方法,但它也将允许对社区对这种新方法的反应进行批判性调查,并确定这种新方法是否能够说服该社区的作者将其视为一种新的出版范式。在他看来,确立价值主张的主要挑战不是技术挑战,而是改变现有文化方面的需要。

艾丽西娅·怀斯《爱思唯尔杂志》介绍了爱思唯尔期刊库中的一些举措,以加强文章和数据集之间的链接。在许多情况下,作者会随文章上传补充材料;在其他情况下,它们直接链接到特定学科数据库(如剑桥结构数据库或蛋白质数据库)中的策划条目。通过专家添加标签(这是一项费力且昂贵的任务)或通过文本挖掘和隐含语义的叠加来增强文章以提供此类链接。在尝试新颖的文章布局和结构时,就像在“未来文章”项目中一样,爱思唯尔正在探索在线出版物更具活力的本质。他们正在集成Scirus和Scopus等在线知识库,并通过向SciVerse应用程序提供开放的应用程序编程接口,希望鼓励更广泛的社区中的开发人员提高他们发布的文章的可用性和有用性。爱思唯尔已经出版了一些可能包含可执行代码的数据期刊,他们渴望与其他利益相关者合作,并为涉及文本挖掘的研究活动提供机会。

总的来说,这次研讨会提供了一个有用的快照,说明了在科学记录框架内提供研究数据的情况。有令人鼓舞的迹象表明,公共政策信息灵通,正朝着鼓励跨多个学科有序管理数据的方向发展。在此框架内,公共资金可用于定义明确的数据管理活动,这可能会为各个学科提供一些资源,以满足现有学术资金无法满足的任何需求。当然,不同学科的数据类型以及不同社区对其数据管理的复杂程度都存在巨大差异。这确实给出版商带来了持续的挑战,尤其是跨越许多不同科学领域的大型组织。到目前为止,出版商利用特定数据处理机会的能力似乎相当有限。像DOI这样的倡议现在在出版和数据领域都提供了持久的唯一标识符,当然也促进了链接和引用,这是重要的第一步。但是,在对整个科学领域的数据进行常规验证、可视化和重用之前,仍有大量工作要做。CODATA和ICSTI等组织都意识到了这些问题,并且能够和许多相关利益相关者合作,使这一愿景更接近现实,这是非常有益的。

John R.Helliwell,ICSTI代表
CODATA代表Brian McMahon