结晶数据

2016年国际数据周

2016年9月12日至17日,科罗拉多州丹佛

此次里程碑式活动的主题是,将数据科学家、研究人员、行业领导者、企业家、政策制定者和数据管理者聚集在一起,探索如何以最佳方式利用数据革命,通过数据驱动的研究和创新来提高我们的知识并造福社会“从大数据到开放数据:调动数据革命”它包括由CODATA和世界数据系统联合组织的两年一度的科学数据大会、研究数据联盟第八次全体会议,以及由所有三个组织召开的国际数据论坛,以概述“数据造福公众”。

IUCr由曼彻斯特大学John R.Helliwell、IUCr CODATA(JRH)代表和IUCr研发官Brian McMahon(BM)代表。 

2016年科学数据大会

2016年9月13日星期一至星期二

这是CODATA与WDS(SciDataCon,2天)联合组织的背对背会议的第一部分,随后于2016年9月14日举行了研究数据联盟(RDA)全体会议(2½天),共多出一天(国际数据论坛)。

我们组织了题为“晶体学和结构数据库”的会议,John Helliwell就原始衍射数据归档和重用进行了介绍性演讲,随后又就特定数据库进行了演讲,即:晶体学开放数据库(Saulus Gražulis)、剑桥结构数据库(Ian Bruno),国际衍射数据中心(Soorya Kabekkodu)和蛋白质数据库(John Westbrook)。来自不同学科的约40至50人出席了会议。除了向发言者提出的具体问题外,还发表了评论例如来自CODATA前总裁John Rumble,关于结晶学作为一个社区在几十年的数据共享和开放过程中的典范。

在会议的CODATA部分,最重要的成果可能是鼓励建立统一的土壤描述系统的可能性,类似于约翰·隆布尔(John Rumble)主持的CODATA领导的纳米材料UDS,IUCr是其中的积极参与者。

JRH参加了以下非常难忘的会议:

  • 在开放数据世界中,协调科联各联盟/学科的数据管理政策和实践。
  • 定义数据专业(他们在不同类别的数据专业人员(如数据科学家、数据管理员、数据架构师等)中接受的教育。

BM参加了两次会议,通过制定学科标准来制定科学数据处理的最佳实践:一组关于“构建学科、全球数据基础设施”的演讲和小组讨论(图1)以及关于“在开放数据世界中协调科联各联盟/学科的数据管理政策和做法”的会议。前一次会议邀请合作撰写一篇论文数据科学杂志我将结晶学实践与天文学、材料科学、人文科学、语言学和地球科学中的实践进行了比较。后者与CODATA希望促进科学联盟更多投入有关。



图1。全球数据基础设施学科会议发言人小组;左图为克里斯托夫·阿维斯特(Christophe Arviset)介绍国际虚拟天文台联盟(IVOA)。由CODATA International提供

BM出席的其他值得注意的会议总结如下。

“语义丰富、元数据和数据打包”就元数据和本体开发进行了一些相关的讨论。Simon Cox通过描述SKOS(简单知识组织系统)扩大了他关于受控词汇和词汇服务的富有启发性的主题演讲,SKOS是W3C关于词库、分类法和其他形式的受控词汇表示的建议。约翰·昆泽(John Kunze)关于“持久性词汇表”的演讲描述了一种投票系统,允许社区就相互冲突的术语定义达成共识。Natasha Simons讨论了元数据开放许可的相关问题(通常首选CC0许可)。丹尼尔·福斯特(Daniel Foster)的《迈向无摩擦数据的未来》(Towards a Frictionless Data Future)强调,许多研究人员需要一个轻量级标准来表征数据(对于这些社区,CIF/STAR方法可能会被证明是有用的)。

“数据存储库的可持续商业模式”包括Cameron Neylon对可能的行为模式进行的基于经济学的分析,以最佳利用开放数据作为一种公共利益。鲍勃·唐斯(Bob Downs)描述了NASA和哥伦比亚大学运营的科学数据中心如何需要采用“组合”方法,同时考虑到重要利益相关者的现有商业模式。Martie VanDeventer强调,中低收入国家(LMIC)可能没有能力构建数据基础设施的所有方面,因此需要购买存储库服务,而此类服务的外部供应商必须足够值得信赖。作为回报,LMIC必须承担责任,贡献真正有价值的数据,并加快学习进度。 

国际数据论坛

2016年9月14日星期三

这是由CODATA、WDS和RDA共同组织的一天。它被宣传为为期一天的国际数据论坛,主题是“数据公益:数据意识社会的责任、机遇和危险”讨论民间社会、政府、卫生、教育和科学领域潜在的数据控制变革。

会谈和小组讨论围绕以下会议主题进行:

  • 保持科学严谨性并加强发现
  • 开放数据作为公共产品和科学家的责任
  • 公民科学中的数据故事;地球科学;无国界医生
  • 负责任的开放
  • 数据公益:下一代愿景

菲尔·伯恩(Phil Bourne)的演讲“让生物医学研究更像Airbnb”(Making生物医学研究)特别令人感兴趣,他描述了由国家卫生研究院(NIH)资助的拟议生物医学公共平台是其“大数据到知识”(Big Data to Knowledge,BD2K)项目的发展。通过该平台访问的数字对象需要符合Force11组织倡导的公平原则(可查找、可访问、可互操作和可重用)(并植根于Phil大量参与的“Beyond the PDF”活动)。

与年轻职业科学家的闭幕式小组讨论也特别令人难忘。



图2。小组讨论“公共利益数据——下一代愿景”。Francine Berman(主持人)、D.Sarah Stamps、弗吉尼亚理工大学、Henri Tonnang、全球青年学院、Xiaogang(Marshall)Ma、爱达荷大学、Candice Lanius、伦斯勒理工学院、数字人文组织联盟。由西蒙·霍德森提供,@simonhodson99

RDA全体会议8

2016年9月17日星期四至星期六

一个非常有用的事件是RDA新人信息活动包括对RDA历史、活动和治理的1个半小时基本描述。有4000多名个人会员(IM),主要来自美国和欧洲;约7%来自亚洲/大洋洲。加入RDA后,IM承诺遵守RDA的七项指导原则,其中包括“非营利”承诺“不推广、认可或销售商业产品、技术或服务”。有相当多的公司成员,包括融资机构、数据档案、慈善机构和商业公司(如Elsevier和Wiley)。 

JRH在会议期间作为IM加入了RDA,并在该框架内加入了以下兴趣小组(IG),他在RDA期间也参加了这些小组的会议:光子和中子科学数据;化学数据;材料数据;研究数据档案;最后是科学的再现性。 

再现性IG最初的重点是讨论近期的媒体问题,即作品不可再现(普遍认为是一件坏事),将讨论分为三个部分:经验再现性;统计再现性;和计算再现性。JRH领导了一场讨论,探讨了波普时期科学证伪作为进步方法论的有益方面,并确实支撑了科学的哲学基础。事实上,对先前重要结果的证伪可以代表库恩范式的转变,这表明科学取得了重大进展。JRH建议向RDA大会提议成立一个工作组,制定一份“白皮书”,以便对科学进步进行正确的哲学理解,如上文所述,以及描述研究数据的任何不可靠性都会破坏科学进步的哲学基础和公众信任的实际情况。

JRH参加的RDA IG和工作组(WG)有一个特别的成员资格,而不是系统地尝试用全方位的专家来填充一个主题或挑战。这与CODATA任务组形成了对比,后者的成员组成更加系统化。国际科学联合会在CODATA的强大影响力为这种系统性奠定了基础。然而,有趣的是,看到RDA理事会为IG制定了一个非常清晰的组织模板,以产生经RDA大会批准的工作组,以解决并有望消除有效传播和共享任何研究数据领域数据的任何“障碍”。反过来,在JRH参加的IG和WG会议中,与会者身上也展现出了令人印象深刻的“草根”能量。

BM与JRH一起参加了关于光子和中子科学数据和化学数据的RDA会议,还参加了关于数据发布(数据可用性认证服务)、元数据(包括元数据标准目录的制定)和法律互操作性的会议。最后一名编制了一份关于“研究数据法律互操作性的原则和实施指南”的文件,该文件与IUCr有关,JRH和BM正在对其进行研究。元数据组与IUCr衍射数据沉积工作组构建结晶学和相关领域元数据标准目录的愿望相关,也可能在新的CODATA跨单位学科数据标准工作组中发挥作用。

海报、网络和文学

国际数据周的CODATA部分(9月12日至13日)和RDA部分(9月份15日至16日)分别举行了海报会议。有一些非常令人难忘的海报描述:

  • 橡树岭国家实验室中子设施中子研究数据的存档和再利用
  • 芬兰开放科学和研究计划(图3)
  • 荷兰研究数据与博士论文的链接
 


图3。芬兰开放科学和研究计划。由芬兰教育和文化部提供。欧盟的OpenAire项目也有类似的计划。

爱思唯尔总体上引人注目,工作人员进行了三次演讲(两次在IDW内部,一次在ICSTI),并就研究数据生命周期发布了一张漂亮的海报,以及他们题为“研究要素:发布数据、软件和方法简述,可引用文章”的令人印象深刻的小册子。

参与者的讲义表显示了以下有趣的发展:

  • 一张描述biosharing.org的传单。“生物共享使研究人员能够在知情的情况下决定哪个标准或数据库合适”。
  • 国家卫生研究院要求提供有关指标的信息,以评估生物医学数字存储库的价值和影响。
  • 这个中国科学数据杂志,《中英文双语开放获取期刊》,由中国科学院出版:http://www.csdata.org

John R.Helliwell和Brian McMahon