反思,享受,做点什么!国际数字策展会议的经验教训

凯文·阿什利的(DCC主任)在2024年IDCC(国际数字策展会议)上的闭幕词是“反思,享受,做点什么!”. 希望你会享受我的做某事。这个2024年2月19日至22日在爱丁堡皇家外科学院举行的国际数字治疗会议,标志着他们4年来首次面对面会议(自那以来差距更大我们上次参加). 这是一次混合会议,有150多人出席,另有30多人通过Whova应用程序参加。

星期一19日,即主会前一天,在同一地点举行了一系列数字策展研讨会。研讨会2有一个非常描述性的标题“关于存储库信息透明公开的指南:告知可信度决策”(参见会议笔记)其中包括3次简短的谈话,随后是一次1小时的互动练习,参与者被邀请填写一份问卷,了解他们选择的存储库如何公开自身信息,这是一种透明度评估。虽然我们在GigaScience Press(特别是出席的GigaDB团队)努力站在公平和透明公开数据发布的前沿,但这次演习确实突出了我们可以做得更好的一些方法,我们将尽快采取行动。

在Workshop 6 FAIR by design:Introduction Skills4EOSC and FAIR-IMPACT中,重点是软件元数据的可用性,以及增强研究软件的可发现性和透明度的方法。 

主要活动以荷兰DANS(数据归档和网络服务)主管Ingrid Dillo的主题演讲开始。英格丽德强调,从资助和实施到出版的各个阶段,研究都需要透明,以便(重新)赢得包括公众(为大部分学术研究提供资金)在内的所有行动者的信任。她对透明度的要求在整个会议上都得到了回应。

会议的大部分时间是以3次平行会议的形式进行的,这使得会议的范围更广,但这确实意味着很难参与到每一件事中。幸运的是,所有的会议都被记录下来了,并且在会议结束后的8周内,参与者可以通过Whova应用程序使用这些会议,然后这些会议将被公开。

 

研究工作流程图——来自材料科学的数字治疗案例研究

叶莉(麻省理工学院)发表了一篇富有洞察力的演讲,他与晶体学家和材料科学家合作,将研究工作流程分为数字自动化步骤、部分自动化步骤和手动步骤。叶的演讲中的核心概念是“可复制和可归因材料科学治疗实践:案例研究”,旨在探索“湿实验室”研究人员在日常活动中使用自动化和数据共享的程度。

从基于研究工作流图的分析中,Ye强调了一些显著的工作流特征,其中包括大量用于数据存储的电子邮件和便携式媒体,这突出了缺乏集中数据存储。Ye还强调,协作网络是按项目划分的,因此是数据共享的另一个潜在障碍。此外,晶体学家和材料科学家使用了大量手动分析步骤,例如显微镜,这些步骤可能是可编写脚本的,因此可以自动化。

Ye对材料科学研究人员的核心建议是减少手动数据传输和操作,并尽可能避免使用多个存储位置。

 

信任和透明度

由于“通过透明度实现信任”这一首要主题,毫不奇怪,在大量的演讲标题和摘要中出现了“信任”一词,在15场会议中有9场会议的标题中包含了“信任和/或透明度”一词。

 劳伦·科利斯特,在她关于“一种新的工具,用于提高开放基础设施的透明度、可发现性和信任度他说:“信任是新的威望”。我的解释是,虽然以前每个人都想成为最有声望的(出版商),但现在他们想成为最值得信任的(出版者)。她介绍的工具旨在加强对开源基础设施工具的发现和吸收,预计将于2024年4月推出。

 

基因组多样性与临床翻译障碍

Latrice Landry(宾夕法尼亚大学)发表了一篇发人深省的演讲,题为“生物医学文献中群体的人工智能辅助治疗“该研究探索了基因组数据库中缺乏祖先多样性的问题。拉特里斯指的是她2017年开始的研究其中,Latrice及其同事对基因组研究中包含的人群进行了检测,这些人群的数据可在全基因组关联研究目录(NHGRI-EBI GWAS目录)和基因型和表型数据库(dbGAP)中获得。Latrice及其同事发现,与欧洲人群相比,对非洲、拉丁美洲和亚洲祖先人群的研究明显较少,欧洲人群占这些公共数据库基因组学研究人群的71%,而仅占全球人群的15%。

国际数字策展会议介绍

Latrice Landry报告了公共基因组数据库中的祖先多样性。

拉特里斯解释说,缺乏祖先多样性是“临床医学中临床翻译的障碍以及对公共数据库中基因组研究的通用性的影响。

有关祖先多样性的更多信息,请参阅我们的最近关于多样性、祖先和坚韧的种族概念的GigaBlog.

在另一次会议上,关于一个不相干的主题(涉及人类受试者的研究),德文·唐纳森介绍了他对提供电子健康记录数据的数据代理透明度的初步调查结果。电子健康记录必然是私有的,但其中包含大量有价值的研究信息。通常嵌入本地研究组织的数据代理可以访问这些记录,并在应用时向研究人员提供数据片段,并提供适当的保护措施,以确保不会暴露任何可识别的数据。然而,数据代理的研究人员需要大量的信任才能编写正确的查询来充分回答研究问题。德文表示,许多研究人员对以这种方式接受黑盒式私人数据查询的结果摘要犹豫不决,因此他的研究旨在促进透明度方面的最佳实践,这样一个早期发现是,只要让研究人员能够看到在私有数据上运行的查询代码,就可以建立信任。

指标仍然很重要,尽管使用期刊影响因子,普遍的感觉是,许多参与者仍然需要一种方法来评估研究对象的使用、重用和传播。关于数据,新兴的最佳实践是使用projectCOUNTER定义的“唯一项”,其中访问或下载计数在一个会话中只计算一次,例如,如果用户访问了一个HTML版本的论文,然后决定更改为PDF版本,则其计为仅1个访问项。

我特别感兴趣的是Dieuwertje Bloemen公司(KU Leuven),她介绍了她和她的团队如何支持他们研究所的大量数据出版物。不断需要重申他们所做的工作是为了不去评判研究人员!此外,由于他们需要处理的数据出版物的规模,他们现在更加注重培训,而不是个人的1对1协助。这是因为他们在自己的语料库中进行的一项研究表明,约23%的首次提交者仅通过一轮审查就成功了,而70%以上的经验丰富的提交者仅经过一轮审查便成功了。这表明研究人员能够并愿意学习如何提交数据,因此转向培训可能会更有成效。 

同样,SpringerNatures的研究数据团队不再与作者直接合作,而是专注于培训编辑人员,以了解数据可用性声明(DAS)中的内容。他们从BMC(前身为BioMed Central,我们的第一家联合出版商)的员工开始,他们实施开放标准已有一段时间,虽然没有提供确凿的证据,但他们表示,自对其编辑进行培训以来,BMC出版物的“合规性有所改善”。 

拉尔斯·维尔胡伯谈到了经济学出版领域正在进行的工作,在该领域,论文的信息学部分可以在一个“认证”的平台上运行环境,并提供了可信度标记和发布的输出日志,以增加透明度和信任度,而无需向发布者或审阅者多次重新运行软件/代码。我们的与CODECHECK合作他们试图做类似的事情,所以看到这些举措越来越多地被使用是件好事。

最后的主题演讲由迪莫斯特努斯宫(Stavrina Dimostenous)(ROYCE)强调,需要在材料领域开展更多工作,以提高公平性,特别是由于研究和数据集中缺乏适当的元数据而缺乏的可发现性。她还强调了需要适当的搜索机制来实现FAIR中的F。 

总的感觉是,我们现在正处于一个转折点,大多数研究人员都意识到了良好的管理实践和公平原则,他们只是缺少工具和培训来实现他们自己。 

国际数字策展会议将于明年在一个尚未宣布的日期和地点举行!请注意DCC事件页面以备将来发布。