结晶数据

科学数据管理

ICSTI 2009年会议

2009年6月9日至10日,加拿大安大略省渥太华

国际科学和技术信息理事会2009年会议于6月9日和10日在渥太华加拿大图书馆和档案馆大楼举行。会议主题是“科学数据管理”,并分别探讨了:科学数据管理的基础;图书馆的作用;现有数据服务的实际情况;以及语义科学的发展。

会议的组织工作非常完善,效率很高,建议将所有演讲和演讲视频发布在网络上(Powerpoint演讲现在可以在http://www.icsti2009.org/02-program-abs_e.shtml)因此,我不会给出所有演示文稿的完整摘要,而是强调IUCr特别感兴趣的评论或主题。

李·德克斯微软公司做了开场演讲,eResearch、语义计算和云该报告调查了与数据管理相关的计算基础设施和web开发方面的许多最新发展,尤其是许多科学实验和观察产生的大量数据。与随后的许多发言者一样,他强调了每年产生的巨大数字信息量(现在已经超过了世界上可用的总存储容量)。其中大部分是暂时的,但在存储和使用其余部分方面仍有沉重的负担。亚马逊和谷歌等商业供应商正在通过租用存储或计算能力来提供有用的基础设施,一些科学项目发现,从这些来源租用低成本计算比征用专用硬件更容易。

一项重要的新举措是计划中的DuraSpace的DuraCloud项目,该项目由Fedora和DSpace存储库开发人员合并而成。DuraCloud将提供一个服务层,用于管理符合最佳数字保存包的数据备份和存储,并在商业云基础设施上实现。因此,本地数据提供商将与DuraCloud签署服务级别协议,并且通过与亚马逊、谷歌、,雅虎或其他相关商业提供商。

对于依赖商业公司存档重要数据是否明智的问题,观众的回答是,DuraCloud总是试图通过冗余存储安排来防范单一故障;但有人强调,该解决方案应被视为提供商自己本地存档工作的补充,而不是替代品。还有保密和安全问题,但据认为,这些问题可以通过适当的协议来处理,因为许多供应商已经为敏感数据(例如病历)提供了服务,并提供了适当的保障。

一个特别有趣的评论是需要开发增强的互操作性协议(提到了SWORD和OAI-ORE),以提高跨分布式服务管理数据的能力。

弗朗辛·伯曼圣地亚哥超级计算中心(动员海量数据)给出了一些处理大规模数据的项目的例子(地震建模、天文学虚拟观测站、蛋白质数据库),但在为大型和重要数据集的管理,特别是为其长期保存制定连贯计划的主题上尤其雄辩。此类计划应由感兴趣的个人社区制定,因为只有社区自己才能最好地判断哪些数据最有价值,哪些数据最需要谨慎管理,哪些数据从谨慎管理中受益最大。社区还可以评估在数据处理的每个级别(采集、使用、访问和存储)需要什么干预,以提供在数据的整个生命周期中处理数据的有效和整体机制。研究团体本身对数字保存的最佳实践了解不足,应酌情与档案管理员和图书馆员合作。

虽然技术问题定义明确,而且往往可以克服,但长期数据保存的经济性仍然不确定,研究界可能需要开拓新思路,为必要的活动提供资金。这也有助于社区对现有财产进行数据普查;这一点,再加上分类,将有助于确定适当的管理水平,但在计算成本和收益时,应始终考虑到数据丢失的程度是可以接受的问题,因为一些损失实际上是不可避免的。

可持续数据保存和访问蓝带工作队最近或即将发表的报告很好地解决了许多重要问题。然而,虽然社区最希望制定一个连贯的数据管理/保存计划,但在等待这样一个计划的同时,他们不应延误有用措施的实际实施!

理查德·博德斯通大英图书馆(管理数据科学-基于客户的方法)描述了传统大型图书馆在新的数字世界中面临的一些困难,并展示了如何与新兴技术紧密合作,提供与传统静态归档和编目截然不同的服务。例如,大英图书馆领导着英国PubMedCentral,曾与Nature Publishing合作进行虚拟世界环境“Second Life”的实验,为研究人员、委员会举办了“Talk Science”论坛,并与JISC、研究信息网和其他机构一起参与研究,是WorldWideScience.org的合作伙伴,并属于为科学数据集分配DOI而成立的联合体。

大英图书馆正在开发一个强大的安全数字存档基础设施,在英格兰、威尔士和苏格兰有四个主要节点,提供连续的对等验证和文件错误更正。这些将提供非常大的归档容量,但它还远远不够大,无法归档特定学科数据中心已经管理的大型研究数据集。图书馆认为,在任何情况下,学科专家都将拥有适当管理他们在自己学科中使用的数据所需的特定知识和技能。然而,大英图书馆希望通过分配永久标识符和数据目录等措施,为人们提供查找和链接此类外部数据的服务。

克里斯·格里尔联邦网络和信息技术研发项目的5维科学:网络奖学金的数字数据美国政府赞助的一个项目的成果,该项目旨在开发一个框架,联邦机构可以在该框架内操作开放的互操作数据保存解决方案。所有联邦机构的参与使政府资助的所有科学活动都能接触到这些想法。结果报告的一个重要结论是,独立的实践社区是数字景观的基本特征。与大英图书馆的看法一样,人们认识到,不同的科学学科有自己的要求、质量标准和专业知识,可以根据需要来管理数据。由此产生的一个具体推论是,并非所有可用数据都需要保存,也不是所有保存的数据都需要无限期地保存,因此动态策略是必要的。这一点与弗兰·伯曼(Fran Berman)的观点相呼应,即对保存的数据进行分类和分阶段到期都是必要的,最好由对其数据最熟悉的社区进行管理。

报告(利用数字数据的力量促进科学和社会发展)建议国家科学技术委员会成立一个完整的小组委员会,以确认数字保存在国家中的重要性。还希望为指导联邦机构而提出的建议也能被州政府和承担类似数字保存责任的个别机构(大学、学术图书馆)采纳为典范。

吉姆·马林斯普渡大学介绍了关于图书馆作用的会议,并对普渡大学的科学数据管理实践进行了案例研究,图书馆员都是教员,并与其他教员积极参与建立适当的数据管理机制。该大学开发了一个分布式数据处理中心(D2C2),该中心致力于开发跨学科元数据和本体,以协调不同学院的实践。因此,图书馆工作人员不仅是服务提供者,而且是有效管理策略和实施的积极开发人员。大学整体上特别致力于促进跨学科研究,HubZero系统将于2010年成为一个开源产品,该系统设计为“科学家的Web 2.0”框架,并首先作为备受推崇的NanoHub实现。

利兹·里昂UKOLN的(图书馆与“团队科学”)论述了大学图书馆作为科学社会活动参与者的作用。她列举了图书馆在其中发挥重要作用的十个领域,并通过与英国国家晶体学服务局合作的eBank和eCrystals项目的经验阐述了她的许多观点。她的“十大”领域是:领导力;政策;规划;审计;订婚;知识库;持续性;访问和重用;培训和技能;和社区建设。英国数字策展中心在其中许多领域发挥着积极作用。作为让图书馆界与科学从业者接触的有用例子,她提到了她的同事曼朱拉·帕特尔(Manjula Patel)发表或正在编写的三份报告,这些报告与晶体信息存档的未来发展相关:结晶数据保存计划,结晶数据的保存元数据、和晶体学数据的表示信息,她还提到了与澳大利亚TARDIS项目一起实现晶体学数据共享的举措。

简·布拉斯德国国家科学技术图书馆(获取研究数据:图书馆能做些什么?)重点关注以DOI形式注册科学数据集的持久标识符的作用。内政部系统可以很容易地将研究文章与其基础数据联系起来,并可以提供数据集的可引用性,从而提高此类数据集的可见性、重复使用和验证的机会、提高数据采集器的科学声誉、避免重复、,以及其他此类好处。TIB和合作伙伴库在一个新的联合体中分配的DOI具有相关元数据,这些元数据将它们与父出版物关联起来,描述与其他数据集(“父/子”或“也称为”)的关系,并指示其技术格式,通常通过MIME类型。这允许系统对特定数据类型不可知——从某种意义上说,任何东西都是“数据”——但提供了句柄,允许下游应用程序根据其类型处理内容。

关于数据服务的会议开始于埃尔斯沃斯·勒德鲁滑铁卢大学国际极地年的持久遗产2007年3月至2009年3月,国际极地年是第四个全面调查极地地区的主要国际和跨学科项目(其他项目分别在1882年、1932-33年和1957-58年),从一开始,人们就意识到有必要建立程序,以确保收集的数据得到保留,并为今后此类项目的利益保持可用:目前的研究人员几乎无法获得早期IPY的主要数据。为此,根据国际科学理事会的指导方针,为所有国际物理年项目制定了数据管理政策。该政策在信息共享概念内运作(使用为eGY开发的相同原则),并鼓励最大限度地共享收集的数据。“鼓励”的形式是要求所有项目必须在一年内提供基本的描述性元数据,或有延迟获得下一笔资金的风险,这种方法在实践中似乎很有效。国际极地年的管理人员正试图在已出版的期刊中引用数据集,正在建立极地数据目录网络,并试图充分利用现有的世界数据中心,为联合长期保存数据集提供支持。此外,还建议对出现在私人网站上或在其他方面易受攻击的相关数据集进行清点和获取。尽管在互操作性、公平访问数据、知识产权和数据所有权方面仍然存在问题(通常是疑点!)总体情况是,在所有参与者通过的数据管理计划的框架内,开展一项重大计划需要付出大量努力,而这些原则被越来越多地确定为科学数据管理的最佳实践。

施敏夫欧洲核子研究组织的发言人谈到了高能物理实验室的数字图书馆服务和数据。粒子加速器产生的巨大数据量对数据处理程序本身提出了挑战——对撞机产生的300 GB/s原始数据必须在硅中和原位减少,甚至在产生的2 GB/s数据传输到CERN数据存储基础设施之前;由此在全球范围内实时重新分配数据是信息服务领域的一项重大努力。但欧洲核子研究组织希望数据能够重用,因此必须将其存储在结构化档案中;CERN Document Server(CDS)被设计为一站式服务,用于访问实验的完整档案,包括其衍生出版物、实验规范、论文、协作等。CDS使用开源INVENIO软件管理前端数据访问,CDS的管理人员越来越多地发现,尽管档案必须根据图书馆学的最佳实践进行管理,但他们的用户越来越需要不同的材料进入途径。与流行的Web服务(如YouTube或“Amazon-style”推荐)类似的信息检索和表示机制也很受欢迎,而且对Web 2.0协作工具的需求也很大。其结果是,用户可以访问出版物关系的信息可视化(引文统计、合著分析、合著网络),以及各种格式和分辨率的图像或多媒体数据。他们现在对能够查看和分析科学数据抱有同样的高期望。然而,尽管期望很高,但CDS的经验是,通过以这种方式吸引用户,鼓励他们投入更多精力管理和注释自己对系统的输入,从而直接促进CDS的高效运行。

保拉·赫图比斯(卡尔顿大学)介绍了“odesi”,这是一个综合数据门户,可访问安大略省所有大学的社会科学和统计数据。这一举措的一个实际结果是,由于消除了数据集不必要的重复,提高了成本效率并节省了成本。门户本身提供了强大的机制,可以根据其聚合的元数据搜索所有藏品,并具有直观的界面,可以轻松制定复杂的查询,从而实现意外的知识发现。该项目似乎是一个集成良好的数据管理模型,极大地造福了最终用户和数据提供商。

语义科学会议由彼得·福克斯伦斯勒理工大学的演讲(新信息学、数据科学与数据信息和知识的全生命周期)展示了由语义网络技术驱动的地球和空间科学中的一些实际应用。他强调了规划和开发有效应用程序背后的一些重要原则:在对技术解决方案作出任何承诺之前,必须为正在考虑的问题开发用例。人们往往倾向于使用自己喜欢的工具,使其适合手头的问题。人们非常重视新毕业生从培训开始就必须精通信息学;他还强调了将领域知识和经验融入信息技术开发过程的必要性&科学信息学最有效的实践者具有“多语言”技能。他充分利用了这样一个事实,即地球和空间科学领域拥有有效的数据期刊和引用数据的能力,具有有效的数据验证,并且正在日益促进数据的自由访问和重用。然而,在数据管道的每个级别添加语义信息至关重要。这不仅分散了标签的实际成本,还催化了一个积极的反馈循环。他采用了“数据→信息→知识→智慧”这一模因(在本次会议中经常重复,就像在每一次类似的会议上一样),并建议在数据采集阶段调用这一范式可以更好地设计数据处理阶段;通过处理阶段增强可用数据的语义内容,通知并改进数据分析过程,等等。

凯蒂·伯纳印第安纳大学讨论计算科学计量学为科学政策提供信息或者使用科学计量学或文献计量学的概念和方法发展科学本身的最佳方式。她演示了如何将不同科学领域之间的联系(例如通过文献引用进行测量)绘制成拓扑图,通常在实践中使用的是环形拓扑。这样的可视化提供了一种直观的方法来掌握潜在科学思想的关联性,人们可以将其他信息叠加在地图上,从而理解在制定全球科学政策时存在的相互依赖性。在scimaps.org的科学地图项目中可以看到其中的一些形象。她提出了许多其他令人振奋的想法,其中一个隐喻是,目前通过拨款周期进行科学资助的做法类似于试图通过分娩来抚养婴儿,然后只每隔一年才去看望一次。

简·维特罗普概念网络联盟(超越开放获取:最大限度地利用科学知识)描述了通过使用“概念三元组”解决信息交换标准的工作。通过对RDF形式主义的扩展,概念三元组体现了该类型的正式机器可读资源描述

<源概念><关系><目标概念>

其中,这样一个三元组的每个元素代表了一个在翻译中幸存下来的独特概念,也就是说,它们是一个术语及其所有可能的同义词的唯一标识符。(一个简单的例子可能是“personId”,它可以识别一个人,而不管他的名字是什么形式的,包括首字母缩写或全名、熟悉的名字或昵称等。)

Concept Web Alliance是一个由感兴趣的各方组成的不断壮大的社区,他们通过这项技术为消除歧义战略做出了贡献。SpringerLink网站上一个实际应用程序的例子是超链接术语在例如文章摘要中的出现。如果读者点击这样的超链接,就会弹出一个弹出窗口,显示与所选术语相关的信息:同义词链接、定义、同一作者的论文、相关文章、相关书籍或商业供应商的链接,所有这些都会引导感兴趣的读者进一步了解信息。弹出窗口可以引导读者阅读选定的书籍或商业材料,这使得供应商可以采用“点击式”付款的经济模式,因此可以向出版商免费提供这项服务。

会议的最后主旨演讲由保罗·乌利尔美国国家研究委员会。有资格的科学传播的革命与演变本文讨论了通过开放获取和信息共享空间的理念最大限度地获取数字信息对社会的好处。与结晶学等科学最相关的是:促进跨学科、跨机构和国际研究;实现自动化知识发现;避免效率低下,如不必要的重复研究;允许验证以前的结果;促进新的研究和新类型的研究;以及促进能力建设。麻省理工学院开放课件等教育项目也带来了巨大的直接利益。他特别热衷于在大学里推广开放知识环境(OKE)的愿景,在大学里可以做出一致努力,将学术信息传播的过程返回学术界。这很可能是在重点主题领域内安排的,个别大学可以充当特定学科的专门知识中心,从而在联盟之间分担不同任务的负担。他提出了原型模型,如基因组标准联盟和CAMERA宏基因组资源。


在调查当前的数据管理和保存实践时,会议表明,许多挑战和困难,例如在连续的CODATA会议上发现的挑战和困难正得到更广泛的认识,在某些科学领域,在解决这些挑战和困难方面甚至取得了一些进展,并越来越多地参与国家一级科学政策的制定。会议发出的令人信服的信息是,需要制定一项连贯的数据管理计划,将其作为任何研究项目的一个重要组成部分,并有令人鼓舞的迹象表明,有技术可用于执行此类计划。在我看来,对不同实践社区的不同需求给予应有的承认也很重要,因此各个学科需要评估自己的管理和长期保存要求;保存策略需要对到底需要保存什么以及保存多长时间进行批判性分析。

值得注意的是,这是一次由ICSTI主办的会议,因为在CODATA会议上,内容看起来完全是自然的。显然,传统的数据/出版二分法不再适用于科学和技术信息的传播过程,我们可以期待这两个方面之间未来的许多协同作用。
布莱恩·麦克马洪
CODATA代表

2009年6月12日