CodeMeta项目

动机

研究严重依赖科学软件,越来越多的研究人员将软件开发作为自己研究的一部分(Hannay等人2009年). 尽管如此,支持软件保存、发现、重用和归属的基础设施远远落后于期刊文章和研究数据等其他研究产品。这种滞后与其说是由于缺乏技术,不如说是因为缺乏统一性:现有的存档、文档、索引、共享、发现和引用软件贡献的机制在学科和档案中都是异构的,很少符合最佳实践(豪森2015). 幸运的是,一场旨在改进学术软件的保存、发现、重用和归属的快速发展的运动正在进行:最近NIH报告、会议和工作组武力11,WSSSPE公司&软件可持续发展研究所以及越来越多的存储库的采用github,泽诺多,无花果&DataONE公司学术软件开发人员。现在是改进这些资源相互对话的时候了。

软件元数据能为您做什么?

您希望从软件中获得什么样的元数据取决于您的用例。如果你主要关心的是学术软件的信用,那么你最感兴趣的是引用元数据。如果你试图复制一些分析,你更担心的是版本和依赖性,而不是作者和标题。如果你想找到一个你还不知道的适合于特定任务的软件,那么你会对关键词和描述感兴趣。通常,科学软件的开发人员、托管该软件的存储库以及用户自己对这些目标中的一个以上以及其他目标感兴趣。

不同的软件存储库、软件语言和科学领域以不同的方式表示这些信息,这使得工具很难或不可能跨这些不同的来源工作而不丢失宝贵的信息。例如,GitHub和无花果共享之间的出色合作为研究人员提供了一种方法,可以将前者上的软件导入到后者的持久存档中,从而获得一个永久标识符,即过程中的DOI。要分配DOI,figrashare必须将有关对象的元数据传递给DataCite,DataCite是所有存储库的中心DOI提供者。虽然这使DataCite成为一个功能强大的聚合器,但缺少人行横道表意味着许多有价值的元数据目前正在丢失,例如原始软件许可证、平台等。任何跨软件存储库工作的工具或方法都面临着类似的挑战,而这些工具或方法之间没有交叉表来进行转换。

为了获得更多细节,访问GitHub上的项目或者很快回来看看。

特别感谢我们的支持者