结晶数据

开放档案倡议第二次研讨会:获得独立带有电子打印存档和OAi

2002年10月17日至19日,日内瓦

开放档案倡议(OAi)是由高能预打印服务器的初步成功实现物理学(arXiv.org网站)以及传播的愿望学术出版物例如来自web服务器的论文、会议记录和课件赞助此类出版物的机构。以下可能性引用文章的自我发布也很有吸引力,尤其是面对不断增长的订阅率被认为是高成本商业出版商。

前几次会议产生的元数据收集议定书(OAI-PMH)是传播描述性元数据的技术方法关于机构希望宣传或制作的资源可用。这些资源通常是电子版(论文、会议会议记录、非正式报告、预印本),但可能是任何东西(数据库记录、博物馆实物标本……)。协议已设计允许客户机(“收割机”)查询服务器(“数据provider”)用于它支持的元数据格式,以及用于单个所需格式的记录或记录集。作为基础级别互操作性,要求服务器提供符合都柏林核心标准,但谈判设施允许元数据在有能力的服务器和客户端之间交换任意复杂性。

OAI-PMH标准的2.0版刚刚发布发布版本基于运行早期版本1.0。

预计将出现收集元数据的服务提供商由贡献机构提供,然后世卫组织可以分层增值服务位于收集的元数据之上,将其链接在一起并强加分布式资源上的组织以这种方式变得可见。一个旨在促进这一点的协议元素是可以指向相关存储库的容器类型。

本次研讨会上的大多数演示集中于数字文献机构库的建立通过OAI-PMH互连。在大多数情况下,该机构会成为一所大学,并维护大学的知识库图书馆。部分原因是许多资源被认为是合适的因为这个领域的管理传统上是由库。他们觉得这个新角色很好有资格表演,但实际上并非所有大学图书馆都有有足够的技术资源可供他们使用,即使是适度的编程要求。

最先进的基于图书馆的方案都有前端允许直接提交电子内容的应用程序组织教职员工;一些还具有允许对等的钩子国内期刊出版的回顾与发展操作。麻省理工学院与Hewlett-Packard是一个令人印象深刻的实现,软件引擎将很快作为开放源代码包发布。其他基础设施软件包,如大学已建立的eprints.org软件南安普顿和强大的文件组织驱动系统,CERN多年来建立的翻译和服务很快就会发布,可供开源下载和开发。意图是为了鼓励采用和使用强大而合理的构建适当联合数据存储库的标准化工具。这个DSpace项目的介绍提请人们注意横向联合学科的纵向整合制度资源,这是许多其他资源中隐含的区别演示文稿。

在一些讨论一般问题的分组会议中二分法再次变得明显。解决该问题的一种方法是向专业和学术团体负责组织通过构建和传播其学科特定内容他们自己控制的词汇表和相关的元数据格式。

通过其互操作性,OAI-PMH当然可以支持增值的特定学科元数据记录;但学习型社会首先面临的问题是在它对大量的元数据感兴趣可在广泛的提供商中获取,其中大部分可能是不完整的或低标准的。这个问题的答案似乎是创建中间层服务提供商以杂乱无章地收获在重新导出之前,对检索到的记录进行注释。事实上,这是一个与“传统”抽象和索引服务,区别在于这些机构已经准备好了(出于荣誉考虑)重新导出元数据自由收获。

机构——至少是大学——很难做到像传统一样自行发布学术研究结果同行评议的文章,因为该机构不能邀请外部人员提供审查服务。(学术独立宣言蒙特利尔大学的J.-C.Guedon教授展望了大学团体组织的联盟编辑委员会日-尽管常春藤盟校董事会可能会蓬勃发展,但有人想知道知名度低、受尊重度低的董事会的学术可信度机构。)然而,这些机构想要他们的所有出版物教员可以从自己的网站上获得(免费)服务器。首选的方法是保留版权或与期刊出版商放弃版权,允许机构主持(并交付)此类物品。例如,IUCr很高兴允许作者在自己的网站上发布文章页面,一种允许联邦免费重新分发的一致策略机构服务器将严重威胁期刊的基础订阅。

同样清楚的是,在设计机构存储库时,大学不希望成为真正的出版商管理同行评审和文档标记的成本。然而他们确实想要免费获得高质量的物品。有些人有信心作者在编辑任务方面足够熟练的学科全权负责文档标记;因此,SPARC期刊DocumentaMathematica可以为其700页的约200欧元。幸运的是,它的总编辑,一位学者,自由支配时间。当然,如此明显的慈善行为掩盖了真实的生产成本,但这里代表的社区认为是可以接受的,因为发布要求是学术努力。

然而,Guedon在他优雅的文章中看到了开放存取的档案作为一个可以恢复开放性和连续性的重要发展科学传播的特点有时是理想化的文学时代。新的网络技术允许并确实鼓励发布后的反馈和建议(其模型是亚马逊零售商网站)。事实上,有可能搬走从基于离散文章的方法向任何合格人员均可参加的分布式讨论论坛贡献。这里的模型是分布式开源软件开发项目,其中做出了大小贡献,但访问控制和详细日志记录允许公开审查和评估捐款总额。在这个乌托邦理想中,延伸和持续公开贡献评估恢复了学者的完全独立性,不受商业出版商控制权的约束传播信息的资源,以及控制量。

这次会议的缺席让人真正担心在不同自治区内保存(和访问)资源存储库,尽管各个国家级的资金和协调与会机构表明,这越来越成为一个问题国家层面的担忧,至少在一些国家如此。创新角色“服务提供商”被视为投票的可能性开放存档存储库并在被认为时通知他们适合将他们持有的数字对象迁移到另一种格式或以延长其寿命。确实如此原则上,服务可以执行迁移功能并返回存储库-对象的新表示(可能在某些成本)。

机构知识库保持沉默以获得充分支持自出版商离开了SPARC(学术出版物和学术资源联盟)作为补充而非而非整体主动性。布达佩斯开放获取倡议推广新的发布模式,允许公开获取信息看起来是一个相当松散的发展。SPARC和然而,BOAI确实认为元数据获取协议非常重要他们目标的技术促进者。

Elsevier Scirus科学中心网络搜索引擎以应用程序当然可以很好地利用OAI分布式元数据效果,允许构建一个能够跨越正式的期刊出版物和不太正式的网络文档。

我觉得IUCr当然应该考虑实施OAI-PMH基于数据服务器,可能还运行收割机软件。可能的应用包括:

  • 通过提供PubMed(和其他)格式的元数据记录,我们可以优化元数据到任意链接的传输合作伙伴。
  • 我们可以收集未发表的材料,例如论文,提供首先是结晶学论文的网络目录,随后可能会提供从文章参考列表到论文和其他此类报告。
  • 它可以为有限的数据库访问提供一条可能的途径例如CSD,目前不提供web访问。
  • 更具推测性的是,这是一种我们可以说服发电商的技术晶体数据集(同步加速器实验室,服务结晶学设备),以便采用提供对此类主要数据的访问。

布莱恩·麦克马洪
CODATA代表