搜索 | 背部问题  |  作者索引  |  标题索引  |  目录

文章

垫片

D-Lib杂志
2003年1月

第9卷第1期

ISSN编号1082-9873

D空间

开放源代码动态数字存储库

 

麦肯齐·史密斯
技术副总监
麻省理工学院图书馆
<kenzie@mit.edu>

玛丽·巴顿
高级商业战略师
麻省理工学院图书馆
<mbarton@mit.edu>

米克·巴斯
HP外部接洽经理
美国惠普公司实验室
<mick.bass@hp.com>

玛格丽特·布兰斯科夫斯基
DSpace用户支持经理
麻省理工学院图书馆
<margretb@mit.edu>

格雷格·麦克莱伦
DSpace系统经理
麻省理工学院图书馆
<gam@mit.edu>

戴夫·斯图夫
高级开发人员
美国惠普公司实验室
<david.stuve@hp.com>

罗伯特·坦斯利
首席开发人员
美国惠普公司实验室
<robert.tansley@hp.com>

朱莉·哈福德·沃克
高级商业战略师
麻省理工学院图书馆
<jharford@mit.edu>

红线

垫片

摘要

过去两年,麻省理工学院(MIT)图书馆和Hewlett-Packard实验室一直在合作开发一个名为DSpace™的开放源码系统,该系统用作研究型大学或组织成员制作的数字研究和教育材料的存储库。运行这样一个基于制度的、多学科的知识库越来越被视为研究和教学组织的图书馆和档案馆的自然角色。随着他们的成员以数字形式产生越来越多的原始材料,其中大部分从未通过传统方式出版,存储库对于保护学院及其教员的重要资产变得至关重要。本文的第一部分描述了DSpace系统,包括其功能和设计,以及解决数字图书馆和档案馆设计中各种问题的方法。第二部分讨论了DSpace在麻省理工学院的实施、系统联邦计划以及可持续性问题。

DSpace定义、特性和功能

2000年3月,惠普公司(HP)向麻省理工学院图书馆(MIT Libraries)拨款180万美元,用于为期18个月的合作,以构建DSpace™,这是一个动态存储库,用于多学科研究组织的数字格式的智能输出。根据BSD开源许可的条款,HP实验室和MIT图书馆于2002年11月4日在全球发布了该系统[1]麻省理工学院图书馆推出新服务一个月后。作为一个开源系统,DSpace现在可供其他机构自由使用,以运行As-is,或根据需要进行修改和扩展,以满足本地需求。从一开始,惠普和麻省理工学院就将该系统设计为由麻省理学以外的机构运行,并在技术和社会层面上支持采用者之间的联合。DSpace联合会将在后面的章节中进行探讨。

那么什么是DSpace?这是为了解决麻省理工学院教师在过去几年里一直向图书馆表达的一个问题。随着教师和其他研究人员以越来越复杂的数字格式开发研究材料和学术出版物,有必要收集、保存、索引和分发这些材料:这是每位教师及其部门、实验室和中心管理自己的一项耗时且昂贵的任务。DSpace系统提供了一种在专业维护的存储库中管理这些研究材料和出版物的方法,以便随着时间的推移提供更大的可见性和可访问性。

DSpace是最早构建的:它支持研究机构运行生产数字存储库服务所需的所有功能,但尽可能简单。项目重点是建立生产质量体系。它补充了先前在计算机科学和数字图书馆架构方面的研究,并受到其影响[2]. 我们的目标是建立一个系统:在麻省理工学院立即有用,希望在其他机构也有用;可以随着时间的推移进行扩展和改进;可以作为未来研究的平台。在其他机构的开发人员的帮助下,这些机构根据DSpace的开放源代码许可证采用了DSpace,我们将在了解用户实际需要的内容以及如何最好地支持数字保存和数字权限管理等复杂需求时,努力添加功能并改进系统的不同功能。

DSpace旨在方便存款人参与。该系统的信息模型是围绕组织“社区”的理念构建的,“社区”是具有独特信息管理需求的机构的自然子单位。以麻省理工学院(一所大型研究型大学)为例,“社区”被定义为学院的学校、部门、实验室和中心。每个社区都可以调整系统以满足其特定需求,并管理提交过程本身。

显示DSpace信息模型的图像

图1:DSpace信息模型

元数据

DSpace使用合格的都柏林核心元数据标准来智能地描述项目(特别是图书馆工作组应用程序概要)。只有三个字段是必需的:标题、语言和提交日期,所有其他字段都是可选的。文档摘要、关键字、技术元数据和权利元数据等还有其他字段。此元数据显示在DSpace中的项目记录中,并被编入索引以浏览和搜索系统(在集合内、跨集合或跨社区)。对于OAIS框架的传播信息包(DIP),当我们使用METS时,系统当前以自定义XML模式导出元数据和数字材料[]社区为任意数字格式的技术和权限元数据开发必要的扩展模式。

用户界面

DSpace当前的用户界面是基于web的。有几个接口:一个用于提交者和提交过程中涉及的其他人,一个用于查找信息的最终用户,另一个用于系统管理员。

最终用户或公共界面支持通过浏览或搜索元数据(目前所有字段,以及近期的特定字段)来搜索和检索项目。在系统中找到项目后,可以通过单击链接将存档的材料下载到用户的web浏览器来完成检索。可以立即查看“网络原生”格式(那些将直接显示在网络浏览器中或使用插件的格式);其他文件必须保存到用户的本地计算机上,并使用可以解释该文件的单独程序进行查看(例如,Microsoft Excel电子表格、SAS数据集或CAD/CAM文件)。

工作流程

DSpace是第一个开源数字存储库系统,它解决了如何适应多学科系统所需的不同提交工作流这一复杂问题。换句话说,不同的DSpace社区,代表不同的学校、部门、研究实验室和中心,对如何向DSpace提交材料、由谁提交以及有什么限制有着截然不同的想法。谁可以存放物品?他们将存放什么类型的物品?还有谁需要审查、改进或批准提交?他们可以将材料存放到哪些收藏品中?谁能看到存放的物品?所有这些问题都由社区代表与图书馆的DSpace用户支持人员共同解决,然后在每个集合的工作流中进行建模,以强制执行他们的决策。该系统对在给定集合的上下文中在特定社区的工作流程中具有“角色”的“电子人”进行建模。社区中的个人在DSpace注册,然后分配给适当的角色。

例如,一个部门可以选择有两个集合:一个用于工作文件,另一个用于数据集。然后,他们可以决定任何教员都可以直接将物品存放到任何一个收藏库中,并且任何公众成员都可以访问这些收藏库。在本例中,工作流非常简单,唯一的“角色”是提交者。

在一个更复杂的例子中,同一个部门可能有一个工作文件集,需要部门负责人进行严格的编辑控制。在这种情况下,他们可以选择再次指定所有教员为“提交者”,但也可以指定一小群人为“审阅者”,指定行政人员为“元数据编辑”,指定部门负责人为最终“协调员”。教员存放的物品将经过审查、清理和批准的过程,然后最终存放到相关的DSpace收藏。每个在此流程中扮演角色的人都会收到新提交的通知,并进入系统中的个人工作区执行分配的任务。无法完成此过程的项目不会在系统中存档。

技术平台

DSpace被开发为开放源代码,以使资源最少的机构和组织可以运行它。该系统设计为在UNIX平台上运行,包括其他开放源代码中间件和工具,以及DSpace团队编写的程序。所有原始代码都是Java编程语言。技术堆栈的其他部分包括关系数据库管理系统(PostgreSQL)、Web服务器和Java servlet引擎(Apache和Tomcat,均来自Apache Foundation)、Jena(HP实验室的RDF工具包)、OCLC的OAICat,以及其他几个有用的库。所有利用的组件和库也是开源软件。尽可能捆绑库(安装说明中描述了例外情况)。该系统在SourceForge上可用[4],从DSpace信息网站链接[5]和HP实验室网站[6].

虽然DSpace是开源的,并且是免费的,但麻省理工学院图书馆和惠普都没有为DSpace采用者提供正式支持。我们假设使用DSpace的机构将拥有使用系统的资源,包括运行UNIX操作系统的足够硬件,以及安装和配置系统的UNIX系统管理员[7]. 大多数使用DSpace的机构还需要Java程序员的服务,他们可以为他们进行本地化和定制,或者对其进行增强,尽管这并不是运行系统所必需的。

随着惠普、麻省理工学院图书馆和其他采用DSpace的机构的工作人员在未来一年内不断改进DSpace,麻省理学将负责评估这些改进并将其重新整合到面向公众的主要开源系统中。稍后将讨论通过DSpace联合会构建更可持续的开源维护战略的计划。

系统体系结构

显示DSpace架构的图像

图2:DSpace技术架构

DSpace体系结构是一个简单的三层体系结构,包括存储层、业务层和应用程序层,每个层都有一个文档化的API,以便将来进行定制和增强。存储层使用PostgreSQL数据库表管理的文件系统实现。业务层是DSpace特定功能所在的层,包括工作流、内容管理、管理以及搜索和浏览模块。每个模块都有一个API,允许DSpace采用者根据需要替换或增强该功能。最后,应用程序层涵盖了系统的接口:特别是web UI和批处理加载器,还包括OAI支持和用于将持久标识符解析为DSpace项的Handle服务器。这一层将在未来的版本中得到更多关注,因为我们为新功能添加了web服务(例如,支持与其他系统的互操作),并在采用DSpace的一系列机构中定义了联合服务。

开放档案倡议

为了进一步实现其支持与其他DSpace采用者以及与其他DSspace采用者互操作的目标数字存储库、预打印和电子打印服务器,该系统实现了Open元数据收集档案倡议协议(OAI-PMH)[8]. DSpace使用OCLCOAIC卫星[9]为了实现这一点,目前正在公开中每个项目的都柏林核心元数据系统。对于限于本地访问的材料,项目元数据将暴露给OAI但当用户请求关联的位流。麻省理工学院的DSpace最近被添加到OAI注册表中部署在其他机构,我们打算调查可能建立哪些增值服务在这个充满希望的基础设施之上在联邦范围内工作。例如,我们可以检查为特定的学术学科,个别项目分布在许多基于制度的学科中多学科存储库,符合所有OAI。

持久标识符(句柄)

持久化数字存储库的一个目标是可以找到并取回存放在未来。特别是,人们认为至关重要的是存档材料的引文,是否在印刷品中找到文章或在线文章长期有效。为了这个最后,DSpace选择实现CNRI句柄[10]作为与每个项目关联的持久标识符。把手System®涵盖以下内容的分配、管理和解决这些持久标识符(或“句柄”)。尽管CNRI尚未向IETF注册官方命名空间,句柄符合IETF的统一资源名称(URN)规范。

可以使用特殊客户端进行句柄解析,或句柄可以以URL和代理的形式打包服务器用于将这些解析为句柄表单,而句柄表单又解析为该项的本地系统位置。第二种方法是我们在DSpace中拍摄的照片。主要替代方案使用句柄是将持久URL与HTTP一起使用重定向以允许项目随时间移动。这个这些替代方案的长期可行性尚未实现充分理解。

我们计划与未来一年采用DSpace的其他机构看看DSpace Federation是否可以支持其他系统持久标识,同时支持分布式服务。

麻省理工学院图书馆的DSpace实现

DSpace是用于收集、管理、索引和分发数字项的系统、工具和平台。确切地说,它是如何使用的,用于何种数字材料,由谁使用,使用多长时间等等,这些都是政策问题,由采用该系统的每个组织决定。为了使系统和政策之间的区别更加透明,并帮助其他机构起步,麻省理工学院公开分享了自己关于DSpace的政策决策。我们希望,虽然我们承认我们的政策可能对其他机构不起作用,而且肯定会随着时间的推移而演变,但它们可能会在应考虑的问题的深度和广度方面为其他机构提供指导。

收款范围

在麻省理工学院,DSpace的最初目标是以数字格式捕捉教师的智力输出:研究论文、其他文件、数据集、图像、音频/视觉材料、数据库或他们认为重要的任何其他格式。这一目标导致了两项重要政策:全体教职员研究将被接受(不是学生材料,不是机构记录,也不是没有教师赞助的非教师研究人员的材料),以及全体教职员将选择要提交的内容(在图书馆和档案馆设置的某些一般限制范围内)。

经过与教员、早期采用者社区和其他人的讨论,目标没有改变,但政策已经演变。第一个变化是可以提交什么。如果DSpace社区定义了一个集合,为了有用,该集合应该包括非教师(或非麻省理工学院教师)编写的材料,那么只要获得必要的版权许可,该集合就可以由该社区保存。第二个改变是容纳来自麻省理工学院图书馆和档案馆的材料。我们将创建一个图书馆和档案馆社区,以保存电子论文和重新格式化图像等材料的数字收藏,这些材料被大量使用,并代表了该机构的宝贵资产。

除了教师编写的文档和数据外,另一类材料也成为DSpace可能支持的焦点:教育材料或“学习对象”。随着课程网站和在线教学环境的激增,教师们越来越多地创建新的有价值的数字材料来支持他们的教学活动。这些可以采取传统的课堂讲稿、样本考试和课程日历的形式,但也包括复杂的模拟和可视化、多媒体演示或关键讲座的视频。根据当地政策,麻省理工学院图书馆将接受此类材料,并积极与这一领域的两个基于MIT的项目合作:开放知识倡议(OKI)[11]和开放式课件(OCW)[12]. 对于OKI来说,DSpace可以充当课程“内容项”的活动存储库,这些项具有持久、持续的价值(例如,在各种课程中经常使用的物理模拟)。OKI项目正在开发API,以支持OKI兼容课程管理系统和OKI兼容性数字存储库之间的互操作性。对于开放式课程,DSpace将收集旧的课程网站,以便对课程进行检查,并在课程结束后找到课程材料。DSpace等数字存储库与新兴在线教学环境之间的适当关系仍然存在许多问题,但这一领域对教师来说非常重要,不容忽视。

教师参与度

有几种方法可以描述机构存储库对将贡献材料的教员以及支持这项工作的管理层的价值。向这两个选区解释这些好处并推广这项服务至关重要。

作为一个代表麻省理工学院学术成果的多学科知识库,麻省理学院的DSpace展示了我们教师个人和集体在国际上的杰出地位。档案馆的跨学科内容应该比专门针对某一学科的知识库吸引更多的读者;此外,它为日益增长的跨学科研究机构提供了目前缺乏的服务。快速分发研究成果的能力将强调麻省理工学院研究的前沿性,并支持该研究所产生、传播和保存知识的使命[13].

麻省理工学院教员的研究成果在未来很长一段时间内对研究人员都很有价值,但保存数字材料(出版物、数据集、图像、可视化等)是非常困难的。为了确保长期获得这项重要的奖学金,麻省理工学院图书馆将把DSpace作为保存档案进行管理,使这些材料在未来很长一段时间内都可以访问,而且通常可以立即使用。

图书馆为建立新社区提供指导,并协助教师和其他人使用该系统。DSpace是麻省理工学院图书馆设想的,作为他们收集、提供和保存各种重要学术材料的使命的延续,尤其是麻省理工学院自己的教员和研究团体的重要学术材料。图书馆正在努力扩展其在数字时代的服务,以反映当前学术交流和教育的趋势,并提供网络技术支持的新的分发研究材料的方法。

在过去几年里,麻省理工学院通过诸如开放课程和开放知识倡议等倡议,对教育技术给予了新的重视。教师们正在投入大量的时间和精力来创建在线教育材料,这些材料是宝贵的资产。DSpace正在与学院的主要教育技术计划(包括OpenCourseWare)合作,以便存储、重新定位、重用和重新调整课程内容的用途变得可靠和容易。

习惯于在线查找文档(无论是已发布的还是预发布的)的教师希望继续使用学科定义的集合。DSpace可以存储和交付来自主办机构的预印本和eprint,并且可以通过跨大量参与机构的联合来支持来自不同学术学科的虚拟收藏。学术团体已有学科档案的地方(例如康奈尔大学的arXiv系统[14])可以使DSpace在本地存放过程中自动向这些集中的档案馆提交相关文件的副本。

过渡团队和业务计划

从2001年秋天到2002年春天,图书馆组建了一个DSpace过渡团队,由项目工作人员和来自关键部门(如档案馆、收藏服务、公共服务和系统部门)的高级图书馆工作人员组成。该小组负责研究如何将DSpace部署为麻省理工学院图书馆的一项新服务:必要的政策、人员配备要求、沟通策略、管理和治理结构、培训计划以及运营要求。事实证明,参加这个小组对图书馆工作人员更加熟悉该系统是一个有用的工具,对这些不同问题的讨论对生产DSpace服务的发展是非常宝贵的。

参与过渡团队小组的有两名高级商业顾问,他们由安德鲁·梅隆基金会资助,为麻省理工学院的可持续DSpace系统编写正式商业计划。他们的工作包括汇编过渡小组审议和决定的结果,将工作纳入系统运行的详细成本信息,并概述可能的收入选择。

这一规划过程的主要结论是,麻省理工学院的DSpace将作为补贴核心服务的组合提供(纳入图书馆的运营预算),以及成本回收的优质服务,使图书馆能够满足特定社区对DSpace的不同独特需求(例如,超大容量的磁盘存储、元数据创建帮助或将文件转换为支持的格式)。通过这一策略,我们确保了DSpace是麻省理工学院图书馆负担得起的事业,同时又不影响可以提供的服务[15].

保存

最近关于数字保存的讨论至少集中在两个层面:“位保存”,即数字文件严格按照创建时的状态保存,没有任何更改;以及我们将称之为“功能保存”,指随着技术格式、媒体和范式的发展,数字文件保持可用。在第一种情况下,五年或十年后,文件不太可能仍然被软件读取或处理,但我们认为“数字考古学家”有可能在多年后使用该文件来试图解开其秘密,特别是如果他们有关于格式的一些附加信息(例如,规范、创建或处理程序、用户文档等)。在后一种情况下,材料始终保持立即可用(可查看、可播放、可搜索或任何您可以使用的内容处理它最初)。显然,功能性保存是更理想的级别,但这需要付出代价。

作为一个社区,我们对功能性数字保存的理解正处于一个有趣的关头:我们知道这一需求有多么重要,我们知道如何在抽象层次上实现它(例如,格式迁移或复杂系统仿真等)。但很少有机构必须在生产环境中对大量异质材料进行功能保存。因此,我们几乎没有关于实际生产战略、成本、用户对信息丢失的反应,或者支持所有这些需要多少技术元数据的信息。

这一切与DSpace有什么关系?系统捕获最小的技术元数据以支持数字位保存(文件格式、MD5校验和、创建日期),并提供描述性字段以记录更多可用信息。有了这些元数据和适当的生产过程(例如,高质量的服务器和存储设备、良好的备份和灾难恢复计划),DSpace可以支持“位保存”,以便存储的材料可以像最初收到的一样交付给未来的用户。对于某些数字格式,这可能是可用的最佳选择,例如,没有提供相应源代码的可执行程序,或是非常罕见(或专有)的格式,以致DSpace宿主机构无法知道如何提供功能保存。

然而,功能保留目前是一个制度政策问题,只有当我们更多地了解生产技术、用户需求和成本/效益权衡时,才能在DSpace中更彻底地实施。与此同时,每个运行DSpace的机构都将制定自己的保存政策,这将取决于其提交政策(即,他们是否接受所有文件格式或仅接受TIFF或AIFF等标准格式)。

麻省理工学院计划为一系列“支持”的格式提供功能保护,这些格式在网站上列出,并在存款过程中向用户展示。支持的格式包括文件化标准(例如TIFF、AIFF、XML)或已发布规范(例如PDF、RIFF)。麻省理工学院DSpace的其他两类支持是“已知”和“不支持”。“已知”格式是指那些常见到足以让人熟悉并且通常非常流行的格式,但它们是专有的,因为没有发布的规范来作为功能保存的基础。“不受支持”的格式是指库未知或极为罕见的格式(例如,编译程序、商业CAD/CAM文件等)。区分“已知”和“不受支持”的原因是,对于前者,我们希望看到随着这些格式的过时,商业转换程序变得可用,因为存在大量这些格式的文件,许多行业都依赖它们。如果出现这种商业转换程序,麻省理工学院将把这些格式转移到“支持”类别,并为其提供功能保护。

DSpace联合会

从一开始,DSpace项目就打算使其系统开源,并积极向其他机构推广。为什么?采用这种方法有很多原因:

  • 开发代表世界领先研究型大学智力成果的关键内容库
  • 通过开源社区促进DSpace服务的持续发展
  • 促进档案库的互操作性和学术著作的长期保存

2002年,麻省理工学院与美国、英国和加拿大的少数其他学术研究机构建立了合作伙伴关系,以解决一些具体问题,例如:如何才能在其他机构成功部署该系统?需要多少本地化,多少定制,需要多少时间和精力?可以定义哪些服务来利用这些机构的数字收藏,以及如何在DSpace中实现这些服务?联合会将成为什么样的组织:一个财团?一个新的会员组织?非正式的松散合作?它应该驻留在麻省理工学院内部、另一个机构,还是作为一个完全独立的组织?这些官方合作伙伴包括:英国剑桥大学、美国哥伦比亚大学、美国康奈尔大学、美国罗切斯特大学以及美国俄亥俄大学、加拿大多伦多大学和美国华盛顿大学。

除了这些正式合作外,许多组织还下载了DSpace系统(自11月初以来,已下载了近1500个),其中许多组织正在评估其对当地需求的适应性。显然,非常需要一个像DSpace这样的系统,随着我们在未来一年探索DSpace Federation的定义,我们希望从许多这样的机构那里获得反馈和建议,了解该系统应该如何发展,以及如何使其在麻省理工学院之外可持续发展。

结论

从这里开始,还有很多很多问题要解决,但我们感到已经取得了很大进展,我们渴望看到事态的发展。在麻省理工学院,我们很高兴也很兴奋能有一个平台来开始探索这些问题,无论是在学院内部还是与其他希望推进学术信息开放获取以及数字材料管理和保存议程的机构。在惠普,我们对DSpace作为探索和开发标准以及在数字资产管理、存档和保存系统方面进行持续研究的工具所发挥的作用感到兴奋。我们预计,DSpace将在未来的大学图书馆和档案馆中发挥重要作用,我们期待着在这一领域与其他机构进行富有成效的合作。

鸣谢

作者感谢我们的赞助商:休利特·帕卡德/麻省理工学院联盟和安德鲁·梅隆基金会。我们还要感谢DSpace项目团队的前几位成员,他们的贡献是无价的,包括埃里克·塞莱斯特、比尔·卡特、丹·丘德诺夫、彼得·布雷顿、彼得·卡迈克尔和乔伊斯·吴。最后,我们要感谢惠普、麻省理工学院和图书馆的许多同事,他们使这个项目成为可能。

N个注释

[1]伯克利标准分销许可证<http://www.opensource.org/licenses/bsd-license.php>.

[2]尤其是《武器》中描述的工作<http://www.dlib.org/dlib/July95/07arms.html>; 卡恩和威伦斯基<http://www.cnri.reston.va.us/home/cstr/arch/k-w.html>; 和FEDORA项目<http://www.fedora.info(费多拉信息)>.

[3]METS信息可访问<网址:http://www.loc.gov/standards/METS>.

[4]SourceForge.net、<http://sourceforge.net/projects/dspace>.

[5]D空间<http://dspace.org>.

[6]HP实验室研究人员开发的可下载软件<http://www.hpl.hp.com/research/downloads/>.

[7]由于该系统是用java编写的,理论上可以在UNIX以外的其他平台上运行,但DSpace开发团队尚未对此进行测试。

[8]元数据收集开放档案倡议协议(OAI-PMH)<http://www.openarchives.org/OAI/openarchivesprotocol.htm>.

[9]OAICat位于<http://www.oclc.org/research/software/oai/cat.shtm>.

[10]参见Handle System®<http://www.handle.net网站>.

[11]请参见<网址:http://web.mit.edu/oki>有关开放知识倡议的更多信息。

[12]请参见<网址:http://www.ocw.mit.edu>,了解有关OpenCourseWare的更多信息。

[13]请参见<http://web.mit.edu/about-mit.html>麻省理工学院的使命宣言。

[14]请参阅arXiv.org电子打印档案<http://arxiv.org/>在康奈尔大学获取有关arXiv项目的信息。

[15] 请参见<http://www.dspace.org/mit/plan.html>麻省理工学院图书馆的DSpace商业计划。

版权所有©麦肯齐·史密斯、玛丽·巴顿、米克·巴斯、玛格丽特·布兰斯科夫斯基、格雷格·麦克莱伦、戴夫·斯图夫、罗伯特·坦斯利和朱莉·哈福德·沃克
垫片
垫片

顶部|目录
搜索|作者索引|标题索引|背部问题
上一篇文章|下一篇文章
主页|向编辑发送电子邮件

垫片
垫片

D-Lib杂志访问条款和条件

内政部:2003年1月10日10时45分史密斯