故事

垫片  

D-Lib杂志
2000年3月

第6卷第3期

国际标准刊号1082-9873

基于收藏的永久性数字档案——第1部分

垫片 线路
垫片

里根·摩尔、柴坦·巴鲁、阿科特·拉贾塞卡尔、伯特伦·卢达舍尔、理查德·马西亚诺、迈克尔·万、韦恩·施罗德和阿玛娜斯·古普塔
<莫尔,巴鲁,塞卡尔,路德西,马西亚诺,万用表,施罗德,gupta@sdsc.edu>
圣地亚哥超级计算中心

垫片 线路
垫片
[这是两部分故事的第一部分第二部分将出现在2000年4月的《D-Lib杂志》上。]

摘要

通过整合超级计算机中心的档案存储技术、计算机科学界的数据网格技术、数字图书馆界的信息模型以及档案工作者界的保存模型,长期保存数字信息变得可行。超级计算机中心提供了存储正在创建的大量数字数据所需的技术,而数字图书馆社区提供了定义解释数据所需上下文的机制。这些技术与保存和管理策略的协调定义了基于收集的持久存档的基础结构[1]. 本文定义了一种方法,通过开发一种支持将集合迁移到新软件系统的环境,将数字数据维护数百年。

1.简介

超级计算机中心、数字图书馆和档案存储社区都有共同的持久档案存储需求。每个社区都在构建软件基础设施,以组织和存储大量数据。一个新出现的共同要求是能够长期维护数据收集。面临的挑战是,在用于管理存档的技术不断发展的同时,如何保持发现、访问和显示存储在存档中的数字对象的能力。我们实现了一种基于组成集合的数字对象存储的方法,并添加了动态重新创建数据集合所需的元数据属性。此方法建立在支持可扩展数据库模式所需的技术之上,而可扩展数据库架构又支持创建与旧式存储系统互连的数据处理系统。

数字信息的长期存储和访问是联邦机构面临的主要挑战。技术的快速变化导致存储介质的过时,再加上超大数据量(TB到PB),似乎使这个问题变得难以解决。令人担忧的是,当数据存储技术过时时,迁移到新技术所需的时间可能会超过正在使用的硬件和软件系统的使用寿命。由于需要能够从存档数据中检索信息,这一情况更加严重。面对迅速变化的数据库技术,还必须保留将数据组织到集合中的方法。所以,每个集合都必须及时迁移到新的数据管理系统上,同时将单个数据对象迁移到新媒体上。最终目标是不仅保留与原始数据相关的位,还保留允许解释数据的上下文。在本文中,我们提出了一个用于管理媒体迁移的可扩展体系结构,以及用于管理上下文结构迁移的信息模型。信息模型包括用于组织属性的逻辑模式、用于将属性加载到数据库中的物理特征描述以及用于定义语义的数据字典。

我们依靠集合来定义与数字数据关联的上下文。通过为数字对象和相关数据收集创建半结构化表示来定义上下文。每个数字对象都被维护为一个标记结构,该标记结构包括数据的原始字节或到对象的持久链接,以及被定义为与数据收集相关的属性。集合上下文是通过使用逻辑和物理表示来组织集合属性来定义的。通过使用独立于基础架构的表示,可以维护存档数据的原始上下文。因此,基于收藏的持久存档是指将收藏的组织与组成收藏的数字对象同时存档的存档[1].

持久性集合要求能够基于新技术动态重新创建集合。对于解决方案,我们考虑集成超级计算机中心的可扩展档案存储技术、数字图书馆社区的独立于基础设施的信息模型以及档案管理员社区的保存模型。需要一个支持数字对象和数据集合不断迁移的基础设施。可扩展的存档存储系统用于确保有足够的资源可用于将数字对象连续迁移到新媒体。解释藏品独立于基础设施的表示的软件系统基于通用数字图书馆系统,并明确迁移到新平台。在这种方法中,数字对象和集合的原始表示不变。然后,通过应用管理对象迁移速率和集合实例化软件的档案管理员策略来实现持久存档的维护。

目标是将数字信息保存至少400年。本文研究了必须解决的技术问题,并给出了一个原型实现。本文分为几个部分,以提供持久性问题的描述和该技术的一般描述。(关于创建一百万条消息的持久电子邮件集合的描述将在下个月的第2部分中讨论D-Lib杂志.)

2.持久性问题

保存与数字对象关联的上下文是基于收藏的永久性档案的主要问题。传统上,上下文是通过指定与每个数字对象关联的属性来定义的。上下文是通过属性之间存在的关系以及访问数据集合的用户界面中属性的首选组织的描述来组织的。我们确定了必须保留的三个层次的上下文:

  • 数字对象表示。每个数字对象都有定义其结构、物理上下文和起源的属性,以及描述对象中感兴趣特征的注释。由于属性集(例如注释)将在集合内的所有对象中变化,因此需要半结构化表示。并非所有数字对象都具有相同的关联属性集。
  • 数据收集表示。集合还有一个隐含的组织,它通常是与数字对象关联的属性的子集。模式用于支持属性或元数据的关系查询。可以将一个集合重新组织为多个表,以通过构建新索引和添加属性来改进访问。用于组织集合属性的模式可以不同于与集合中的数字对象相关联的属性集。
  • 演示文稿。集合的用户界面可以呈现集合属性的组织,这些属性经过调整以满足特定社区的需要。研究人员可能需要访问所有的元数据属性,而学生对子集感兴趣。用于再次定义用户界面的结构可以与用于集合组织的架构不同。每个演示文稿都代表了该集合的不同视图。重新创建收藏的原始视图是典型的存档要求。

数字对象用于封装每个数据集。集合用于组织数字对象的上下文。表示接口是定义集合交互的结构。面临的挑战是为每个集合保留所有三个级别的上下文。

2.1管理上下文

技术的快速变化使得收集环境的管理变得困难。用于管理收藏的软件系统在三到五年的时间尺度上发生了变化。可以通过特定于供应商的转储或备份例程复制数据库。然后,可以将副本写入存档中以进行长期存储。当从存储中检索数据库时,此方法会失败,因为数据库软件可能不再存在。然后,档案管理员将面临将数据收集迁移到新数据库系统的问题。由于每次数据收集都可能发生这种情况,档案管理员必须不断地转换整个档案。需要一种更好的方法。

集合需要独立于基础结构的表示形式,可以在集合的生命周期中维护该表示形式。如果可能,应使用通用信息模型来引用与数字对象、收集组织和表示界面关联的属性。统一数据交换模型的一个新兴标准是扩展标记语言(XML)[2]. XML是半结构化信息模型(即标记有序树)的主要实例,并提供标记数据的表示。数据可以是关系数据、面向对象数据、模式、过程等。我们使用信息模型将集合定义为原始标记数据的XML视图。信息模型的一个特定示例是XML文档类型定义(DTD),它为允许的XML元素嵌套结构提供了描述。更丰富的信息模型正在涌现,如XSchema[](它提供数据类型、继承和更强大的链接机制)和XMI[4](它为多层次的数据抽象提供了模型)。

我们将引用下一代信息模型作为开放模式定义(OSD)。OSD包含集合模式和表示定义。例如,XSL样式表可以用于OSD的表示组件。XSL是可扩展样式表语言[5]并支持XML文档的转换和表示输出的格式设置。对于原型,我们使用XMLDTD和XSL样式表作为OSD。

可以提供一个集合的多个表示视图。对于我们的原型,我们为特定集合使用多个XSL样式表,以适应不同的用户界面。操作系统的使用使我们可以自由选择从标记的数据对象组装集合,并将派生的集合呈现给多个用户社区。

虽然XML DTD最初仅应用于文档,但现在它们被应用于任意数字对象,包括集合本身。一般来说,OSD可以用于定义数字对象的结构,指定数字对象的继承属性,以及定义集合组织和用户界面结构。

虽然XMLDTD提供了一个标记结构来组织信息,但标记的语义是任意的,并且取决于集合。每个集合都需要一个数据字典来定义语义。因此,持久集合需要OSD的以下组件才能完全定义集合上下文:

  • 集合语义的数据字典,
  • 数字对象结构,
  • 收集结构,
  • 用户界面结构。

2.2持久性管理

持久性是通过提供在新技术上动态重建数据收集的能力来实现的。虽然进行重建的软件工具必须移植到每个新的硬件平台或数据库中,但可以在存档中保留其独立于基础结构的格式。为信息模型选择适当的标准对于最小化基于收集的持久存档的支持需求至关重要。目标是一次性将包含集合和集合上下文的数字对象存储在存档中。如果将对标准信息模型的任何更改作为超集添加到先前信息模型,则这是可能的。然后,可以将操作信息模型先前版本所需的知识封装在用于重建集合的软件系统中。有了这个警告,永久集合就不需要修改,可以作为独立于基础结构的位文件保存在存档中。

数据采集的重新创建或实例化是通过一个软件程序完成的,该软件程序使用定义数字对象和采集结构的模式描述来生成采集。目标是构建一个通用程序,该程序可以与任何模式描述一起工作。这将减少支持动态重建持久数据收集到维护单个软件系统所需的工作量。

维护持久性数字对象需要将数据迁移到新媒体的能力。继续刷新保存集合的媒体的原因如下:

  • 避免数据丢失,因为介质的使用寿命有限,并会导致介质退化。
  • 将存储成本降至最低。新介质通常存储的数据量至少是以前版本的两倍,通常每个盒带的成本相同。因此,迁移到新介质导致需要一半的盒带,减少了占地面积,并降低了管理盒带的运营成本。请注意,在这种情况下,持续迁移的介质成本将保持有限,并且将少于原始介质成本的两倍。支持继续迁移到新介质的主要成本是处理介质所需的操作支持。
  • 最大限度地提高处理指数级增长数据的能力。在不到一年的时间段内,许多数据收集的规模翻了一番。这意味着读取整个集合以迁移到新媒体的工作量将少于存储该年内收集的新数据的工作量。迁移到具有更快读/写速率的高密度介质是确保存档数据可访问的唯一方法。集合的管理度量是重新读取整个集合所需的总时间。除非重新读取时间保持有限,否则持久存档将变得无法管理。

为了便于迁移和访问,超级计算机中心将所有数据保存在磁带机器人中。对于当前可用的磁带(容纳20 GB到50 GB数据的盒带),单个磁带机器人能够存储120 TB到300 TB的未压缩数据。到2003年,单个磁带机器人预计可以容纳6000 TB,使用1 TB容量的盒式磁带。现在可以存储数PB(数千TB)的数据。档案的容量不会成为一个限制因素。

鉴于收集上下文和数字对象可以迁移到新媒体,剩下必须迁移的系统是档案存储系统本身。控制磁带归档的软件由用于存储每个数据集的存储位置和名称的数据库、用于跟踪事务完成情况的日志记录系统以及用于访问存储外围设备的位文件移动器组成。在这些组件中,最关键的资源是用于管理数据集的名称和位置的数据库或名称服务器目录。在圣地亚哥超级计算机中心,已两次将命名服务器目录迁移到新系统,从DataTree存档存储系统迁移到UniTree存档保存系统,从UniTree迁移到IBM高性能存储系统[6]. 每次迁移都需要读取旧目录,并将每个数据集摄取到新系统中。虽然在两次迁移之间,文件数量从400万增加到700万,但迁移所需的时间从4天减少到1天。这反映了供应商提供的名称空间管理系统的进步。根据这一经验,可以迁移到新的存档存储系统,而不会丢失数据。

存档存储系统的一个优点是能够独立于数据的使用来管理数据移动。每次升级存档存储系统时,都会使用允许从旧系统读取磁带的驱动程序构建新版本的存档。因此,可以将存档存储系统之间的数据迁移与迁移到新介质相结合,从而最大限度地减少磁带的读取次数。

持久集合的创建可视为系统的设计,该系统支持将每个内部硬件和软件组件独立迁移到新技术。迁移过程的管理成为档案管理员的主要任务之一。

2.3管理可扩展性

通过添加新集合或扩展现有集合,可以预期永久存档的大小会增加。因此,该体系结构必须具有可扩展性,支持存档数据总量、存档数据集数量、数字对象数量、收集数量和每天访问数量的增长。这些要求类似于对超级计算机中心档案存储系统的要求。我们提出了一种使用超级计算机技术的可扩展解决方案,该解决方案基于并行计算机上运行的并行应用程序的使用。

一个可扩展的系统是通过识别每个组件最好提供的功能和每个技术中隐含的约束来构建的。然后在组件之间构建接口,以使通过体系结构的数据流与可用功能相匹配。存档存储系统用于管理存储介质和迁移到新介质。数据库管理系统用于管理集合。Web服务器用于管理对系统的访问。

存档存储系统擅长在磁带上存储大量数据,但其代价是访问时间相对较慢。对于当前的磁带库,从磁带仓中检索磁带、将磁带装入磁带驱动器并准备读取磁带的时间大约为15-20秒。将磁带向前旋转到所需文件的位置所需的时间大约为1-2分钟。如果磁带驱动器已在使用中,则总时间可以加倍。因此,对磁带上数据的访问时间可以是2-4分钟。为了克服这种高延迟,数据以大数据块的形式传输,因此通过通信信道传输数据集所需的时间与访问延迟时间相当。对于以10 MB/秒到15 MB/秒的速度读取的当前磁带外围设备,存档中的平均数据集大小应在500 MB到1 GB之间。由于数字对象可以是任意大小的,因此容器用于在将数字对象存储到存档之前聚合数字对象。

存档必须管理的第二个约束是最小化存档看到的数据集的数量。当前的存档存储命名服务器能够管理1000万到4000万个数据集。如果每个数据集的大小约为500 MB,则归档可以管理大约10 PB的数据(10000 TB或1000万GB)。只有使用容器将数字对象聚合为大型数据集时,存档存储系统才能提供可扩展的解决方案。如果将1000个数字对象聚合到每个容器中,则可以管理的数字对象总数约为400亿。

数据库擅长支持大量记录。请注意,交易处理委员会D基准[7]测量关系数据库在数据库大小从1GB到3TB以及600万到180亿行的决策支持查询中的性能。每行可以表示一个单独的数字对象。使用对象关系数据库系统,可以将二进制大对象或BLOB与每一行关联。BLOB可以位于数据库内部,也可以位于外部文件系统中。在后一种情况下,句柄用于指向BLOB的位置。句柄的使用使得在容器中聚合数字对象成为可能。多种类型的容器技术可用于聚合数字对象。聚合可以使用TAR程序等实用程序在文件级别进行,也可以通过数据库表空间在数据库级别进行,或者通过使用软件控制的缓存在中间数据处理级别进行。数据库维护描述每个对象所需的信息,以及对象在容器中的位置和容器在存储系统中的位置。数据处理系统用于支持对档案存储的数据库访问。

查询是跨存储在每个记录中的属性进行的。通过跨数据库表构建索引,可以优化响应查询所需的时间。这可以将查询所需的时间减少1000倍,代价是索引的存储空间和组装索引所花费的时间。持久性集合可以保存在磁盘上以支持交互式访问,也可以存储在存档中,并在需要时在磁盘上重建。如果集合是从归档文件中重新组装的,则该过程所需的主要时间可能是创建新索引所花费的时间。由于档案存储空间便宜,因此最好保持集合的独立于基础结构和依赖于基础结构的表示形式。加载预先编制索引的数据库快照所需的时间只是重新组装和索引集合所需时间的一小部分。当然,数据库快照假定数据库软件技术仍然可以用于解释数据库快照。对于经常访问的数据集合,数据库快照可能值得维护。

频繁访问的集合的信息表示需要Web服务器来处理用户负载。服务器对于存储在本地磁盘上的数据集运行良好。为了访问存档中的数据,需要一个数据处理系统将数据从存档传输到Web服务器。否则,可访问集合的大小可能会限制为Web服务器磁盘缓存的大小。Web服务器可以跨并行计算机的多个CPU分配负载,并行服务器每天管理1000多万次访问。

Web服务器提供了各种用户界面来支持查询和信息发现。保存用户界面需要一种方法来捕获独立于基础结构的表示,以用于查询构造和信息表示。可以使用Web服务器从数据库中检索信息以进行演示。所需要的是能够根据集合属性的描述重建集合的原始视图的软件。在SDSC持久存档原型中,此类技术作为收集实例化过程的一部分进行了演示。

2.4管理数据资源的异构性

持久存档内在地由异构资源组成。随着技术的发展,软件和硬件基础设施的新旧版本将同时出现。必须管理的一个问题是访问多个存储系统上存在的数据的能力,每个存储系统可能具有不同的访问协议。此要求的一种变体是能够从可能期望数据驻留在本地磁盘文件系统上的数据库访问存档中的数据。数据处理系统提供了将档案与数据库和Web服务器互连的能力。因此,持久存档体系结构的更通用形式使用数据处理系统将每个组件连接在一起。在圣地亚哥超级计算机中心,开发了一种数据处理系统的特定实现,称为存储资源代理(SRB)[8].

SRB支持应用程序访问数据库、文件系统或存档中的数据所需的协议转换。SRB提供的统一访问API隐藏了数据存储系统的异构性。这使得可以修改体系结构的任何组件,无论是存档、数据库还是Web服务器。SRB服务器对每种类型的存储资源使用不同的驱动程序。用于访问特定数据集的驱动程序的信息保存在相关的元数据目录(MCAT)中[9-10]. MCAT系统是一个数据库,包含存储在数据存储系统中的每个数据集的信息。为SRB编写的新驱动程序可以访问存储系统的新版本。因此,即使存储技术随着时间而变化,应用程序也能够使用持久接口。

3.实施策略

可以使用可扩展的体系结构来组装基于集合的持久存档。可扩展的体系结构依赖于商用的并行硬件和软件技术。持久存档需要集成三个独立的组件:存档存储、收集管理和通过使用数据处理系统访问服务器。其结果是,可以对系统进行修改,以逐步建立在新技术的基础上。要使持久存档在此迁移环境中工作,必须以独立于信息的表示形式维护数据上下文。实例化集合的技术必须与数据处理系统一起及时向前迁移。在支持硬件和软件系统发展的同时,这些收集可以作为比特文件保存在存档中。

3.1总体架构

SDSC永久存档原型的实现基于商用软件系统的使用,并通过圣地亚哥超级计算机中心开发的应用程序级软件进行了补充。通用架构(architecture)软件组件如下所示,然后是用于原型的特定软件系统:

  • 存档存储系统-IBM高性能存储系统(HPSS)[6]
  • 数据处理系统-SDSC存储资源代理(SRB)[8]
  • 对象关系数据库-Oracle 7.3版,IBM DB2 Universal database
  • 采集管理软件-SDSC元数据目录(MCAT)[9, 10]
  • 采集实例化软件-SDSC脚本
  • 采集接收软件-SDSC脚本
  • 半结构数据模型.扩展标记语言.文档类型定义[2]
  • 关系数据模型-ANSI SQL数据定义语言[11]
  • DTD操作软件-UCSD XML匹配和结构语言(XMAS)[12]
  • Web服务器-Apache Web服务器
  • 演示系统-Web浏览器,如Internet Explorer版本5。

硬件组件包括:

  • 存档存储系统—IBM SP 8节点、32处理器并行计算机、180 TB磁带存储、三个storage Technology磁带机器人和1.6 TB RAID磁盘缓存
  • 数据管理系统-Sun Enterprise 4处理器并行计算机
  • 数据接收平台-SGI工作站
  • 网络互连-以太网、FDDI和HiPPI

这些系统都是可扩展的,可以使用并行计算技术实现。档案存储系统的效率在很大程度上取决于在存储之前使用容器来聚合数据。SDSC尝试了三种不同的机制:

  • Unix实用程序。TAR实用程序可用于聚合文件。对于100 MB的容器大小,所需的额外磁盘空间是最小的。缺点是,在访问数据集之前,必须从存档中读取容器并将其解压缩。
  • 数据库表空间。在SDSC,DB2UDB的原型版本[13]并行对象关系数据库用于支持大型数据收集。原型数据库在表空间内部存储数字对象。表空间可以存储在HPSS存档存储系统中,并根据需要检索到磁盘缓存。这有效地将数据库存储容量增加到存档的大小,同时在将数字对象存储到存档之前将其聚合到容器中。
  • 数据处理软件缓存。SDSC存储资源代理支持容器。通过SRB写入存档的数字对象被聚合到磁盘缓存上的容器中。当容器已满时,SRB将容器写入存档。引用数据时,容器从存档中检索,数据集由SRB直接从容器中读取。

3.1.1档案

该体系结构的核心是存档存储系统,因为它最终决定了持久存档的总容量、数据接收速率和数据迁移支持。高性能存储系统(HPSS)由并行计算机IBM SP支持。SDSC的HPSS目前存储超过1400万个文件,总大小为140 TB。数据移动速度已达到每天超过1 TB的数据存储。该系统每天支持16000次文件操作。HPSS系统通过高速网络通过高性能网关节点(HPGN)访问。HPGN支持多种类型的网络访问,包括100 MB/sec HiPPI网络、100 MB/sec FDDI和以太网。HPGN直接连接到SP的节点,HPSS软件系统在SP上通过Trail Blazer 3开关运行。HPSS中央控制服务在四处理器SP节点之一上运行,而从磁盘和磁带读取/写入数据的位文件移动器分布在七个SP节点上。通过HPGN将外部网络互连到SP交换机上,所有移动节点都可以并行使用,从而保持高数据吞吐量。通过将磁盘和磁带驱动器连接到每个移动器节点,数据可以与磁带并行迁移。对于10 MB左右的文件大小,从节点到HPGN的测量数据移动速率为90 MB/s。

HPSS存档包括多个备份系统,用于保存名称服务器目录,包括磁盘上目录的镜像、将目录快照备份到磁带上、对目录的所有更改进行事务日志记录,以及每天将事务日志与目录快照进行对账。为了处理灾难,关键数据集的副本保存在另一个城市的第二个HPSS存档存储系统中。备份系统的描述见[14]. 对名称服务器目录备份的关注至关重要。如果名称服务器目录丢失,则无法命名存档中存储的文件。

通过添加更多节点、磁盘和磁带驱动器,HPSS存档可扩展。最近,通过购买每个磁带盒可写入20 GB数据的磁带驱动器,该系统已升级到360 GB的未压缩数据容量。系统支持数据压缩。对于存储在SDSC中的科学数据集,平均压缩比是1.5倍,这意味着系统的总容量为500 TB。

3.1.2数据处理系统

数据处理系统提供了将异构系统连接在一起的能力。我们详细描述了SDSC数据处理系统,以说明提供位置和协议透明性所需的软件基础设施。SDSC开发的数据处理基础设施有两个组件:SDSC存储资源代理(SRB)[8]提供对异构计算环境中的分布式和多样化存储资源的联合和访问,以及元数据目录(MCAT)[9]它保存有关SRB代理的资源和数据集(以及用户)的系统和应用程序或依赖域的元数据。SRB-MCAT系统提供以下功能:

  • 用于访问异构文件系统、数据库和归档存储的统一API,
  • 访问分布式系统时的协议透明度和位置透明度,
  • 统一持久化名称空间抽象[24]通过代理的文件系统,
  • 从而支持基于与存储的文件一起存储(或从存储的文件中提取)的域和系统相关元信息的信息发现,
  • 用于跨异构系统复制、复制或移动文件的设施,在数据交付到客户端之前对其执行资源级操作(代理操作),以及
  • 一个集成的加密和身份验证系统,可以是无安全性的,也可以是完全加密和完全认证的数据传输,包括针对跨人安全入侵的安全性[15, 16].

SDSC存储资源代理(SRB)是一种中间件,它为分布式客户端提供了对异构计算环境中各种存储资源的统一访问。SDSC SRB当前版本处理的存储系统包括UNIX文件系统、UniTree、ADSM和HPSS等存档存储系统,以及由各种DBMS(包括DB2、Oracle和Illustra)管理的数据库Large Objects。目前,该系统在CRAY C90、CRAY T3E和IBM SP等超级计算机、Sun、SGI和Compaq平台等工作站以及Windows NT上运行。SRB API为客户端提供存储在SRB中的数据集的逻辑视图。与文件系统范例中的文件名类似,存储在SRB中的每个数据集都有一个逻辑名称,可以用作数据操作的句柄。与文件系统不同,文件的物理位置通过其装入点隐含在其路径名中,SRB环境中数据集的物理位置在逻辑上映射到数据集。因此,属于同一集合的数据集可能实际驻留在不同的存储系统中。客户端不需要记住数据集的物理映射。它存储为与MCAT目录中的数据集关联的元数据。SRB中的数据集被分组为一个逻辑(分层)结构,称为收藏。集合为以下内容提供了抽象:

  • 将相似的物品(可能是物理分布的)放在一个收藏下(例如,博物馆的图像收藏),以及
  • 将所有具有公共连接的不同对象放在一个抽象下(例如,文档的所有文本段落、图像、图形和表格)。

SRB以两种方式支持数据复制。可以在对象创建或修改期间复制对象。为了实现这一点,SRB和MCAT允许创建逻辑存储资源(LSR)是两个或多个资源的组合。当应用程序创建数据集或将数据集写入这些逻辑资源时,将对每个分组的资源执行操作。使用LSR的结果是,在属于逻辑资源的每个物理资源中创建数据的副本。可以指定写入操作成功,如果k个n个创建副本。用户可以通过使用“全部写入”写入数据集来修改数据的所有副本。SRB提供离线复制工具来复制现有数据集。此操作也可用于同步目的。当访问复制对象时,SRB将打开MCAT列表中给定的对象的第一个可用副本。SRB还提供身份验证和加密设施[15, 16]、访问控制列表和基于票证的访问[17]以及审计功能,以提供一个功能丰富的环境,用于在用户和用户组之间共享分布式数据集合。

SRB服务器的设计基于传统的网络连接客户机/服务器模型,但具有额外的联邦功能。一旦建立并验证了来自客户端的连接,就会创建一个SRB代理,代理该连接的所有操作。一个客户端应用程序可以与一个SRB服务器和所需的任意多个服务器建立多个连接。SRB联合意味着客户端在访问由另一服务器代理的资源时连接到任何SRB服务器。-SRB间通信协议支持联合操作。SRB与MCAT通信以获取有关数据集的元信息,然后使用该元信息访问数据集。

3.1.3收款管理

关系数据库的特征化需要对属性的逻辑组织(模式)进行描述,也需要对表中属性的物理组织进行描述。对于持久存档原型,我们使用XMLDTD来描述逻辑组织。关系数据库的物理组织使用数据定义语言DDL表示[11]. 模式和物理组织的组合可用于定义如何跨用于保存元数据属性的多个表分解查询。可以在DTD半结构化表示和集合的DDL关系表示之间生成任意映射。如果使用关系数据库组装集合,则必须定义两个表示之间的首选对应关系。基于XML的数据库变得可用,不再需要描述物理布局。例如Excelon[18](ObjectStore的XML变体)和Ariel[19](O2的XML版本)。通过使用基于XML的数据库,可以避免在数据库属性的半结构化组织和关系组织之间进行映射。这将最小化描述集合所需的信息量,并使数据库的重新创建更容易。

本文详细描述了SDSC MCAT系统,以说明描述和管理采集级元数据所需的信息管理软件的复杂性。SDSC MCAT是一个关系数据库目录,提供有关数字对象的元信息库。数字对象属性在MCAT中分为两类信息:

  • 提供操作信息的系统级元数据。其中包括有关资源(例如,存档系统、数据库系统等,及其功能、协议等)和数据对象(例如,其格式或类型、复制信息、位置、收集信息等)的信息。
  • 提供特定数据集及其集合的特定信息的应用程序相关元数据(例如,都柏林核心[20, 21]文本对象的值)。

这两种类型的元数据都是可扩展的,即可以添加和/或删除属性。在内部,MCAT保留有关定义的所有属性的模式级元数据。模式级别的属性用于定义集合的上下文,并允许在新技术上实例化集合。这些属性包括以下定义:

  • 逻辑结构:当一组元数据注册到MCAT时,需要确定一个逻辑结构,其中将组织其余的元数据。逻辑结构不应与数据库模式混淆,并且更通用。例如,我们实现了Dublin Core数据库模式[20]组织数字化文本的属性。与都柏林核心模式相关联的逻辑结构中定义的属性包含显示模式所需的主题、约束和表示格式的信息,以及有关其使用和所有权的信息。
  • 属性簇:属性簇是一组逻辑上相互连接的属性名,它们之间有一对一的映射。可以将它们视为数据库上下文中的一个(单个或一组)规范化表。例如,在Dublin Core中,发布者、姓名、地址和联系信息形成了一个集群。贡献者名称和贡献者类型构成第二个集群;标题及其类型构成了另一个集群,依此类推。类似地,在我们的系统级MCAT核心元数据中,对于每个包含数据对象的类型、位置和大小的数据副本,我们都有一个集群。这有助于跨元数据表实现关系联接,因为每个副本对这些属性只有一个值,而这些属性提供了对象的物理特征。对于每个集群,MCAT保存有关使用属性时可以搜索的任何约束和注释的信息,以及有关集群的使用权限和授予使用权限的信息。对于每个属性,MCAT保存了20多种不同类型的信息,包括其物理、逻辑和输入输出特性[9].
  • 令牌属性:令牌属性具有特定的功能(与其他属性相比);它们捕获了关于话语领域的一些简单语义信息。还可以使用标记属性来捕获学科领域之间的语义翻译(例如,通用名称与科学名称),并捕获话语领域中的层次关系和等价关系。考虑到在一个规程中开发语义标准,可以使用标记属性作为两个模式之间的桥梁,并提供语义互操作性。
  • 链接:链接提供了一种在模式内部和模式之间进行互操作的方法。可以定义四种类型的链接:

    1.属性对属性,
    2.集群到属性,
    3.集群对集群,以及
    4.集群到令牌。

    每个链接可以是一对多、多对一或多对多。链接信息用于根据用户选择的属性集动态生成联接。连接算法使用Steiner树从有向非循环图生成SQL命令;DAG是集群及其之间联系的映射。链接信息用于跨模式执行联合查询操作。DAG还用于通过禁止跨越不相交图的查询来确定允许查询的概念。

MCAT提供了用于创建、修改和删除上述结构的API。MCAT为Web服务器等应用程序提供接口协议。该协议使用一种数据结构进行信息交换,称为MAPS——元数据属性表示结构。该数据结构还具有用于通信的线格式和用于计算的数据格式,提供了用于通信元数据信息的可扩展模型。正在开发映射,以将MAPS结构转换为Z39.50格式[22]. 在MCAT内部,存储元数据的模式(可能)与MAPS不同,因此,MCAT的每种实现都需要内部格式与MAPS之间的映射。注意,可以将元数据存储在数据库、平面文件或LDAP目录中[23]. MAPS为MCAT服务器和用户应用程序之间的通信提供了统一的结构。

MAPS结构定义了查询格式、更新格式和应答格式。MCAT使用MAPS查询格式根据上述模式、集群和链接生成跨属性的联接。根据内部目录类型(例如,DB2数据库、Oracle数据库或LDAP),将生成一个较低级别的目标查询。此外,如果查询跨越多个数据库资源,则会生成分布式查询计划。

MCAT系统支持发布与数据集合关联的模式,通过添加或删除新属性进行模式扩展,以及动态生成与跨属性组合的联接相对应的SQL。已经创建了GUI,允许用户通过选择所需的属性来指定查询。然后,MCAT系统动态构造处理查询所需的SQL。通过添加例程来访问归档中的模式级元数据,可以构建基于集合的持久归档。随着技术的发展和软件基础设施的替换,MCAT系统可以支持集合迁移到新技术。实际上,集合完全由存储在存档中的数字对象集、包含数字对象元数据的架构和允许从头开始实例化集合的架构级元数据表示。

待续:

本文的第一部分集中描述了持久性问题,以及用于管理媒体和上下文迁移的可伸缩技术的一般描述。本文的第二部分将描述创建一百万条消息的持久电子邮件集合。它将讨论持久存档系统的四个主要组件:支持接收、存档存储、信息发现和收藏展示。支持这些过程的技术仍在迅速发展,并确定了进一步研究的机会。

工具书类

[1] Rajasekar,A.、Marciano,R.、Moore,R.,“基于收集的持久性档案”,《第16届会议论文集》第个IEEE大容量存储系统研讨会,1999年3月。

[2] 可扩展标记语言<http://www.w3.org/XML>

[3] XSchema-将XML DTD表示为XML文档<http://www.simonstl.com/xschema/>

[4] XMI-XML元数据交换<http://www.omg.org/cgi-bin/doc?ad/99-10-02>

[5] XSL-可扩展样式表语言,W3C工作草案,2000年3月<http://www.w3.org/TR/xsl/>

[6] 高性能存储系统(HPSS)<http://www.sdsc.edu/hpss网站/>.

[7] 交易处理委员会<http://www.tpc.org/results/tpc_d.results.page.html>

[8] Baru C.、Moore R.、Rajasekar A.和Wan M.,“SDSC存储资源代理”CASCON 98会议记录1998年11月30日至12月3日,加拿大多伦多。

[9] Baru C.、Frost R.、Marciano R.、Moore R.、Rajasekar A.和Wan M.,“支持基于信息的计算环境的元数据”IEEE元数据会议记录,Silver Spring,MD,1997年9月。

[10] MCAT-元信息目录(V1.1),技术报告:<http://www.npaci.edu/DICE/SRB/mcat.html>

[11] 数据定义语言标准化语法,ANSI X3.135-1992(R1998)

[12] Baru C.、Gupta,A.、Ludascher,B.、Marciano,R.、Papakonstantinou,Y.、Velikhov,P.和Chu,V.,“基于XML的MIX信息调解”,《SIGMOD诉讼》,费城,1999年。

[13] DB2/HPSS集成项目<http://www.sdsc.edu/MDAS网站>.

[14] Moore,R.,Lopez,J.,Lofton,C.,Schroeder,W.,Kremenek,G.,Gleicher,M.,《配置和调优存档存储系统》,《16世纪会议录》第个IEEE大容量存储系统研讨会,1999年3月。

[15] Schroeder W.,“SDSC加密/认证(SEA)系统”,分布式对象计算测试床(DOCT)项目白皮书<http://www.sdsc.edu/~施罗德/sea.html>.

[16] Schroeder W.,“SDSC加密和认证(SEA)系统”,将在《并发性:无缝计算的实践和经验》特刊上发表,John Wiley&Sons Ltd。

[17] Baru C.和Rajasekar,A.,“数字图书馆的分级访问控制方案”第三届ACM数字图书馆会议记录1998年6月23日至25日,宾夕法尼亚州匹兹堡。

[18] Excelon XML数据库<http://www.odi.com/excelon/main.htm>

[19] Eric N.Hanson,“Ariel主动数据库规则系统的设计与实现”,IEEE知识与数据工程汇刊,第8卷,第1期,1996年2月

[20] 都柏林核心区<http://purl.oclc.org/dc/>.

[21]华威框架,卡尔·拉戈兹,D-Lib杂志1996年7月/8月<http://www.dlib.org/dlib/july96/lagoze/07lagoze.html>

[22]Tomer,C.,“图书馆信息技术标准”美国信息科学学会杂志. 43: 566-570, 1992.

[23]Netscape实施的轻型目录访问协议(LDAP)<http://www.umich.edu/~dirsvcs/ldap/>

[24]持久的名称空间抽象,Handle System<http://www.handle.net网站>.

版权所有©里根·摩尔、柴坦·巴鲁、阿科特·拉贾塞卡尔、伯特伦·卢达舍尔、理查德·马西亚诺、迈克尔·万、韦恩·施罗德和阿玛娜斯·古普塔
<img src= 线路
顶部 | 目录
搜索 | 作者索引 | 标题索引 | 每月问题
上一个故事 | 下一个故事
主页| 向编辑发送电子邮件
垫片 线路
垫片

D-Lib杂志访问条款和条件

内政部:2000年3月10日-10时05分-门-pt1