BASE OAI接口

介绍

本文档描述了OAI-PMH公司的接口Bielefeld学术搜索引擎(BASE).BASE是OAI搜索服务目前包括全球3000多个文档服务器的内容。

PDF下载

下载可打印的文档PDF文档.

它是为了什么?

此API特别适合希望获得子集基本数据。例如,它可以由主题门户整合特定主题将元数据从BASE发布到其索引中。

选择

  • 如果您想嵌入搜索结果直接从基础架构中的BASE,请考虑使用基本搜索API而不是。
  • 如果您需要完全卸载请提供您的非商业项目的BASE数据联系我们对于首字母负载。

如何获得访问权限

对BASE OAI-PMH接口的访问受IP限制。非商业项目可通过以下方式申请访问通过联系我们这个表格。请指定您的用例和需要访问API的IP或IP范围。您将收到一封电子邮件通知一旦你的IP被激活。

OAI端点的URL

此API的OAI终结点位于http://oai.base-search.net/oai.

注释

如果您的IP尚未注册(参见上文),您将面临一个带有错误代码的自定义OAI错误受限接口尝试访问基URL时。

OAI-PMH底漆

API实现元数据收集开放档案协议(OAI-PMH).本节仅给出OAI-PMH的基本概述。有关更多信息,请参阅协议规范。

OAI-PMH重要概念词汇表

存储库
A类储存库是一个通过OAI-PMH公开元数据的服务器端应用程序。在该API的上下文中,存储库是BASE搜索引擎。
收割机
OAI-PMH客户端应用程序称为收割机.
记录
A类记录是用于单个发布项元数据的XML编码容器。它由一个收割台和a元数据第节。
收割台
记录收割台包含唯一标识符和日期戳。
元数据
记录元数据在定义的元数据格式。
设置
用于分组记录以进行选择性收获的结构。
收获
收割机从存储库中请求记录的过程。

OAI动词

OAI-PMH具有六个主要API方法(所谓的“OAI动词”),可以由收割机。一些动词可以与其他参数组合:

确定
返回有关存储库的信息。参数:无。
获取记录

返回单个记录。论据:

  • 标识符(记录的唯一标识符,必修的)
  • 元数据前缀(识别元数据格式的前缀,必修的)
列表记录

批量返回存储库中的记录(可能由时间戳或设置).论据:

  • 元数据前缀(识别元数据格式的前缀,必修的)
  • (记录的最早时间戳,可选择的)
  • 直到(记录的最新时间戳,可选择的)
  • 设置(一套用于选择性收获,可选择的)
  • 恢复令牌(用于在上一个请求返回的记录数超过存储库的最大批大小时获取下一个结果批,排他性的)
列表标识符
喜欢 ListRecords列表记录 但只返回记录头。
列表集
返回此存储库支持的集合列表。参数:无
列表元数据格式
返回此存储库支持的元数据格式列表。参数:无

收获记录

在OAI术语中,收获指元数据记录的连续聚合来自存储库。这是通过签发首字母ListRecords列表记录请求后接如果与初始请求匹配的记录数超过,则可能会请求恢复存储库的最大响应批大小。在后一种情况下,存储库通过XML元素恢复令牌位于响应的底部。此元素的内容必须在随后的请求中提供。

初始请求的有效示例如下:

http://oai.base-search.net/oai?动词=ListRecords&metadataPrefix=oai_dc

注释

争论元数据前缀指定记录传播的元数据格式是必需的。

鉴于上述要求恢复令牌将是:

<恢复令牌 完整列表大小="41398100" 光标="0">fm9haV9kY34yMDB-fg==</resumeptionToken>

要获取下一批记录,客户端需要发出以下命令请求:

http://oai.base-search.net/oai?verb=ListRecords&resumeptionToken=fm9haV9kY34yMDB-前景==

注释

这个恢复令牌参数是排他性的。随附的其他参数最初的请求如下元数据前缀设置因此不能包含在恢复请求。还要注意恢复令牌XML元素具有两个属性完成列表大小指与请求匹配的记录总数,以及光标指迄今为止返回的记录数。强烈鼓励客户跟踪这些信息,并将其包含在有关接口的问题报告中。

元数据格式

目前,该API支持两种元数据格式:OAI-DC(Dublin Core,元数据前缀oai_dc)和BASE-DC(OAI-DC扩展了自定义字段、元数据前缀基本_ dc).未来可能会有更多的格式。

oai_dc

这个oai_dcformat公开编码为的元数据都柏林核心元数据集.下面的列表显示了编码为oai_dc:

<记录>
  <标题>
    <标识符>ftubbiepub:oai:酒吧。uni bielefeld。邮编:1680979</identifier>
    <日期戳>2016年2月21日下午3:44:21Z</datestamp>
  </标题>
  <元数据>
    <oai_dc:dc xmlns:dc="http://purl.org/dc/elements/1.1/"
               xmlns:oai_dc="http://www.openarchives.org/OAI/2.0/OAI_dc/"
               xsi:schema位置="http://www.openarchives.org/OAI/2.0/OAI_dc/
http://www.openarchives.org/OAI/2.0/OAI_dc.xsd">
      <dc:title>Bielefeld学术搜索引擎(BASE)面向最终用户机构知识库搜索服务</dc:title>
      <dc:创建者>德克·皮埃尔</dc:创建者>
      <dc:创建者>弗里德里希·萨曼</dc:创建者>
      <dc:描述>目的——本文的目的是…</dc:description>
      <dc:source>Pieper D,Summann F.:比勒菲尔德学术搜索引擎(BASE)。面向最终用户的机构存储库搜索服务。图书馆高新技术2006;24(4):614–619.</dc:source>
      <dc:source>ftubbiepub公司</dc:source>
      <dc:language>发动机</dc:language>语言
      <dc:日期>2006</dc:date>
      <dc:identifier>(直流:标识符)https://pub.uni-bielefeld.de/publication/1680979</dc:identifier>
      <dc:identifier>https://pub.uni-bielefeld.de/download/1680979/2535619</dc:identifier>
      <dc:关系>信息:eu-repo/stemantics/altIdentifier/doi/10.1108/07378830610715473</dc:关系>
      <dc:关系>信息:eu-repo/stemantics/altIdentifier/issn/0737-8831</dc:关系>
      <dc:关系>信息:eu-repo/stemantics/altIdentifier/wos/000242893300014</dc:关系>
      <dc:主题>Bielefeld学术搜索引擎</dc:subject>
      <dc:主题>发送至:020</dc:subject>
      <dc:类型>信息:欧盟回购/语义/文章</dc:type>
      <dc:类型>doc-type:文章</dc:type>
      <dc:类型>文本</dc:type>
      <dc:类型>121</dc:type>
      <dc:权限>信息:eu-repo/stemantics/openAccess</dc:rights>
    </oai_dc:dc>
  </元数据>
</记录>

基本_ dc

这个基本_ dcformat扩展了Dublin Core格式,添加了包含BASE添加或规范化的信息。这些元素列于下表。

命名空间:
http://oai.base-search.net/base_dc/
XML架构:
http://oai.base-search.net/base_dc/base_dc.xsd
的其他XML元素基本_ dc
元素 值格式 描述
作者id 包含2个XML元素: <创建者姓名><创建人id>
自动分类码 1-3位杜威数 自动分配的杜威编号。
类代码 1-3位杜威数 手动分配杜威编号。
收集 BASE集合名称 原始存储库的内部标识符。可以包含XML属性打开doar_id和/或错误id.
同事 完整集合名称 原始存储库的全名。
大陆 3位代码(见下文) 起源大陆(储存库)。
国家 ISO 3166国家代码 来源国(储存库)。
创建人id URI(URI) ORCID iD写为URL
创建人名称 字符串 重复中也给出的名称<创建者>
国防部 URI(URI) 本文件的DOI(数字对象标识符)
全局id 自由文本(UTF-8格式) 的副本标识符从记录标题
ISO 639-2/B语言代码 由BASE规范化的三个字母的文档语言代码,或未知的.
链接 URI(URI) 指向存储库初始页面的标准链接。
办公自动化 1位代码 开放访问状态(0=非开放访问,1=开放存取,2=未知)
右鼾 控制列表见下文 BASE规范的许可信息。
类型规范 字母数字代码 字母数字编码的规范化文档类型。
4位数年份 标准化出版年份。

下面是上一节中编码的示例记录基本_ dc(省略号[…]表示缩写,以便于阅读):

<记录>
  <标题>
    <标识符>ftubbiepub:oai:pub.uni-bielefeld.de:1680979</identifier>
    <日期戳>2023-05-11T20:06:51Z</datestamp>
  </标题>
  <元数据>
    <base_dc:dc xmlns:base_dc="http://oai.base-search.net/base_dc/"
                xmlns:直流="http://purl.org/dc/elements/1.1/"
                xsi:schema位置="http://oai.base-search.net/base_dc/
http://oai.base-search.net/base_dc/base_dc.xsd">
      <dc:title>Bielefeld学术搜索引擎(BASE)面向最终用户机构知识库搜索服务</dc:title>
      <dc:创建者>德克·皮埃尔</dc:创建者>
      <dc:创建者>弗里德里希·萨曼</dc:创建者>
      <base_dc:author_id>
        <base_dc:creator名称>德克·皮埃尔</base_dc:creator名称>
        <base_dc:creator_id>https://orcid.org/0000-0002-6083-9348</base_dc:creator_id>
      </base_dc:author_id>
      <base_dc:author_id>
        <base_dc:creator名称>弗里德里希·萨曼</base_dc:creator名称>
        <base_dc:creator_id>https://orcid.org/0000-0002-6297-3348</base_dc:creator_id>
      </base_dc:author_id>
      <dc:description>目的——本文的目的是…</dc:description>
      <dc:language>发动机</dc:language>语言
      <dc:日期>2006</dc:date>
      <dc:identifier>(直流:标识符)https://nbn-resolution.org/urn:nbn:de:0070-出版社-16809798</dc:identifier>
      <dc:identifier>https://pub.uni-bielefeld.de/record/1680979</dc:identifier>
      <dc:identifier>https://pub.uni-bielefeld.de/download/1680979/2535619</dc:identifier>
      <base_dc:doi>https://doi.org/10.1108/07378830610715473</base_dc:doi>
      <dc:关系>信息:eu-repo/stemantics/altIdentifier/doi/10.1108/07378830610715473</dc:关系>
      <dc:关系>信息:eu-repo/stemantics/altIdentifier/issn/0737-8831</dc:关系>
      <dc:关系>信息:eu-repo/stemantics/altIdentifier/wos/000242893300014</dc:关系>
      <dc:关系>https://nbn-resolution.org/urn:nbn:de:0070-出版社-16809798</dc:关系>
      <dc:关系>https://pub.uni-bielefeld.de/record/1680979</dc:关系>
      <dc:关系>https://pub.uni-bielefeld.de/download/1680979/2535619</dc:关系>
      <dc:主题>Bielefeld学术搜索引擎</dc:subject>
      <dc:主题>发送至:020</dc:subject>
      <dc:publisher>翡翠色</dc:publisher>
      <dc:类型>http://purl.org/coar/resource_type/c_6501</dc:type>
      <dc:类型>信息:eu-repo/stemantics/article</dc:type>
      <dc:类型>doc-type:文章</dc:type>
      <dc:类型>文本</dc:type>
      <dc:权限>信息:eu-repo/stemantics/openAccess;https://rightsstatements.org/vocab/InC/1.0/</dc:rights>
      <base_dc:类代码 类型=“ddc”>020</base_dc:classcode>
      <base_dc:集合
        打开doar_id="2294" 错误id=“02hpadn98”>ftubbiepub公司</base_dc:collection>
      <base_dc:collname>PUB-比勒费尔德大学出版…</base_dc:collname>
      <base_dc:大陆>行政长官</base_dc:大陆>
      <base_dc:国家>判定元件</base_dc:国家>
      <base_dc:global_id>ftubbiepub:oai:酒吧。uni bielefeld。邮编:1680979</base_dc:global_id>
      <base_dc:lang>发动机</base_dc:lang>
      <base_dc:link>https://nbn-resolution.org/urn:nbn:de:0070-出版社-16809798</base_dc:link>
      <基本目录:oa>1</base_dc:oa>
      <base_dc:typenorm>121</base_dc:typenorm>
      <base_dc:year>2006</base_dc:year>
    </base_dc:dc>
  </metadata>
</记录>

记录标题

标识符

记录头中的唯一标识符由OAI标识符组成由原始存储库分配,前缀为内部BASE存储库标识符。例如,在下面的示例标识符中

ftubbiepub:oai:pub.uni-bielefeld.de:2083906

原始标识符为oai:pub.uni-bielefeld.de:2083906前缀ftubbiepub公司:是BASE对Bielefeld仓库的内部名称大学,“PUB”。

日期戳

这个日期戳记录头中的元素包含收获日期进入BASE。

删除的记录

此OAI-PMH接口跟踪删除的记录。

日期范围

OAI-PMH允许通过直到参数。在BASE OAI-PMH API中,这些日期的语义是这个收获期,即从中提取内容时将原始存储库添加到BASE基础结构中。例如,获取5月至6月BASE中包含的所有内容2012年,您可以使用:

http://oai.base-search.net/oai?verb=ListRecords&metadataPrefix=oai_dc&from=2012-05-01及之前=2012-06-30

如果要筛选出版日期相反,请使用日期字段(见下文)。

动态集合

传统上,OAI-PMH通过使用套。然而,该协议不支持多个套。为了克服OAI集的这种静态特性,此API使用动态集合(灵感来自DataCite的OAI接口).

这意味着您可以使用Solr查询语法指定集合字段:值.

例如,如果您想从中筛选手动分类的记录来自德国的经济学领域,您可以使用以下集合:

http://oai.base-search.net/oai?verb=ListRecords&metadataPrefix=oai_dc&set=classcode:33*+国家:de

支持的字段将在下一节中记录。

索引字段和规范字段

BASE在标准化(通常是异源使用的)方面付出了相当大的努力都柏林核心油田从原始仓库中开采。本节提供了一个可查询字段、其内容和(如果适用)其规范化的概述。如前一节所述,可以使用动态集查询字段。

索引字段概述

可查询字段。
字段 值格式 描述
自动分类码 1-3位杜威数 自动分配的杜威编号。
类代码 1-3位杜威数 手动分配杜威编号。
收集 BASE集合名称 原始存储库。
大陆 3位代码(见下文) 起源大陆(储存库)。
出资人 自由文本(UTF-8格式) 出版物投稿人
国家 ISO 3166国家代码 来源国(储存库)。
创造者 自由文本(UTF-8格式) 出版物的作者。
日期 自由文本(UTF-8格式) 发布日期。
充满露水的 1-3位杜威数 手动+自动分配杜威编号。
描述 自由文本(UTF-8格式) 摘要。
格式 自由文本(UTF-8格式) 文档格式(例如MIME)。
标识符 自由文本(UTF-8格式) 文档标识符(例如URI)。
ISO 639-2/B语言代码 文件语言为BASE标准化的3字母代码,或“未知”。
语言 自由文本(UTF-8格式) 文档语言与原始存储库中的语言相同。
链接 URI(URI) 指向存储库初始页面的标准链接。
办公自动化 1位代码 开放访问状态(1=“开放访问”,2=“未知”)
自由文本(UTF-8格式) 作者+贡献者。
右鼾 受控列表见下文 BASE规范的许可证信息。
主题 自由文本(UTF-8格式) 主题标题。
标题 自由文本(UTF-8格式) 文档标题。
类型规范 字母数字代码 字母数字编码的规范化文档类型。
4位数年份 标准出版年份。

文档类型

由于文档类型的分类跨存储库非常异构,BASE通过将类型映射到由数字代码。下表列出了可以查询的规范化文档类型通过使用字段类型规范.

规范化文档类型的数字代码。
文件类型 数字代码
文本 1
11
书籍部分 111
期刊/报纸 12
期刊/报纸上的文章 121
期刊/报纸的其他非文章部分 122
会议对象 13
报告 14
回顾 15
课程材料 16
演讲 17
论文 18
学士学位论文 181
硕士论文 182
博士或博士后论文 183
手稿 19
专利 第1页
音乐符号 2
地图 3
音频 4
图像或视频 5
静止图像 51
运动图像(视频) 52
软件 6
数据集 7
其他/未知材料 F类

查询示例:

书籍筛选:

http://oai.base-search.net/oai?verb=ListRecords&metadataPrefix=base_dc&set=typenorm:11

在中编码基本_ dc格式:

<base_dc:typenorm>11</base_dc:typenorm>

大陆和国家

BASE通过存储大陆和国家来跟踪其内容的来源原始存储库的。国家使用ISO 3166国家代码进行编码。大陆的编码如下表所示:

大陆代码。
欧洲大陆 代码
非洲 咖啡馆
澳大利亚 中国科学院
澳大利亚/大洋洲 核心小组
欧洲 行政长官
北美 中国核协会
南美洲 csa公司
没有地理关系的Web服务器(组织) 连续波

国家示例查询:

筛选来自德国的文档:

http://oai.base-search.net/oai?动词=ListRecords&metadataPrefix=base_dc&set=country:de

在中编码基本_ dc格式:

<base_dc:国家>判定元件</base_dc:国家>

大陆示例查询:

筛选来自北美的文档:

http://oai.base-search.net/oai?动词=ListRecords&metadataPrefix=base_dc&set=continenta:cna

在中编码基本_ dc格式:

<base_dc:大陆>中国核协会</base_dc:大陆>

主题分类

BASE索引支持杜威十进分类法(DDC)用于主题分类。任务杜威分类到文献的建立有两种方式:

  1. 手动获取使用DDC的存储库中的内容。
  2. 自动地通过基于机器学习的文档分类。

根据它们的来源,杜威数字要么存储在字段中类代码(对于手动分配的号码)或自动分类码(用于自动分配的号码)。现场充满露水的可用于手动和自动查询机密文件。

查询示例:

数学文档过滤器(手动和自动分类):

http://oai.base-search.net/oai?动词=ListRecords&metadataPrefix=base_dc&set=deweyfull:51*

手动分类数学文档的筛选器:

http://oai.base-search.net/oai?verb=ListRecords&metadataPrefix=base_dc&set=classcode:51*

自动分类数学文档的筛选器:

http://oai.base-search.net/oai?verb=ListRecords&metadataPrefix=base_dc&set=autoclasscode:51*

在中编码基本_ dc格式:

<base_dc:类代码 类型=“ddc”>510</base_dc:classcode>

相反,如果类是自动分配的,则它看起来是这样的:

<base_dc:自动分类代码 类型=“ddc”>510</base_dc:autoclasscode>

开放访问状态

BASE将此信息可用的全文文档的开放存取状态编入索引。状态以数字编码存储在字段中办公自动化.

开放存取的编码
状态代码 描述
0 非开放访问
1 开放式访问
2 未知

查询示例:

Open Access文档筛选器:

http://oai.base-search.net/oai?verb=ListRecords&metadataPrefix=base_dc&set=oa:1

在中编码基本_ dc格式:

<基本目录:oa>1</base_dc:oa>

许可信息

各种各样的价值观dc:权限字段可以是在野外遇到的。BASE将其可以识别的值映射到以下许可证代码列表。未尝试识别版本号。

许可信息的编码
Rightsnorm代码 描述
CC-BY-NC-ND公司 知识共享署名-非商业性-非衍生产品
CC-BY-NC-SA公司 创意共享署名-非商业共享
CC-BY-SA公司 知识共享属性-共享
CC-BY-ND型 创意共享署名-非衍生产品
CC-BY-NC公司 创意共享署名-非商业
行人 知识共享属性
CC0公司 公共领域专用
产品数据管理 公共域标记

查询示例:

知识共享归因(CC-BY)许可文档过滤器:

http://oai.base-search.net/oai?动词=ListRecords&metadataPrefix=base_dc&set=rightsnorm:CC-由

在中编码基本_ dc格式:

<base_dc:rightsnorm>行人</base_dc:rightsnorm>