Bookshelf

Marilu Hoeppner; Martin Latterner; Karanjit Siyan

NCBI书架。美国国立卫生研究院国家医学图书馆的一项服务。

NCBI手册[互联网]。第二版。贝塞斯达（医学博士）：美国国家生物技术信息中心；2013-.

本出版物仅供历史参考，信息可能已过时。

本出版物仅供历史参考，信息可能已过时。

NCBI手册[互联网]。第二版。

显示详细信息

<上一个下一步>

书架

玛丽卢·霍普纳,马丁·拉特纳、和Karanjit Siyan公司.

作者信息和附属机构

创建：2013年3月18日; 上次更新时间：2013年11月4日.

预计阅读时间：11分钟

范围

书架是一个生物医学文献宝库，无论你是在准备大学生物测试，研究健康趋势，还是在研究基因突变的分子基础。书架(http://www.ncbi.nlm.nih.gov/books网站/)是一个在线资源，提供免费访问生命科学和卫生保健方面书籍和文件的全文，由国家生物技术信息中心建立和维护(美国国立生物技术信息中心)在国家医学图书馆内(国家土地管理局) (1). 书架包括生命科学和卫生保健方面的书籍、报告、文档和数据库。

书架数据标记在XML格式在中美国国立生物技术信息中心书DTD公司（文档类型定义），它是根据NLM期刊文章DTD.书籍内容遵循与期刊文章类似的处理路径；以类似于中期刊文章的格式标记图书数据项目管理咨询公司（PubMed Central）使Bookshelf能够使用现有的PMC基础设施和工作流来处理书籍内容。

书架旨在通过收集、交流和传播生命科学和卫生保健方面的书籍和相关文件，进一步推动科学发展和改善卫生保健。作为文学资源美国国立生物技术信息中心Bookshelf为基因组和分子数据库（如Gene和PubChem）中的事实信息提供注释，并促进这些信息的发现。

历史

书架始于1999年，只有一本书细胞分子生物学，Alberts等人(2). 书架上最早的几本书是大学课本。在Bookshelf的早期，PubMed摘要中的术语与书籍联系在一起，这些书籍作为这些术语的百科全书式参考。随着卫生服务/技术评估文本（HSTAT）收集到Bookshelf在2004年，大量健康报告被添加到Bookself。如今，书架上有1700多个书目（请参阅图1).

图1。

每个财政年度（10月至9月）书架中增加的书目数量和累计增长。2010年的峰值代表着HSTAT系列的重组。

收集和内容

该作品集涵盖了广泛的生物医学领域，包括多种多样的作品。它们包括书籍、报告、文献数据库和文档，从基本的本科生教科书到生命科学和医疗保健方面的专业出版物。根据三个标准为集合选择标题：(1)范围，定义如下国家土地管理局的系列开发指南; (2)内容的科学性和编辑性；和(三)技术考虑因素，例如提交文件的质量。一些作品属于公共领域，而另一些则是版权所有者授予的受版权保护的作品美国国立生物技术信息中心分销权。为集合选择内容后，参与者将签署协议。请参见作者和出版商信息有关选择过程、如何申请和查看协议的详细信息。

书架为寻求生物医学信息的用户提供服务；他们包括大学生和研究生、科学家、医疗专业人员和患者。内容的免费可用性确保了可能无法访问此数据的用户可以访问信息。内容提供商同意免费提供内容；他们包括来自大学、出版社、美国和国际政府机构以及卫生部门组织的作者、编辑、出版商和管理人员。当出版商和内容提供商的内容广泛传播给公众、医疗保健专业人员以及将成为下一代生物医学研究人员、临床医生和教师的学生群体时，他们也会从中受益。

一些内容提供商也同意参与开放存取子集。对于Open Access子集中的内容，XML格式，图像和补充文件是共享的，允许重新分配和重用内容。

数据模型

格式和结构

在项目早期，Bookshelf使用了DTD公司基于ISO 12083文章DTD在XML格式格式。随着项目的增长，添加了更多的数据，必须修改标记集，从而使数据管理和呈现变得复杂NCBI图书DTD，按照与期刊文章标签套件（JATS）的DTD，并使用许多相同的模块。书架XML数据目前在NCBI Book DTD v2.3中进行了标记。书籍章节和期刊文章之间以及它们的共享标签集之间的相似性，使Bookshelf能够利用强大的PMC架构框架以及现有的PMC工作流和工具来处理数据。NCBI图书DTD的背景JATS公司已经详细讨论过了(三).

提交、XML转换和存储

在中对内容进行语义标记XML格式是Bookshelf最复杂、成本最高的操作之一。为了能够持续维护图书数据语料库，并使Bookshelf持续增长，有必要通过精简提交格式的数量来平衡出版商的需求和Bookshell的资源。为此，Bookshelf最近转向了对语义标记的XML数据提交的要求，这允许部分或完全自动化数据处理。XML数据在美国国立生物技术信息中心书DTD公司或在备用DTD（例如DocBook）中。当提交使用备用DTD时，Bookshelf使用XSLT转换器将XML转换为NCBI Book DTD格式。对于以NCBI Book DTD XML格式提交数据，标记准则已制定，并基于PMC的类似标签指南。这些指南旨在通过标记样本指导正确的标记实践，以减少标记数据元素的可变性，并促进数据交换。

需要经常更新的Bookshelf项目的子集是在一个专门的Microsoft Word模板中编写的，该模板利用样式在语义上标记文档元素，如标题、作者列表等。文档被转换为XML格式使用内部美国国立生物技术信息中心使用eXtyles产品（Inera，Inc.）进行引用处理的Word Converter工具。文档在Microsoft Word中更新，并使用Word转换器重新处理。涉及印刷出版物的遗留项目提交于PDF格式格式，并由第三方供应商转换为NCBI BookDTD公司XML。文件传输协议是数据提交的主要门户。

对于大多数书籍（>99.5%），XML格式、图像、源文件（例如，出版商提供的PDF、Word）和补充文件存储在内容管理系统中(CMS公司)为Bookshelf项目内部构建。CMS是美国国立生物技术信息中心书DTD公司通过多个工作流和用于摄取和后续处理图书数据的暂存区域接收的XML数据。CMS中存储的所有XML内容都是以主XML文档的形式出现的，该文档描述了图书的元数据和各个图书部分元素，如章节和附录。为了方便编辑本书，单独的书籍章节和附录位于单独的XML文件中。书的支持数据文件，如图形图像、PDF、补充文件以及原始源文件也存储在CMS中。在CMS中，会检查书籍数据是否符合DTD、是否符合内部样式检查器（除了XML验证之外，还会运行其他检查以确保数据质量）以及是否有其他完整性检查以确保与书籍相关的所有文件可用（请参阅下文“执行质量保证”）。

用户可以选择并单独运行不同的操作，如验证、样式检查、完整性检查和加载到PMC。但是，这些操作也可以定义为工作流，工作流可以作为交互式或批处理流程运行，以确保操作按照工作流中指定的预期顺序执行。工作流描述为XML格式文档。工作流的元素是使用W3C模式描述的，包括CMS公司操作以及条件和分支逻辑来执行下一步，这取决于前面步骤的成功。使用XML定义工作流使用户可以灵活地创建自定义工作流，并根据未来需求的变化进行修改。

这个CMS公司设置为使得处理内容处理的大多数操作可以从CMS完成或启动。例如XML格式可以通过从CMS中选择文件并运行Oxygen XML Editor（SyncRO Soft SRL）并将结果保存回CMS来编辑该文件。不需要在CMS外部复制文件并单独编辑，然后将编辑后的文件上传到CMS。另一个示例是使用Microsoft Word模板（如上）编写内容。CMS中有一个单独的区域用于存储用MS Word编写的书籍章节。通过从CMS启动转换操作，可以将这些Word文档转换为XML。Word文档转换为XML，结果存储在CMS中。

书籍内容CMS公司可以使用搜索函数XQuery脚本可以直接在CMS中存储和编辑，并针对任何一组书籍运行。可以使用内置的调度程序将XQuery和工作流设置为立即运行或将来运行。这样，当系统使用不太频繁时，就可以执行需要大量处理的工作流和查询。

数据流

从CMS公司，然后对内容进行处理，以存储在图书归档中，从而能够快速交付到Web，并自动创建替代格式（例如，PDF格式). 数据处理的主要步骤是：（a）摄取，（b）“截断”过程，（c）文本和图像处理，以及（d）PDF构建（参见图2). 吞咽始于下载XML格式将CMS中的、图像和补充文件绑定到文件系统中，然后创建tar文件；在绕过CMS的情况下（<书籍的0.5%），数据在存入文件传输协议现场。

图2。

书籍数据工作流。

Chop-it-up和文本处理涉及上的XSLT转换XML格式数据，创建XML输出。在切割过程中，单个独立验证美国国立生物技术信息中心书DTD公司具有根元素<book>的XML文档被分离为具有根元素<book-part>的独立验证XML文档；也就是说，这本书被分为独立的书籍单元，如前言部分、章节、附录或参考列表。书籍元数据包含在每个书籍部分。从<book>XML创建类似文章的<book-part>XML文件为使用PMC工作流和工具处理Bookshelf数据提供了基础。

文本处理和图像转换并行进行。对于文本转换，软件解析命名实体，处理特殊或自定义字符和自定义数学，验证XML格式，并运行样式检查器。对于图像转换，运行在开源ImageMagick（ImageMagick Studio）上的软件确定图像尺寸和属性，如大小、类型和分辨率，根据Bookshelf规范调整图像大小，并为每个图像创建缩略图、网络分辨率JPEG格式文件和高分辨率JPEG文件（如果源文件具有高分辨率）。

如果内容提供商未提供，并且允许在Bookshelf中创建和显示，则会为书籍章节创建PDF。这个PDF格式构建软件使用XML格式输出文本转换并创建格式化对象（FO）文件，收集图像启发，并调整图像大小，使其与打印布局兼容。天线屋格式化程序（Antenna House，Inc.）从格式化对象文件创建PDF。

加载到数据库

加载软件识别XML格式文件进行添加或替换，并将其加载到数据库数据库中的每本书都被称为一个域。加载程序验证数据，并对文件类型和相关文件进行检查；解析与每个XML文件相关联的文件的加载，例如图像、公式、多媒体和补充文件。它解析XML以获取关键元数据信息，例如用于存储在主数据库表中的书店标识符。具有PubMed标识符的引文存储在数据库中。加载器创建一个唯一的登录ID，每个图书部分都有“NBK”前缀。

这本书数据库在设计上与PMC文章数据库非常相似（请参阅SQL数据库). 它实际上是一个数据库集群具有一个主关系表的主数据库，用于保存书籍和书籍部件信息，以及它们的属性和属性；和几个用于保存XML格式和关联的文件blob。

致使

Bookshelf动态渲染书架XML格式在请求时转换为HTML网页。该体系结构与PubMed Central（PMC）渲染模型：该美国国立生物技术信息中心前端系统分析来自客户端浏览器的请求并将其路由到渲染器，渲染器是用C++编写的FastCGI程序。该程序检索书店XML以及关于书店的其他信息，例如内容中引用的参考的PubMed ID。它通过XSLT转换运行数据，然后将其传递回前端，前端将向客户端返回HTML页面。书架使用PMC缓存系统为了更快地交付页面。它还利用了PMC标记服务器作为丰富内容的工具，例如通过挖掘和存储书籍面板上提到的词汇表术语。

执行质量保证

质量保证检查旨在保护数据在所有处理阶段的保真度，并确保用户准确呈现和检索。书架使用手动和自动程序执行质量保证检查。在CMS公司。在摄取、处理和加载到SQL语言数据库中，还会在Book Viewer应用程序中执行检查，以确保准确呈现所有数据。

编制索引

书架记录编入索引Entrez公司,美国国立生物技术信息中心的全局索引、检索和发现系统。Entrez记录是为一本完整的书、它的各个章节以及较低级别的单元（如节或表）创建的。书架条目记录主要包括：

包含内容单元主体的主搜索文本；
基于书目和主题元数据的搜索字段，例如作者或标题；和
专门计算的关键词和短语。

索引过程每晚运行。Perl程序检索图书部分XML格式文件来自数据库它通过XSLT转换生成简化的“索引文档”，提取书目搜索字段和搜索文本。它还与由美国国立生物技术信息中心的计算生物学分支从书籍XML中计算重要的关键字，并将其合并到索引文档中。后者随后被输入全球Entrez公司索引管道。

除了主要索引记录外，该过程还生成Entrez公司过滤器和链接：例如，它收集属于特定书目系列或设置为过滤器的所有记录，使用户可以将其搜索限制为特定的兴趣集合。它创建与其他美国国立生物技术信息中心数据库，例如，一章中引用的PubMed记录或书中标记的基因记录XML格式.

访问

搜索

用户可以在Bookshelf中搜索所有书籍或单个书籍中的术语或短语。高级搜索生成器和对搜索应用限制的能力查询可用。PubMed用户熟悉的标准搜索功能，如保存搜索、发送到剪贴板和搜索详细信息也可用。请参见搜索书架有关执行书架搜索的详细信息。

例子

搜索术语：心脏病发作

书架使用了一些查询加工设施可用Entrez公司系统。例如，搜索词通过医学主题标题（MeSH）翻译表PubMed中也使用。类似地，该系统使用拼写检查器或短语标记化如果原始用户查询没有结果。

浏览

可以使用一个应用程序浏览书籍，该应用程序允许用户通过在文本框中输入术语或选择以下一个或多个类别来筛选书籍列表：主题、出版物类型和出版商。从客户端向浏览应用程序发送URL请求后端后端响应使用AJAX（异步JavaScript和XML格式)，允许在不重新加载的情况下快速加载页面。此工具位于：http://www.ncbi.nlm.nih.gov/books/browse/。请参阅浏览书架有关使用浏览工具的详细信息。

阅读

图书查看器应用程序将图书内容呈现给读者，就像您当前正在阅读的页面一样。它有助于在书内和页面内导航。通过此应用程序，用户可以访问本书的所有功能，如表格、图表、词汇表、书目参考列表、下载其他格式、查看书目信息、版权和权限，以及引用内容。

工具书类

1: NCBI书架：生命科学和卫生保健方面的书籍和文件。核酸研究。2013年1月；41（数据库问题）：D1251-60。Epub 2012年11月29日PubMed Central PMCID:PMC3531209；doi。[PMC免费文章：PMC3531209] [公共医学: 23203889] [交叉参考]
2: Alberts B、Bray D、Lewis J等，《细胞分子生物学》。第3版。纽约：加兰科学；1994年。可从以下网址获得：网址：http://www。ncbi.nlm.nih公司。政府/书籍/NBK20684/
三。: Latterner M、Hoeppner M、Bookshelf：学习XML。2010年10月12日。收录：期刊文章标签套件会议（JATS-Con）2010年会议记录[互联网]。贝塞斯达（医学博士）：美国国家生物技术信息中心；2010-. 可从以下位置获得：网址：http://www。ncbi.nlm.nih公司。政府/书籍/NBK47113/

书架编号：NBK169440