历史
书架始于1999年,只有一本书细胞分子生物学,Alberts等人(2). 书架上最早的几本书是大学课本。在Bookshelf的早期,PubMed摘要中的术语与书籍联系在一起,这些书籍作为这些术语的百科全书式参考。随着卫生服务/技术评估文本(HSTAT)收集到Bookshelf在2004年,大量健康报告被添加到Bookself。如今,书架上有1700多个书目(请参阅).
每个财政年度(10月至9月)书架中增加的书目数量和累计增长。2010年的峰值代表着HSTAT系列的重组。
收集和内容
该作品集涵盖了广泛的生物医学领域,包括多种多样的作品。它们包括书籍、报告、文献数据库和文档,从基本的本科生教科书到生命科学和医疗保健方面的专业出版物。根据三个标准为集合选择标题:(1)范围,定义如下国家土地管理局的系列开发指南; (2)内容的科学性和编辑性;和(三)技术考虑因素,例如提交文件的质量。一些作品属于公共领域,而另一些则是版权所有者授予的受版权保护的作品美国国立生物技术信息中心分销权。为集合选择内容后,参与者将签署协议。请参见作者和出版商信息有关选择过程、如何申请和查看协议的详细信息。
书架为寻求生物医学信息的用户提供服务;他们包括大学生和研究生、科学家、医疗专业人员和患者。内容的免费可用性确保了可能无法访问此数据的用户可以访问信息。内容提供商同意免费提供内容;他们包括来自大学、出版社、美国和国际政府机构以及卫生部门组织的作者、编辑、出版商和管理人员。当出版商和内容提供商的内容广泛传播给公众、医疗保健专业人员以及将成为下一代生物医学研究人员、临床医生和教师的学生群体时,他们也会从中受益。
一些内容提供商也同意参与开放存取子集。对于Open Access子集中的内容,XML格式,图像和补充文件是共享的,允许重新分配和重用内容。
数据模型
提交、XML转换和存储
在中对内容进行语义标记XML格式是Bookshelf最复杂、成本最高的操作之一。为了能够持续维护图书数据语料库,并使Bookshelf持续增长,有必要通过精简提交格式的数量来平衡出版商的需求和Bookshell的资源。为此,Bookshelf最近转向了对语义标记的XML数据提交的要求,这允许部分或完全自动化数据处理。XML数据在美国国立生物技术信息中心书DTD公司或在备用DTD(例如DocBook)中。当提交使用备用DTD时,Bookshelf使用XSLT转换器将XML转换为NCBI Book DTD格式。对于以NCBI Book DTD XML格式提交数据,标记准则已制定,并基于PMC的类似标签指南。这些指南旨在通过标记样本指导正确的标记实践,以减少标记数据元素的可变性,并促进数据交换。
需要经常更新的Bookshelf项目的子集是在一个专门的Microsoft Word模板中编写的,该模板利用样式在语义上标记文档元素,如标题、作者列表等。文档被转换为XML格式使用内部美国国立生物技术信息中心使用eXtyles产品(Inera,Inc.)进行引用处理的Word Converter工具。文档在Microsoft Word中更新,并使用Word转换器重新处理。涉及印刷出版物的遗留项目提交于PDF格式格式,并由第三方供应商转换为NCBI BookDTD公司XML。文件传输协议是数据提交的主要门户。
对于大多数书籍(>99.5%),XML格式、图像、源文件(例如,出版商提供的PDF、Word)和补充文件存储在内容管理系统中(CMS公司)为Bookshelf项目内部构建。CMS是美国国立生物技术信息中心书DTD公司通过多个工作流和用于摄取和后续处理图书数据的暂存区域接收的XML数据。CMS中存储的所有XML内容都是以主XML文档的形式出现的,该文档描述了图书的元数据和各个图书部分元素,如章节和附录。为了方便编辑本书,单独的书籍章节和附录位于单独的XML文件中。书的支持数据文件,如图形图像、PDF、补充文件以及原始源文件也存储在CMS中。在CMS中,会检查书籍数据是否符合DTD、是否符合内部样式检查器(除了XML验证之外,还会运行其他检查以确保数据质量)以及是否有其他完整性检查以确保与书籍相关的所有文件可用(请参阅下文“执行质量保证”)。
用户可以选择并单独运行不同的操作,如验证、样式检查、完整性检查和加载到PMC。但是,这些操作也可以定义为工作流,工作流可以作为交互式或批处理流程运行,以确保操作按照工作流中指定的预期顺序执行。工作流描述为XML格式文档。工作流的元素是使用W3C模式描述的,包括CMS公司操作以及条件和分支逻辑来执行下一步,这取决于前面步骤的成功。使用XML定义工作流使用户可以灵活地创建自定义工作流,并根据未来需求的变化进行修改。
这个CMS公司设置为使得处理内容处理的大多数操作可以从CMS完成或启动。例如XML格式可以通过从CMS中选择文件并运行Oxygen XML Editor(SyncRO Soft SRL)并将结果保存回CMS来编辑该文件。不需要在CMS外部复制文件并单独编辑,然后将编辑后的文件上传到CMS。另一个示例是使用Microsoft Word模板(如上)编写内容。CMS中有一个单独的区域用于存储用MS Word编写的书籍章节。通过从CMS启动转换操作,可以将这些Word文档转换为XML。Word文档转换为XML,结果存储在CMS中。
书籍内容CMS公司可以使用搜索函数XQuery脚本可以直接在CMS中存储和编辑,并针对任何一组书籍运行。可以使用内置的调度程序将XQuery和工作流设置为立即运行或将来运行。这样,当系统使用不太频繁时,就可以执行需要大量处理的工作流和查询。
数据流
从CMS公司,然后对内容进行处理,以存储在图书归档中,从而能够快速交付到Web,并自动创建替代格式(例如,PDF格式). 数据处理的主要步骤是:(a)摄取,(b)“截断”过程,(c)文本和图像处理,以及(d)PDF构建(参见). 吞咽始于下载XML格式将CMS中的、图像和补充文件绑定到文件系统中,然后创建tar文件;在绕过CMS的情况下(<书籍的0.5%),数据在存入文件传输协议现场。
Chop-it-up和文本处理涉及上的XSLT转换XML格式数据,创建XML输出。在切割过程中,单个独立验证美国国立生物技术信息中心书DTD公司具有根元素<book>的XML文档被分离为具有根元素<book-part>的独立验证XML文档;也就是说,这本书被分为独立的书籍单元,如前言部分、章节、附录或参考列表。书籍元数据包含在每个书籍部分。从<book>XML创建类似文章的<book-part>XML文件为使用PMC工作流和工具处理Bookshelf数据提供了基础。
文本处理和图像转换并行进行。对于文本转换,软件解析命名实体,处理特殊或自定义字符和自定义数学,验证XML格式,并运行样式检查器。对于图像转换,运行在开源ImageMagick(ImageMagick Studio)上的软件确定图像尺寸和属性,如大小、类型和分辨率,根据Bookshelf规范调整图像大小,并为每个图像创建缩略图、网络分辨率JPEG格式文件和高分辨率JPEG文件(如果源文件具有高分辨率)。
如果内容提供商未提供,并且允许在Bookshelf中创建和显示,则会为书籍章节创建PDF。这个PDF格式构建软件使用XML格式输出文本转换并创建格式化对象(FO)文件,收集图像启发,并调整图像大小,使其与打印布局兼容。天线屋格式化程序(Antenna House,Inc.)从格式化对象文件创建PDF。
加载到数据库
加载软件识别XML格式文件进行添加或替换,并将其加载到数据库数据库中的每本书都被称为一个域。加载程序验证数据,并对文件类型和相关文件进行检查;解析与每个XML文件相关联的文件的加载,例如图像、公式、多媒体和补充文件。它解析XML以获取关键元数据信息,例如用于存储在主数据库表中的书店标识符。具有PubMed标识符的引文存储在数据库中。加载器创建一个唯一的登录ID,每个图书部分都有“NBK”前缀。
这本书数据库在设计上与PMC文章数据库非常相似(请参阅SQL数据库). 它实际上是一个数据库集群具有一个主关系表的主数据库,用于保存书籍和书籍部件信息,以及它们的属性和属性;和几个用于保存XML格式和关联的文件blob。
编制索引
书架记录编入索引Entrez公司,美国国立生物技术信息中心的全局索引、检索和发现系统。Entrez记录是为一本完整的书、它的各个章节以及较低级别的单元(如节或表)创建的。书架条目记录主要包括:
索引过程每晚运行。Perl程序检索图书部分XML格式文件来自数据库它通过XSLT转换生成简化的“索引文档”,提取书目搜索字段和搜索文本。它还与由美国国立生物技术信息中心的计算生物学分支从书籍XML中计算重要的关键字,并将其合并到索引文档中。后者随后被输入全球Entrez公司索引管道。
除了主要索引记录外,该过程还生成Entrez公司过滤器和链接:例如,它收集属于特定书目系列或设置为过滤器的所有记录,使用户可以将其搜索限制为特定的兴趣集合。它创建与其他美国国立生物技术信息中心数据库,例如,一章中引用的PubMed记录或书中标记的基因记录XML格式.
访问
搜索
用户可以在Bookshelf中搜索所有书籍或单个书籍中的术语或短语。高级搜索生成器和对搜索应用限制的能力查询可用。PubMed用户熟悉的标准搜索功能,如保存搜索、发送到剪贴板和搜索详细信息也可用。请参见搜索书架有关执行书架搜索的详细信息。
例子
搜索术语:心脏病发作
书架使用了一些查询加工设施可用Entrez公司系统。例如,搜索词通过医学主题标题(MeSH)翻译表PubMed中也使用。类似地,该系统使用拼写检查器或短语标记化如果原始用户查询没有结果。
阅读
图书查看器应用程序将图书内容呈现给读者,就像您当前正在阅读的页面一样。它有助于在书内和页面内导航。通过此应用程序,用户可以访问本书的所有功能,如表格、图表、词汇表、书目参考列表、下载其他格式、查看书目信息、版权和权限,以及引用内容。