PubMed Central

Chris Maloney; Ed Sequeira; Christopher Kelly; Rebecca Orris; Jeffrey Beck

NCBI书架。美国国立卫生研究院国家医学图书馆的一项服务。

NCBI手册[互联网]。第二版。贝塞斯达（医学博士）：美国国家生物技术信息中心；2013-.

本出版物仅供历史参考，信息可能已过时。

本出版物仅供历史参考，信息可能已过时。

NCBI手册[互联网]。第二版。

显示详细信息

<上一个下一步>

公共医学中心

克里斯·马洛尼,埃德·塞奎拉,克里斯托弗·凯利,丽贝卡·奥里斯、和杰弗里·贝克.

作者信息和附属机构

创建：2013年11月14日; 上次更新时间：2013年12月5日.

预计阅读时间：44分钟

PMC概述

公共医疗中心（PMC）无核武器的医学和生命科学期刊文章的数字档案，以及NLM永久印刷品收藏的延伸。它于2000年初推出，两种期刊各有一期，此后一直稳步增长。截至2013年6月，它包含了270多万篇文章；超过1200种期刊将其所有出版内容存入PMC，另有数千种期刊将选定的文章存入PMC。（请参见网址：http://www.ncbi.nlm.nih.gov/pmc/当前计数和标题。）PMC中几乎所有的文章都在PubMed中有相应的引用。PubMed没有涵盖的少数类型的材料除外，如书评。

早年，PMC从保存完整期刊的期刊上获得了所有内容。2006年，无核武器开始向出版商提供附加选项，让他们只存放某一期的精选文章。在这两种情况下，出版商向PMC提供文章的最终出版版本；存款由涉及版权和其他权利和责任的正式参与协议支付。参与发布者必须存放全文XML格式和PDF，以及高分辨率图像文件和随文章发布的任何补充数据。有关这些参与协议的详细信息，请访问出版商信息网页(1).

尽管出版商在2000年推出PMC前几个月才开始向其提供材料，但该档案中包含了大量早于此发布的文章。出版商在开始参与PMC时通常会保留几年的备份文件。此外，2002年，无核武器开展了一个项目，扫描并数字化将当前内容存放在PMC中的期刊的完整打印档案。两年后，威康信托基金会和英国联合信息系统委员会共同支持这项工作。该项目持续了大约6年，为PMC增加了120多万篇文章，可以追溯到19世纪初。

文章数据格式

新发表的文章和PMC中自20世纪90年代末以来发表的许多材料都作为全文存档XML格式对于打印问题数字化项目中的文章（其中大多数在2000年之前出版），PMC有扫描页面图像的PDF，以及用于支持全文搜索的自动提取OCR文本，以及XML形式的摘要（例如。，http://www.ncbi.nlm.nih.gov/pmc/articles/PMC361653/). 对于一些期刊来说，从印刷出版物过渡到电子出版物的时间可能也相对较短。在他们开始创建全文XML（或SGML公司)他们有电子格式的PDF。对于这一时期（通常是20世纪90年代中期，但对于某些期刊来说延伸到了2000年代中期），PMC有一个PDF格式以及每篇文章的XML摘要（例如。，http://www.ncbi.nlm.nih.gov/pmc/articles/PMC148429/).

全文XML格式是PMC设计理念的核心，因此是所有当前内容的要求。XML文件是机器可读和人工可读的，不依赖于技术。这使得XML很容易随着技术的变化而迁移，因此是一种优秀的存档格式。无论来源如何DTD公司传入内容的结构，PMC中的所有全文XML都转换为通用的存档格式，“无核武器DTD，“现在是NISO公司标准（参见“NLM DTD至NISO JATS Z39.96-2012”). 全文HTML页面（例如。，http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3382486/？report=classic)在检索时从XML动态创建。这使得文章呈现样式可以相对快速而轻松地进行更改。即使是像PubReader（公共阅读器）显示（例如。，http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3382486/？report=reader)可以在不更改或预处理PMC中的源文章记录的情况下引入数据库.

访问和版权

PMC中的所有内容都是免费阅读的，其中大部分内容是从出版时开始的，其余内容通常在12个月或更短的时间内完成。参与的期刊应在发表时将其文章存放起来，即使它们没有立即在PMC中公开。PMC中越来越多的文章可以在Creative Commons下获得(2)或类似的许可证，通常允许比传统版权作品更自由的再分配和重用。然而，PMC中的大多数材料仍然受到各自出版商持有的标准版权的保护。无核武器不拥有任何材料的版权。

作者手稿

自2005年以来，PMC也一直是NIH公共访问政策的指定存储库(三)以及美国和国外其他研究资助者的类似政策。由这些机构支持的研究人员需要向PMC交存他们收到的资金所产生的任何同行评议期刊文章的公认手稿。一些期刊根据上述PMC参与协议之一，代表作者将此类文章的最终出版版本直接存放在PMC中。在其余情况下，作者或出版商存放手稿文件（例如，Word文档或最小格式的PDF格式在稿件提交系统中尚未通过期刊最终编辑的NIHMS公司美国或英国和加拿大的类似衍生系统。手稿被转换为JATS公司 XML格式格式并在移交给PMC之前由作者审查和批准。

PMC国际

无核武器支持与英国和加拿大PMC类似的期刊档案的操作。这两个档案馆根据与各自出版商的协议，拥有PMC中大多数文章的副本。有关PMC国际合作的信息，请访问PMC国际网页(4).

体系结构概述

PMC处理模型如图所示图1。对于每一篇文章，我们都会收到一组文件，其中包含SGML公司或XML格式，可用的最高分辨率数字PDF格式文件（如果已为文章创建），以及任何补充材料或支持数据。文本将转换为当前版本的NISO公司Z39.96-2012期刊文章标签套件(JATS公司)存档和交换文章模型，并将图像转换为web友好格式。源SGML或XML、原始图像、补充数据文件、PDF和无核武器XML文件存储在存档中。文章使用NLM XML、PDF、补充数据文件和网络友好图像在线呈现。

图1。

PMC处理模型。

Ingest公司

参与PMC的出版商以“合理”的形式提交每篇文章的全文SGML公司或XML格式格式以及可用的最高分辨率图像，PDF格式文件（如果可用）和所有补充材料。可获得PMC文件要求的完整详细信息(5).

A合理SGML公司或XML格式格式是一种源模型中有足够粒度的格式，可以将那些对理解文章（和/或其在PMC系统中的功能）至关重要的元素从原始文章映射到PMC XML模型中的适当位置。目前，我们将所有传入文章转换为NISO公司Z39.96-2012期刊文章标签套件(JATS公司)版本1.0存档和交换文章模型，但我们几乎在每个版本的无核武器 DTD公司/PMC中的NISO JATS文章模型数据库.

期刊评估流程

加入PMC的期刊必须通过两项测试。首先，内容必须为无核武器集合(6).

接下来，期刊必须进行技术评估，以“确保期刊能够定期提供足够质量的文件，以便在线生成完整准确的文章，而无需人为纠正数据中的错误或遗漏。”(1)

为了进行技术评估，期刊提供了一组样本文章。这些文章经过了一系列自动和人工检查，以确保XML格式是有效的，并且它准确地代表了文章内容。在评估进行更加人性化的内容准确性检查之前，必须满足一组“最低数据要求”(7). 以下简要列出了这些最低标准：

每个样本包必须完整：所有必需的数据文件(XML格式/SGML公司,PDF格式如果可用，包装中每件物品的图像文件、补充数据文件）必须存在并正确命名。
全部XML格式文件必须符合可接受的日志文章架构。
全部XML格式/SGML公司文件必须根据其架构有效。
不管XML格式/SGML公司使用模式时，必须存在以下元数据信息，并在每个示例文件中使用正确的值进行标记：
1
日记账国际标准编号或其他唯一的日记ID
2
期刊出版商
三。
版权声明（如适用）
4
许可证声明（如果适用）
5
卷号
6
发行编号（如适用）
7
页码/物品序列号
8
基于问题或基于文章的发布日期。提交给PMC的文章必须包含准确反映期刊出版模式的出版日期。
根据PMC图像文件要求，所有图形图像文件必须清晰易读，并以高分辨率TIFF或EPS格式提交。

这些看起来简单明了-XML格式文件必须是有效的，但最低的数据要求大大减少了PMC数据评估小组必须做的返工量。即使是最明显的事情也要明确。

PMC的XML理念

PMC的XML格式哲学是严格性和灵活性之间的平衡，它可以控制加载到系统中的数据的质量，而不会对提交者有太多限制。

如上所述，PMC会对提交内容的任何新模式进行全面审查。我们不接受HTML格式的文章。我们还对每个新期刊的样本文章进行了全面审查，以确保内容提供商能够提供结构和语义正确的内容。

另一件我们需要严格遵守的事情是，所有内容都必须根据提交时的模式有效——不仅在数据评估期间，而且在正在进行的生产过程中。这看起来很明显，但在PMC的早期，对此有着惊人的争议，我们仍然收到无效文件。现在通常会出现问题，因为提交者已经对模式进行了更改（只需将新的字符实体添加到DTD公司或新的必需元素），而不通知我们或发送更新的模式。

此外，我们不修复文本；所有内容更改都必须由提交者进行，并且必须重新提交内容。

有些事情我们更灵活，这减轻了提交者的一些负担。首先，我们不要求所有内容都采用我们的格式或遵循我们的标记规则。我们不会强制将内容更新到最新DTD公司版本，我们通常可以遵循日志样式，这样就不会干扰处理。

PMC内部DTD

我们使用JATS公司存档和交换DTD公司（“开箱即用”）作为加载到PMC的所有文章的格式数据库。此模型是专门为存档文章内容而创建的。它的设计初衷是，当从我们接收内容的40多种不同输入模型转换内容时，它将成为“容易命中的目标”。目前，我们正在将内容写入版本NISO公司JATS版本1.0。

我们不会将所有内容迁移到每个新版本的锯齿 DTD公司当一个被释放时。该系统足够强大，可以处理1.0到3.0版本的内容无核武器DTD和1.0版NISO公司JATS DTD，所以我们不会不断地搅动数据。

的所有版本DTD公司使用XML格式目录(8)，我们还使用它来管理所有输入DTD(SGML公司和XML）。我们维护Linux机器上XML目录中使用的任何DTD的PUBLIC和SYSTEM ID的所有映射，然后在每次更新时从中创建其他目录。我们为我们使用的SGML工具创建了一个SGML目录；一个单独的“氧气”目录，团队中的每个人都可以通过XML编辑器在网络上使用；以及目录副本，该目录引用了PMC International站点的基于http的DTD副本。XML目录是PMC系统的重要组成部分。

PMC标记样式

接下来，我们为文章中的对象定义了一组规则，这些规则比DTD公司。这允许我们在文章中使用标准化结构（图形、表格、贡献者），以便于处理和呈现。我们将这些规则称为PMC标记样式，并且所有文章在加载到数据库它们记录在PMC标记指南中(9).

（重新）XML的可用性

最后，我们的XML格式必须可供他人使用。这个无核武器我们根据提交给我们的任何内容创建的XML始终可供提交出版商（内容所有者）使用，任何人都可以通过PMC开放档案服务下载开放存取文章的子集(10). 这让我们保持诚实。我们不能让自己在数据上走捷径。所有条款必须根据JATS公司他们引用的模式版本，并且我们只对有关处理的指令使用处理指令。

文本处理

PMC文本处理有四个主要原则：

首先，我们希望收到格式良好、有效且准确地表示文章发布时文章的标记版本（即，它表示记录的版本）。什么是“记录版本”的问题留给了出版商。它可能是打印副本PDF格式版本或杂志网站。

我们不更正文章或文件。也就是说，我们不会修复记录版本中的错误，也不会对XML格式文件。在处理或质量保证将个文件中的个报告给发布者以进行更正并重新提交。

PMC的目标是表示文章的内容，而不是打印页面的格式PDF格式，或杂志的网站。

最后，我们对进入PMC的内容进行质量评估，以确保PMC中呈现的内容准确反映文章发布时的内容。我们的质量保证是自动检查和手动检查物品的组合。为了确保我们花费时间向PMC摄取的内容可能是值得的，期刊必须通过评估过程，然后才能在常规生产工作流中将内容发送给PMC。

图2显示了进入PMC的文本的工作流。

图2。

PMC文本处理。

图像

通常，作者以各种格式（PPT、，PDF格式、TIF、JPG、，XML格式等）。然后对文件进行标准化，以产生打印或电子输出。PMC需要标准化输出，该输出具有高分辨率、足够的宽度和质量，可以被视为存档。出于显示目的以低分辨率生成的图像是不可接受的。

在摄取期间，提交的图像将转换为web友好缩略图(图3)和全尺寸(图4)在文章中显示的版本。

图3。

图像缩略图。

图4。

新窗口中显示的全尺寸图像。

“板块1”中的缩略图链接到包括标题在内的图形的完整视图。

还创建了一个非常大的图像版本，以便用户可以放大并近距离查看图像。从完整图像视图链接到Tileshop视图(图5). 右下角的图像索引显示整个图像的哪一部分在屏幕上可用。

图5。

图像的超大表示，允许缩放。

随着原始高分辨率图像存储在存档中，当这些显示技术过时时，可以使用任何可用的最新图像显示技术生成图像。

PDF和补充数据

PDF格式文章的版本可以随附XML格式版本，但它们不是必需的。

PMC要求以便携式格式提交所有可用的补充材料，例如PDF格式、DOC、CSV等。补充材料不应与文章文本中的www位置外部链接，以替代提交。补充材料包括以下内容：

用于支持叙述结论的大量材料，如基因组数据库或者是一篇文章的多个数据集，这些数据集呈现了文章的亮点，而这些亮点永远不会伴随着一篇纯粹基于海量的论文。
“额外”表格不与作品一起显示，但记录了文章所基于的测量，例如，这些表格需要可用，以便同行评审人员可以检查文章。
为了增强效果而添加到作品中的材料，例如测验、教学视频、作品中描述的3分钟版本的反应，以及一些静态图像、可以填写的表格等。

质量评估和工作流

质量评估(质量保证)对进入PMC的所有内容都进行了检查，以确保PMC中的内容准确反映文章发布时的内容。我们的QA是自动和手动检查的结合，由期刊经理（JM）团队管理，每个人都被指派负责大量期刊。JM还负责确保内容按计划存放，成功通过自动化工作流，并及时发布到活动站点。JM定期与出版商和内容提供商互动，以解决问题并回答问题。

对于我们常规生产流程中的期刊，会设置一个自动化的工作流，以便将新内容上传到我们的文件传输协议日志的网站会自动获取并处理，通常在上传后的几个小时内。通知电子邮件将发送给负责的JM，指示会话是成功还是失败。如果会话成功，则内容已被成功接收和处理，并将一个条目添加到我们的质量保证系统。如果会话导致“错误”，负责的JM将审查日志，并经常在发布者或内容提供商发送更新文件后解决。为了使该自动化系统正常工作，出版商和内容提供商必须遵守文件提交规范(5)并遵循一致的命名方案。不符合一致命名方案的提交文件将保留在FTP站点上，并且必须由JM审查，然后才能继续执行自动化工作流。

自动化质量保证作为此工作流的一部分进行的检查包括检查XML格式/SGML公司根据其模式有效，文件中引用的所有图像和补充文件都存在并正确命名，提交包文件名中的卷和问题信息（通常是ZIP文件）与XML/SGML文件中的卷标记和问题标记正确对应。所有格式不正确（如果是XML）或无效的内容都会返回给提供者进行更正并重新提交。此外，PMC样式检查器(9)在自动化工作流处理期间使用，以确保流入PMC的所有内容都是PMC通用XML格式，以便加载到数据库。样式检查器报告的错误为我们提供了对内容本身进行自动检查的级别，可以突出问题，但这只是目前为止。例如，样式检查器可以判断一个电子出版日期是否在文件中完全标记为PMC样式（包含年、月和日元素中的值），但无法判断这些值本身是否正确，并且实际上代表了文章的电子出版日期。

手动质量保证由JM在自动化工作流成功完成后完成。PMC的QA系统向每个JM显示分配给她的日志，以及需要检查的文章。QA系统标记期刊为手动QA保存的每一“批”新内容中的文章百分比。默认情况下，从数据评估中出来并投入生产的新期刊被设置为选择更高百分比的文章进行手动QA。一旦JM对期刊提供良好、干净数据的能力充满信心，百分比降低了。如果JM开始持续发现问题，则检查的文章百分比可能会增加。QA错误分为八大类：文章信息、文章正文、背景、图表、特殊字符和数学、一般错误、图像质量和PDF格式质量。在这些主要类别中，可能有一个或多个子类别。例如，在“文章正文”部分中，有一个子类别“章节和小节”，其中包含缺少章节的错误，或正文文本流中错误嵌套的章节。JM会查看为QA选择的每一篇文章，并浏览此检查表中适用的所有类别和子类别，并记录发现的任何问题。然后将错误报告发送给出版商或内容提供商并请求修订。

PMC还具有一系列自动数据完整性检查，这些检查每晚都会运行，以检查成功通过自动工作流并加载到数据库。完整性检查可以识别其他问题，例如提交给系统的文章重复，以及同一期刊中一组文章的期刊发布日期可能存在的差异。

文章标识符和版本号

PMC系统中使用了几种不同类型的标识符。本节描述了这些不同的ID，以及它们之间的关系。可以通过PMCID在其中一些ID之间进行转换-PMID（项目管理标识）-手稿ID-内政部转换器工具(12)，下面对其进行了更详细的描述，并在中进行了总结表1.

PMCID、文章ID和UID

PMC系统中使用的最基本的标识符类型是PMCID，它唯一地标识物品。PMCID由字母“PMC”后跟一个十进制数字串组成，例如“PMC1868567”。有时也称为“PMC登录号。“一旦分配，PMCID是永久性的，可以从那时起用于明确地引用PMC中的特定文章。

PMCID的数字部分（不带“PMC”前缀）称为物品ID或AID。对于给定的文章，此数字标识符在所有PMCI公司现场（见下文PMCI）。

这个美国国立生物技术信息中心 Entrez公司系统通过一个数字标识符引用其任何数据库中的项，该标识符在该系统中称为UID（用户识别码）.每个入口数据库定义一个数字UID，用于标识该系统中的记录。对于PMC，UID与AID相同。

版本

PMC系统最近增加的一个增强功能是能够处理同一文章的多个版本。每一个版本都是一篇文章的不同实例，它是单独存档的，并永久可供检索。文章的版本可以通过URI（URI）它使用与规范文章URI相同的格式，但带有PMCID+版本号。例如，以下是撰写本文时可用的《公共科学图书馆·潮流》文章的三个版本：

• http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3283037.1/
• 网址：http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3283037.2/
• http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3283037.3/

请注意，实际上有两个URI可用于访问文章的最新版本。每个URI都引用相同的资源，但具有不同的语义。例如，

• http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3283037/-这个URI（URI）将始终指向本文的最新版本
• http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3283037.3/-这个URI（URI）将始终指向本文的版本号3

PMC中的每一篇文章都有一个版本号，无论它是否真的有多个版本。换句话说，只有一个版本的文章的版本号为“1”。

PubMed ID

PMC文章通常由其PubMed ID或PMID标识。这是PubMed中的数字标识符数据库（参见“PubMed：书目数据库”）对应于本文，并且独立于PMCID。注意，并不是每个PMC文章都有PMID（项目管理标识）（尽管大多数人这样做）。URI可以使用PMID访问文章，这会导致重定向到规范URI（URI）对于那篇文章。例如，

• http://www.ncbi.nlm.nih.gov/pmc/articles/mid/17401604/重定向到→ http://www.ncbi.nlm.nih.gov/pmc/articles/PMC1868567/

手稿ID

PMC还为那些作为手稿到达的文章维护一个手稿ID或MID，通常通过NIHMS公司系统。一般来说，即使在文章的最终出版版本到达之后，这些手稿仍然可以使用。与文章版本（如上所述）一样，这些是单独存档的独特文章实例。

例如，以下文章没有“最终发布版本”，可以通过引用同一文档的两个URI获得：

• http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3159421/
• http://www.ncbi.nlm.nih.gov/pmc/articles/mid/NIHMS311352/

鉴于以下文章既有手稿又有最终出版版本，因此这两个URI指的是不同的文档（不同的文章实例）：

•http://www.ncbi.nlm.nih.gov/pmc/articles/PMC1434700/
• http://www.ncbi.nlm.nih.gov/pmc/articles/mid/NIHMS5786/

内政部

用于指定物品的著名外部识别系统是数字对象标识符(内政部). PMC不分配DOI，但在提供给我们时记录它们，并使用这些标识符提供文章。PMC中的文章可以使用URI使用DOI进行访问，这将导致重定向到规范URI（URI）对于那篇文章。例如，

http://www.ncbi.nlm.nih.gov/pmc/articles/doi/10.1172/JCI62818重定向到→ http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3484440/

在撰写本文时，PMC不支持引用特定文章版本的DOI，但计划在不久的将来提供支持。

ISSN、卷、期和页

最后，文章还可以通过引用信息进行识别：国际标准编号期刊、卷、期和页的。例如，《临床研究杂志》有ISSN 0021-9738。要访问该期刊第117卷第9期第2380页的文章，可以构造一个URI（URI）使用“ivip”路径段。例如：

http://www.ncbi.nlm.nih.gov/pmc/ivip/0021-9738/117/9/2380/重定向到→http://www.ncbi.nlm.nih.gov/pmc/articles/PMC1952647/

对于没有分页的电子期刊，电子ID将替换该页码。例如，

http://www.ncbi.nlm.nih.gov/pmc/ivip/1932-6203/8/5/e52147/重定向到→http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3653908/

总结

表1。

PMC标识符和URI摘要。

标识符	例子	描述	URI（URI）
预防性维修检查与诊断	项目经理1868567	项目管理咨询公司登录号	网址：http://www.ncbi.nlm.nih公司.政府/pmc/articles/PMC1868567/
艾滋病	1868567	PMCID的数字部分	网址：http://www.ncbi.nlm.nih公司.政府/pmc/articles/1868567/（重定向）
UID（用户识别码）	1868567	Entrez公司PMC文章ID	网址：http://www.ncbi.nlm.nih公司.政府/采购管理委员会/？期限=1868567%5Buid%5D(Entrez公司结果）
PMCID+版本	PMC3283037.2项目经理	文章的特定版本	网址：http://www.ncbi.nlm.nih公司.政府/pmc/articles/PMC3283037.2/
PMID（项目管理标识）	17401604	公共医疗ID	网址：http://www.ncbi.nlm.nih公司.政府/pmc/articles/pmid/17401604/（重定向）
中间	美国国立卫生研究院5786	手稿ID	网址：http://www.ncbi.nlm.nih公司.gov/pmc/articles/mid/NIHMS5786/
内政部	10.1172/JCI33375号	数字目标标识符	网址：http://www.ncbi.nlm.nih公司.政府/pmc/articles/doi/10.1172/JCI33375号（重定向）
IVIP公司	0021-9738/117/9/2380	国际标准编号+卷，期，页	网址：http://www.ncbi.nlm.nih公司.政府/pmc/ivip/0021-9738/117/9/2380/（重定向）

检索/数据处理

编制索引

每天，PMC的内容数据库被编入索引，以便通过美国国立生物技术信息中心 Entrez公司接口。Entrez界面由PMC主页搜索工具以及Entrez编程实用程序（EUtils(13)). EUtils允许第三方工具提供发现和搜索功能，这些功能与NCBI网站提供的功能相同。在这方面，PMC只是通过此接口向公众提供数据的大约50个NCBI数据库中的一个。

字段、筛选器和链接

每美国国立生物技术信息中心数据库有自己的索引标准，包括一组独特的字段、筛选器和到其他数据库的链接。PMC帮助手册(14)描述了PMC数据库的这些功能，并提供了有关如何使用它们执行有效搜索的信息Entrez公司.

Entrez公司搜索允许您使用复杂的布尔表达式输入搜索条件，使用（可选）通过字段或筛选器限定的文本短语。例如：

wilson eo[作者]OR（社交与作者手稿[过滤器]）

搜索领域被输入到查询文本字符串后跟方括号中的字段名。例如，

威尔逊·欧[作者]

请参阅PMC帮助手册以获取可用搜索字段的列表。偶尔会添加或更改搜索字段，可以从以下两个位置之一检索最新的字段列表：

1: PMC高级搜索生成器(15). 单击“所有字段”下拉选项框，查看所有可用搜索字段名称的列表。
2: EInfo实用程序，位于http://eutils（实用程序）.ncbi.nlm公司.nih.gov/entrez/eutils/einfo.fcgi？db=pmc（结果将在XML格式). <FieldList>元素包含描述每个字段的内容。

过滤器实际上是一种特殊的字段（名为“过滤器”的字段），与许多社交媒体网站中使用的“标签”或“类别”类似。（例如，正如博客文章可能有多个标记一样，PMC中的给定记录数据库可能对应多个过滤器）。有两种类型的过滤器：标准（内置）和自定义。

内置过滤器的示例有“作者手稿”、“回复”、“撤回”、“开放存取、“和”CC BY NC许可证。“要查找与内置筛选值对应的记录，请在引号中输入值，然后在方括号中输入单词“筛选”。例如，要在PMC中查找开放访问子集中的所有作者手稿，请输入搜索短语

“作者手稿”[过滤器]和“开放存取“[过滤器]

通过转到PMC Advanced Search Builder，在第一个下拉选项框中选择“filter”，然后单击“Show index list”，可以获得可用的完整筛选器值列表。

可以通过设置MyNCBI帐户来使用筛选器，以指定将在每个Entrez公司搜索结果页面。这是通过MyNCBI过滤器网页完成的(16)，选择“PMC”数据库。在右侧面板中，您可以选择任何内置过滤器。单击复选框将启用该过滤器，以便它显示在每个Entrez搜索结果页面上，以便轻松访问。使用MyNCBI管理筛选器的详细信息，请参阅以下MyNCBI-帮助手册使用过滤器(17).

在MyNCBI页面中，您还可以管理自定义过滤器，这些过滤器的名称很简单Entrez公司查询。也就是说，任何武断的Entrez查询可以设置为自定义筛选器。如果相应的Entrez查询可以找到给定的记录，则该记录与自定义筛选值匹配。

链接允许您在其他美国国立生物技术信息中心与PMC文档对应的数据库。您可以在主服务器上找到PMC相关链接的列表Entrez公司链接描述网页(18).

将字段、过滤器和链接与PMC中的特定对象关联的数据数据库由我们的内部索引任务生成。

索引任务

有两种类型的索引任务：完全和合并。合并索引每天都会发生。在PMC中数据库，将维护一个IndexStatus字段，用于跟踪哪些项目以及何时被索引。合并索引仅对那些新的或自上次索引以来已更新的项目进行操作。

完整索引计划每周进行一次，但如果特定需要重新索引所有PMC内容，也可能会进行；例如，如果对数据库结构或搜索字段或筛选器。

注意，目前，索引是基于UID（用户识别码）（如上所述）不是文章的单个版本。因此，Entrez公司搜索结果将始终显示指向文章最新版本的链接。

PMC索引任务与新的美国国立生物技术信息中心CIDX索引系统，这是一个由Ergatis驱动的自动化工作流(19)是一种基于Web的工具，它允许将工作流定义为由可重用步骤组成的管道。

除了全文索引外，它还生成从中按字段搜索所需的数据Entrez公司，索引任务还为过滤器、链接、拼写检查器和自动完成词典生成数据。索引脚本从PMC访问文章全文和元数据数据库，并生成XML格式输入Entrez系统的文件。XML为每一篇文章提供全文搜索字符串和关键字，这些字符串和关键字由为PMC定义的Entrez字段细分。

对于内置过滤器，根据过滤器在系统中的定义方式，有三种可能的数据源：

显式筛选器-索引脚本将这些作为与给定筛选器匹配的项目标识符的显式列表生成。
派生过滤器-类似于用户定义的自定义过滤器，这些过滤器基于Entrez公司查询。
链接筛选器—任何作为给定类型的至少一个链接主题的文章都会自动匹配同名筛选器。例如，引用PMC中另一篇文章的任何PMC文章都与过滤器“PMC-PMC-cites”匹配

对于的基本集Entrez公司链接，索引任务生成从PMC记录到其他美国国立生物技术信息中心Entrez数据库，并将其写入Entrez链接数据库。然后，该数据库自动生成一些派生链接。例如，pmc_pmc_cites的链接数据是通过查询pmc数据库来生成的，以查找给定文章中本文引用的pmc中的所有其他文章。然后，链接数据库实用程序自动生成相互链接pmc_pmc_citedby，并存储该数据。

链接过程的结果可从PMC文章显示的发现列中获得，如Entrez帮助手册，或通过Entrez公司实用程序ELink。例如，要查找给定PMC文章引用的PMC中的所有文章，可以检索URI（URI）

http://eutils.ncbi.nlm.nih.gov/enterz/eutils/elink.fcgi？dbfrom=pmc&id=14909&linkname=pmc_pmc_cites。

文本挖掘

PMC根据与PMC参与出版商达成的协议，挖掘其收藏中的文章全文，以引用特定类型的实体。这些引用指向存储在其他美国国立生物技术信息中心数据库。此文本挖掘的结果存储在TagServer中数据库，如下所述。当从Web浏览器请求文章时，TagServer软件会检索此数据，并使用它来丰富演示文稿。

文本挖掘脚本在技术上是TagServer软件的一部分。它被实现为一个以现代Perl风格编写的Perl脚本，并且基于特定于PMC的Perl模块，而这些模块又基于Perl Moose(20).

文本挖掘过程计划每天运行，并不断重新导入PMC中的所有文章。在每天的迭代中，它按以下顺序处理文章：

从未开采过的新物品，
自上次挖掘以来更新的文章，
所有其他

因此，所有PMC文章都会定期重新定义。（目前连续挖掘给定文章的时间间隔约为两个月。）有必要持续重新索引所有PMC文章，即使它们没有更改，因为挖掘软件用于确定引用的数据库不是静态的，它们会不断更新。因此，在一段时间后重新阅读同一篇文章可以找到以前没有的结果。

文本挖掘软件目前挖掘这些文章，以参考其他期刊文章（在PMC和PubMed中），以及存储在其他期刊中的这些类型的数据Entrez公司数据库：

分类学
核苷酸
联合演奏家
蛋白质
单核苷酸多态性
地理
结构

除了只识别文章中的这些术语外，软件还通过验证每个术语是否确实存在于目标中来验证结果数据库.

文本挖掘软件用于美国国立生物技术信息中心书籍以及PMC。该软件是非常可配置的。可以配置的内容包括：

要搜索的术语类型，以及在文章中搜索的位置（哪些逻辑部分）。
忽略文章的哪些部分。

文本挖掘软件被组织为一组插件，每个插件实现为一个Perl模块，并为特定类型的数据挖掘文章。

Web服务和API

PMC提供了几个Web服务和API，以促进对资源的编程访问。其中包括OAI公司-PMH服务文件传输协议服务器和开放存取（OA）Web服务。

希望重用PMC开放访问子集中内容的外部用户应该从我们的文件传输协议服务器，而不是试图通过其他方式下载它们。

如果您对这些服务或PMC提供的任何其他服务有疑问或意见，请写信给ksed pleh CMP公司。要随时了解PMC提供的新的或更新的工具或服务，请订阅PMC-Utils-公告邮件列表.

您可以在各自的描述页面上阅读有关这些服务的信息：OAI-PMH服务，的FTP服务器、和OA Web服务.

这个OAI公司-PMH服务实现为CGI公司用C++编写的程序，该程序使用美国国立生物技术信息中心C++工具包(21).

这个文件传输协议站点由一个“转储程序”脚本填充，该脚本封装了有关OpenAccess子集中哪些文章已更新以及如何将这些更新传播到FTP站点上的各种资源的知识。

OA web服务是作为一个Perl脚本实现的，该脚本部署为一个快速CGI公司在Apache Web服务器下。OA Web服务使用数据库由与相同的转储程序脚本维护的表生成PMC上可用的工件文件传输协议现场。这些表存储此服务所需的信息，包括OA子集中每一篇文章的最新日期和时间，文件（格式为TAR.GZ或PDF格式)已更新。

使用情况统计

每个PMC参与者都可以通过密码控制访问一个网站，该网站提供该参与者期刊和文章级别的使用报告。这些报告每天更新，包括可用文章的数量、按格式（如全文HTML和PDF）进行的总检索量、访问内容的唯一IP地址的总数以及最频繁检索的文章。在单个文章级别，从期刊首次提交给PMC开始，每个文章都有使用统计数据。

这些报告可以作为CSV文件下载，以便使用电子表格包（如Microsoft Excel）进行分析。PMC还每月提供一个CSV文件，用于文章级别的月份。文章级使用数据也可以通过Web服务调用直接检索。

PMC的使用报告通常包含COUNTER规范中要求的所有信息，但PMC不报告特定机构的使用情况。无核武器的隐私政策禁止在个人或组织级别报告使用情况。

渲染

渲染体系结构概述

PMC在请求时实现文章的动态呈现，传递源代码XML格式通过XSLT转换和集成外部数据。日志存档页面、目录（问题）页面和文章，以及与文章一起显示的各种发现portlet，都是从中的数据动态生成的数据库和外部来源。

图6描述了渲染器的主要组件，这些组件处理通过PMC提供的大多数Web页面和其他资源。

图6。

PMC渲染器的组件。

这个SQL语言数据库是PMC档案的核心，存储与我们从各种来源收到的期刊、期刊和个人文章相关的所有必要信息。

当来自客户端浏览器的请求到达时前端系统(美国国立生物技术信息中心门户）对其进行分析，并在较高级别上确定如何处理它。大多数请求是针对动态PMC资源的，如日志存档页、期刊目录或文章本身，这些请求被路由到呈现器后端.

渲染器后端有一个基于文件系统的自定义短期缓存系统，旨在提高某些条件下的性能。目前，PMC系统禁用了此缓存系统，但在美国国立生物技术信息中心书架。启用后，缓存系统首先检查请求，以确定它是否与存储在文件系统缓存中的前一个请求相匹配。如果是，则返回缓存的值。如果没有，则进一步处理请求。

非缓存命中的请求将被解析并转换为SQL语言数据库查询。然后用TagServer数据修补这些查询的结果，然后通过一组XSLT转换进行传递。然后，这些结果存储在文件系统缓存中（以防以后有与此匹配的请求），并传递回前端。前端还访问其他美国国立生物技术信息中心资源，例如Entrez公司，对于添加到显示中以增强有用性的数据，完成的结果将返回给客户端。

许多资源，例如图像、javascript和css文件，都是直接从名为corehtml的静态库中提供的。

其他页面，例如主页,关于页面、和Entrez搜索结果页面通过前端，但不访问渲染器后端或TagServer。

页面、视图和URI结构

PMC站点提供了对许多不同类型网页和其他资源的访问。表2下面列出了这些，并带有指向示例的超链接。

PMC URI设计为清晰、简洁和面向资源，并与跨美国国立生物技术信息中心现场。PMC主页，位于网址：http://www.ncbi.nlm.nih.gov/pmc，是基础URI（URI）所有PMC资源。

这个URI（URI）空间是分层设计的，使用路径段标识资源集合，使用标识符指定这些集合中的项。例如，URI/pmc/期刊/指定已将材料存入PMC档案的学术期刊的集合。URI/pmc/期刊/2/指定了一种特殊的期刊，即《美国国家科学院院刊》。

与PMCURI（URI）方案中，访问某些类型的材料具有一定的灵活性，因为在许多情况下，同一资源可以使用多个URI。在这些情况下，一个URI被视为规范（主）URI，对该资源使用任何辅助（辅助）URI都会导致重定向到规范形式。

例如，给定的文章具有规范URI（URI） /pmc/文章/PMC2150930/，其中标识符PMC2150930是本文的PMCID。然而，文章也可以通过其他几个URI中的任何一个进行访问，每个URI都使用不同的方案来标识唯一的文章，例如PubMed ID（pmid）、内政部或issn-volume-issue-page（ivip）。当通过这些其他URI访问时，客户端会接收到HTTP重定向到规范URI。PMC站点支持的URI列表见表2。

表2。

PMC站点支持的URI列表。标准URI以粗体显示。

资源	URI（URI）（s）
PMC主页	/项目管理委员会/
Entrez公司搜索结果	/pmc/？术语=蛋白质
静态“关于”页面	/pmc/关于/intro/
日记账列表	/pmc/期刊/
匹配搜索的日记账列表	/pmc/期刊/？术语=呼吸
特定日志存档	/pmc/期刊/2/ /pmc/期刊/domain/pnas/ /pmc/期刊/issn/1091-6490/ /pmc/期刊/ivip/1091-6490/
最新版本	/pmc/期刊/2/最新/
发行	/pmc/问题/157490/ /pmc/ivip/0021-9738/117/8/
文章全文	/pmc/文章/PMC2150930/ /pmc/文章/2150930/ /pmc/PMC2150930/ /pmc/2150930/ /pmc/文章/pmid/16511247/ /pmc/articles/doi/10.1107/S1744309105040984 /pmc/ivip/0021-9738/117/9/2380/
文章备选视图：PubReader、经典、可打印	/pmc/文章/PMC2150930/？report=阅读器 /pmc/文章/PMC2150930/？报告=经典 /pmc/文章/PMC2150930/？报告=可打印
扫描的文章浏览页	/pmc/文章/PMC2483210/
扫描的文章页面	/pmc/文章/PMC2483210/？页码=3
文章手稿或版本	/pmc/文章/mid/NIHMS20955/ /pmc/文章/PMC3283037.2/
第条PDF格式和EPub	/pmc/articles/PMC2150930/pdf/f-62-00001.pdf /pmc/文章/PMC2150930/epub/
文章摘要	/pmc/文章/PMC2150930/？报告=摘要
图	/pmc/文章/PMC2278217/图/F5/
表	/pmc/文章/PMC2278217/表格/T1/
按列表引用	/pmc/文章/PMC369838/引用人/

此外，我们使用了几个美国国立生物技术信息中心-标准查询字符串参数指定这些资源的各种视图（报告）和格式。例如，“？report=reader”访问全文文章的PubReader视图。

SQL数据库

PMC使用MicrosoftSQL语言服务器用于存储存档的所有文章、补充材料和元数据。

在数据库，我们定义了术语“领域”，它大致对应于单个期刊。在一个简化的视图中，每个发布者可以有多个域，每个域可以有许多问题，每个问题有许多文章，每个文章有一对多的版本。

还有一个单独的表，用于存储文章中引文的信息，包括所引用项目的标识符，还有一个表用于存储各种文章之间的一组关系，例如，包括评论、更正和更新的链接。

文章的实际源内容作为“blob”存储在数据库，包括源XML格式，图像，缩略图，PDF格式文件、媒体文件、补充材料等。这些blob存储在专用数据库实例中。一旦blob数据库已满，它就会被关闭，再也不会写入或修改。

ArticleBlobInfo表将项目交叉引用到相应blob中与其关联的blob数据库。此表允许在呈现时将请求URI取消引用到其请求的资源。如果出于任何原因必须更改或删除某个特定的blob，并且存储该blob的blob数据库已经关闭，那么我们只需将blob的新版本写入一个新blob数据库，并更新ArticleBlobInfo表中的指针。

渲染后端

C++后端

C类++后端基于美国国立生物技术信息中心C++工具包，并用C++编写，以便其性能尽可能快，并且可以利用该库的内置功能进行日志记录，数据库访问，以及XML格式处理。

该软件作为Fast运行计算机图形输入，并提供HTTPAPI程序到前端。前端将几个参数传递给后端在中XML格式通过HTTP POST创建文档。这些参数中包括原始的路径部分URI（URI）（标识请求的资源）、会话ID和用户ID（如果用户已登录，则标识MyNCBI帐户）。前端还传递Apache环境，其中包含诸如客户端的用户代理字符串之类的重要信息。

C类++后端总是返回一个XML格式封装响应的文档，该文档分为响应头（包括状态代码、响应类型、错误消息，如果合适的话）和响应体（包括文档有效负载）。

当C++后端获取请求时，它首先解析URI（URI），以确定其是否为规范形式。如果URI是规范的，则将直接返回请求的资源；如果没有，那么将执行重定向。解析URI的结果还标识了所请求的资源。根据该信息，后端查询PMC数据库.

如果查询导致错误，或者如果没有与提供的标识符匹配的资源，则后端将向前端指示错误，带有适当的状态代码和错误消息。

如果请求是全文文章，并且没有错误，则呈现器后端还将向TagServer应用程序发出请求，以检索与本文标记相关的数据，并且该数据已修补到文档中（请参阅TagServer部分更多信息）。后端将传递一个MD5公司文章文档的签名，TagServer会将其与存储的签名进行比较。如果它们不匹配，那么请求将被拒绝，并且不会返回任何标记数据。这确保了依赖于精确字节文档中的偏移量是稳健的。

TagServer响应实际上包含两部分：用于标记标记在文档中出现的位置的id和标记，以及标记属性。标记属性被捆绑在一起并存储在内存中，通过对XSLT document（）函数的扩展，它们可用于XSLT转换器（将在下一节中介绍）。

C类++后端还获取与资源相关的一些元数据，并将其作为处理指令（PI）写入文档。

然后将文档传递到XSLT转换器，该转换器使用XSLT样式表库中几个可能的“入口点”之一来确定如何处理文档。下一节将更详细地描述XSLT。

XSLT（XSLT）

PMC呈现器使用的XSLT文件是用XSLT1.0编写的，因为它们是由libxslt在美国国立生物技术信息中心C++工具包。他们使用了一些扩展：

外露的(22)
一些用C编写的自定义XSLT扩展函数，以支持国际化
自定义document（）函数，用于快速检索TagServer标记属性。

如上所述，C++后端在“入口点”调用XSLT，这是一个主模块，它导入所有其他模块，定义顶级XSLT变量和参数，以及顶级匹配模板（与文档根节点匹配的模板）。例如，经典视图和PubReader视图中的全文文章有不同的入口点。

XSLT是以模块化的方式设计的，因此所有（或大多数）应用程序都包含一组核心模板，然后每个应用程序导入这些模板，但根据需要选择性地覆盖它们，以便自定义结果。

XSLT处理器从以下内容获取输入：

主要XML格式文档—将其作为输入文档传递给处理器，包括：
- NXML—存储在PMC中的主要物品数据库.
- 由TagServer修补机制插入的修补程序。这些是XML格式标记标记在NXML中的位置的元素和属性。
- C插入的处理指令（PI）++后端，包含来自PMC的文章元数据数据库.
XSLT参数，来自：
- 从传入的参数前端,
- 渲染器后端配置文件（ini文件），
- 来自PMC的元数据数据库.
内存中的文档—这是来自TagServer的标记属性数据。这可以使用document（）函数从XSLT内部访问，该函数调用与C语言集成的自定义扩展++后端.

NCBI门户

这个前端用于呈现PMC内容的系统是一个内部开发的XML格式-基于web应用程序服务器，称为美国国立生物技术信息中心-门户（本节其余部分简称“门户”）。Portal是用C++编写的，基于NCBI C++工具包，并使用用于XSLT和Zorba的libxml和libxslt库函数处理器(23)用于XQuery。

门户系统贯穿始终美国国立生物技术信息中心，单个应用程序是用它们自己的应用程序实现的，这些应用程序是称为快照的组件束。每个快照的版本都是独立的。PMC站点由三个快照实现：PMCViewer、PMCStatic和PMCEntrez公司快照。

请求路由器

由于门户系统处理所有美国国立生物技术信息中心，门户系统在收到请求时的第一个业务顺序是将该请求发送到正确的快照。这通过两个步骤完成：

1: 顶级域（即“www”）和URI（URI）（在我们的例子中，“pmc”）用于选择请求路由器。（在美国国立生物技术信息中心我们使用其他顶级域（例如“test”）进行开发和测试，这些域可能会解析为不同的请求路由器。）
2: 请求路由器包含与URI（URI）和请求环境。匹配的第一个规则选择将处理此请求的快照。

此设计允许在美国国立生物技术信息中心独立，这在这样一个庞大而多元化的组织中很重要。它还提供了处理请求的极大灵活性，因为它允许对站点内如何处理特定URI进行细粒度控制。

如上所述，PMC站点由三个单独的快照处理，下面将详细介绍这三个快照。

PMCViewer快照

PMCViewer快照是PMC系统使用的主快照。它处理日志列表、日志、期刊和文章页面以及许多其他页面的呈现任务。这是与渲染器交互的快照后端，如所示图6。（其他快照生成不同类型的页面，这些页面不是源于渲染器后端）。

快照包含一组规则，用于进一步检查请求的URI（URI）和其他HTTP标头，以便正确发送请求。因此，快照可能会：

立即响应并重定向到另一个URI（URI）（例如，如果页面已移动，或者用户使用了非规范URI）。
反向代理二进制资源，例如PDF格式、图形或表格缩略图等。
调用渲染后端从中检索页面数据数据库（如上所述）。

调用渲染时后端，快照通过URI（URI）以及其他发送到呈现后端的请求参数，后者以有关如何呈现此特定页面的信息进行响应。然后，快照对XML格式从后端响应，并生成发送到浏览器的最终集成HTML页面。

PMC静态快照

PMCStatic快照处理信息和新闻页面的呈现，例如PMC概述。这些是由一组XML格式,XHTML（XHTML）以及存储在渲染器中特定目录中的其他类型的文件后端。目录包括以下类型的资源：

nav.xml指定导航栏菜单项
redirects.xml-指定应该发生的任何重定向（在页面移动的情况下，旧的URI（URI）将重定向到新的）
XHTML（XHTML）页面——这些是各个页面的内容，分为about、pub（针对出版商）和tools（相关资源）组
图像、PDF和其他可下载资源

当请求页面时URI（URI）被转换为XHTML（XHTML）文件，检索该文件，然后使用XSLT进行处理，以将其与导航栏结合，另一个美国国立生物技术信息中心-标准组件，如页眉和页脚。

PMC Entrez快照

项目管理咨询公司Entrez公司快照派生自美国国立生物技术信息中心标准Entrez组件包，允许PMC与NCBI的其他应用程序共享相同的外观和许多功能方面主页由该快照以及许多与搜索相关的页面（如限制，的高级搜索生成器，的剪贴板、和搜索详细信息.

自定义为默认值Entrez公司包的存在是为了提供PMC特定的行为。例如，在主页上，中心的一个面板显示了PMC中当前存档文章数量的最新亮点。此显示器由XML格式每天生成并推送到渲染器的文件后端位置。

自定义Entrez公司搜索结果提供，例如，显示imagedocsum结果.

PubReader（公共阅读器）

PubReader是一组JavaScript和CSS格式以有利于阅读的方式呈现期刊文章的文件，尤其是在平板电脑或小屏幕设备上。

PubReader视图的文章文档是通过与经典视图相同的机制生成的，使用了呈现器后端、TagServer和前端，但XHTML（XHTML）在使用的特定元素和属性方面，文档有所不同，CSS格式类名和文档结构。通过使用特定于PubReader的入口点调用XSLT，可以在渲染器中实现这种差异。

PubReader使用HTML5和CSS3标准中的一些最新功能，以实现动态显示。其中最主要的是CSS3多列布局模块，以及固定的页面高度。

每个JavaScript组件都是根据Doug Neiner的“Nested Namespacing Plugin Pattern”作为jQuery扩展编写的，并在中进行了描述学习JavaScript设计模式(24).

PubReader的组件包括：

PageManager控制并执行PubReader中的翻页。
HistoryKeeper监控和控制URI（URI），并指示PageManager将页面转到该片段标识符中定义的目的地。
ObjectBox—此组件处理打开以显示图形、表或消息框的模式框。
PageProgressBar提供文档中当前位置的视觉指示，并提供允许用户移动到新位置的控件。此组件使用jquerytools的rangeinput小部件的修改版本(25).
链接提供劫持链接点击的功能。

PubReader代码在master中管理美国国立生物技术信息中心Subversion存储库，并镜像到GitHub存储库NCBITools/PubReader.

缓存系统

PMC中的缓存系统主要用于在短时间内对一篇或几篇文章或资源的请求激增时提高性能。它使用文件系统在请求时存储每个资源的副本，使用由唯一密钥生成的路径名。键值是MD5公司字符串的签名，该字符串由查询唯一指定所请求资源的参数和环境变量。当另一个请求到达并产生相同的密钥时，在缓存实体过期之前（缓存命中），将从文件系统中检索资源，而不是动态重新生成。

当前，PMC渲染器的缓存系统被禁用后端但正在与一起使用美国国立生物技术信息中心书架。每个缓存都设置了一个独立的缓存。

缓存的请求类型是可配置的。还可以配置文件系统上最小可用空间的设置。这可以防止缓存系统填满光盘，通常设置为4GB。一旦达到该限制，在清除旧请求之前，不会缓存任何新请求。

有一种持续运行的清除机制，可以“垃圾收集”文件系统上已过期的缓存实体。

缓存中每个实体的完整路径派生自MD5公司通过使用前四个十六进制数字和目录名以及MD5的其余部分作为文件名进行签名。组成缓存的磁盘文件在头中包含有关资源和此特定缓存实体的元数据，包括导致缓存命中的请求参数、实体存储的日期和时间，以及来自PMC的元数据数据库如文章id、blobname等。

缓存系统配置为实体将在一小时后过期。原因是请求的最终呈现输出通常每天都会发生变化。

该系统在C++和Perl的库中实现。它们是独立维护的，但对文件系统和标头都使用相同的格式。

标记服务器

概述

TagServer是一个数据库包含从PMC文章中挖掘的元数据的系统。标记是（通常）源文档中与一组元数据属性关联的文本字符串。例如，基因名“D17Jcs48”可能出现在PMC的文章中。这个文本挖掘过程会将其识别为基因名称，并在Entrez公司基因数据库，并将此基因名称实例的信息存储到TagServer数据库中，作为与文章实例关联的单个标记。

TagServer系统设计为通用型，TagServer数据库高度可配置，因此它可以存储关于各种源文档中可能出现的各种标记的元数据。

图7说明了将TagServer数据与PMC中呈现的文章聚合在一起所涉及的数据流。

图7。

TagServer数据流。

如图所示，在渲染期间，TagServer提供了两种与文章关联的标记。第一个“补丁标签”与XML格式从文档中取出后立即记录数据库，然后将其处理为XML。这些标签与文档中非常特定的部分相关联，例如，特定的文本字符串，如基因名称。第二种类型的标记是分组标记，它们与文章中由XML id属性（例如段落）标识的区域相关联。这些标记的数据通过前端XML处理引擎。

最后，生成的XHTML（XHTML）文档连同JavaScript模块一起交付到客户端浏览器，该模块执行渲染所需的最后步骤，例如定位发现块、实现工具提示等。

最基本的分类是PMC文章中实体的性质（即标签的主题）。这与是否以及标记标记如何修补到文档中有关。例如，一些标记引用短的文本片段，这些标记是作为新的补丁插入的XML格式元素。其他的则用“raw”进行了修补，这意味着标签的内容只需插入到文档中。其他设备根本没有安装补丁；例如，将文档作为一个整体而不是特定部分进行引用的标记。

标签也根据引用的语义（即标签的对象）进行分类。这种分类是“标记类型”，并且是完全可配置的。例如entrez-gene、entrez-notide、glossary（词汇表术语）和reference。可以根据需要定义新的标记类型。

还有一些特殊类型的标签用于存储XML格式将id值修补到实例文档中，以增强其可寻址性。

每个标记都有一组与其相关联的属性，这些属性是键值对。这些属性存储在数据库不受TagServer软件本身的限制。然而，一些标记属性具有由应用程序层定义的集合含义。例如，标记属性term_id用于指定标记对象的数字id。如果是Entrez公司数据库，term_id存储UID（用户识别码）项目的。其他具有固定含义的属性名称包括reference_id、pubmed_id等。

数据库设计

TagServer数据是围绕表示的概念组织的，表示类似于存储的查询。当数据库使用给定的表示和对象标识符进行访问，然后它将以定义的格式用一组特定的标记进行响应。给定的表示由三个参数指定：对象类型、站点和请求类型。

每个标记都指向PMC中的特定对象数据库，这是一个XML格式实例文档。因为标记在被解析为XML之前已经被修补到该文档中，所以实例文档必须字节-用于与用于文本挖掘的副本相同的字节。为了确保这一点MD5公司每个对象的签名都存储在TagServer数据库中。当呈现文章时，会再次计算MD5，如果不匹配，则会丢弃标记数据，并且不会将其修补到文档中。

API程序

通过RESTful Web服务访问TagServerAPI程序，在URI的路径部分标识资源，以及查询用于定义所需标记集及其格式的参数。TagServer请求的示例如下

/tags/prod/srv/pmcai/2464733/tags？site=生产（&R）=后端

这将指定ID为2464733的PMC文章实例，site和rt（请求类型）参数指定所需的表示。如上所述，表示精确地指定了所需的标记类型，以及格式、排序和分组。

实施

TagServer实现为Perl Fast计算机图形输入脚本，并有一个单独的数据库来自主PMC数据库。它有一个基于Perl Catalyst的Web界面，允许为使用TagServer的每个应用程序配置它。该配置包括标记类型、站点、请求类型和各种表示的定义，或者为每种类型的请求返回的标记集合和分组。

TagServer静态缓存

TagServer静态缓存系统用于提高TagServer的性能。静态缓存本身是一个大型二进制文件，它保存了存档中所有PMC文章的所有可能的“真实”TagServer响应。“现实的”响应是指根据生产服务器当前的配置方式，由生产服务器的请求实际生成的响应。

目前，对于每一篇文章，都有三种不同的实际响应，对应于三种请求类型：后端,前端和索引器。将这些内容与大约300万篇文章相乘意味着在静态缓存文件中存储了大约1000万个响应。

静态缓存文件使用开放寻址的形式将响应存储为一个大哈希表(26)被称为布谷鸟哈希的冲突解决算法(27). 每天都会从所有PMC文章中重新生成此文件，包括任何新挖掘的文章。

这种设计意味着静态缓存系统非常高效：因为它包含（几乎）所有可能的响应，所以命中率非常高（约99.9%）。唯一没有命中缓存的请求是自上次重新生成静态缓存以来更新的项目的请求。此外，有点击时的响应时间约为10毫秒，而没有点击时的反应时间为150毫秒。

PMCI公司

PMC国际(PMCI公司)是无核武器创建共享内容的数字档案网络。目前有两个活跃的PMCI网站：欧洲PubMed Central((28); 最初为UKPMC），于2007年1月上线，PMC加拿大(29)，于2009年10月上线。请参阅PMC网站上的PMC国际页面(4)有关此协作工作的更多一般信息。

这个PMCI公司网站使用相同的数据库架构，相同后端和相同的业务规则美国国立生物技术信息中心项目管理咨询公司。他们部署了NCBI开发的以下软件：

便携式NIHMS公司(pNIHMS公司)-NIH手稿提交系统的便携式版本(NIHMS公司)允许作者和出版商将手稿直接提交给PMCI公司地点。
便携式PMC（pPMC）—一种用于存储内容并将其交付给最终用户的归档和呈现系统。

pPMC软件有一个收集器组件，它与美国国立生物技术信息中心PMC更新pPMC中的内容数据库。收集器支持在PMCI公司现场和NCBI PMC，如图8出版商直接向NCBI PMC提交所有文章的最终出版版本，而PMCI网站则通过pNIHMS公司系统。例如，欧洲PMC接受并处理由欧洲PMC赞助机构资助的期刊文章的作者手稿(30).

图8。

PMCi现场和PMC NCBI之间的数据交换。

所有内容最初发送到美国国立生物技术信息中心PMC，然后重新分配给PMCI公司地点。NCBI控制将哪些新内容和更新内容分发到哪些站点，并通过PMCI收集器系统提供这些内容。PMCI站点根据需要从PMCI收集器检索该内容。

pPMC站点使用相同的数据库结构为美国国立生物技术信息中心PMC，并且软件包含大多数相同的渲染组件，包括渲染后端. The前端每个站点都不同，这允许每个PMC站点以自己的方式自定义和丰富文章显示。

注意，为了支持PMCI公司，PMC渲染器软件是国际化的，可以对各种组件进行多语言翻译。

其他工具和实用程序

PMC提供了许多工具和实用程序，主要用于帮助将内容保存在我们的档案中的出版商，但还有一些其他工具和实用工具非常有用。文件验证工具页面[31]中介绍了发布器工具和实用程序。

以下是PMC提供的工具和实用程序列表：

期刊书目
预防性维修检查与诊断-PMID（项目管理标识）-手稿ID-内政部转换器
XML格式验证器和SGML公司验证器
PMC样式检查器
文章预览器

大多数这些工具都是通过PMC静态快照，如上所述。

期刊书目

这是一个非常简单的表单接口Entrez公司搜索系统。

PMCID-PMID-手稿ID-DOI转换器

这由的PMCStatic快照提供前端系统，位于URLhttp://www.ncbi.nlm.nih.gov/pmc/pmctopmid/。此工具只是ID转换器的包装器API程序服务。请参阅ID转换器API文档页面了解更多信息。

XML和SGML验证器

这些由PMCStatic快照提供，该快照访问CGI公司后端用Perl编写来处理验证。上传的文件通过HTTPPOST请求发送到CGI后端，并使用一个单独的Perl模块来验证文档并报告错误。

PMC样式检查器

样式检查器验证上传的文档是否符合PMCXML格式标记指南(9). PMCStatic快照通过CGI公司后端用Perl编写。该CGI脚本通过一组XSLT转换发送上传的文档，这些转换检查文档是否符合标记准则定义的规则集。可以下载这些XSLT转换的版本。

文章预览器

文章预览器允许用户以在PMC中显示的方式查看上传的文章。该工具要求用户拥有MyNCBI帐户，并将上传的任何文章与该帐户相关联。

该工具运行的过程与PMC生产过程中使用的过程相同。这允许用户查看PMC中标记的文章无核武器 XML格式根据PMC样式或任何XML或SGML公司 DTD公司PMC目前接受数据提交。参见文章预览说明和常见问题解答了解更多信息。

文章预览器当前是作为独立的实现的CGI公司程序（不通过任何美国国立生物技术信息中心门户前端快照）。它访问独立的数据库它使用与主PMC生产数据库相同的模式和表创建。为了呈现转换的文章，它使用独立版本的渲染器后端.

参考文献

1: 将日志添加到PMC[Internet]。医学博士贝塞斯达：国家生物技术信息中心；2013年[引用自2013年11月1日]。可从以下位置获得网址：http://www.ncbi.nlm.nih公司.政府/pmc/pub/pubinfo/.
2: 授权您的作品[互联网]。加州山景城：创意共享；2013年[引用自2013年11月1日]。可从以下位置获得网址：//创意共享空间.组织/关于/许可证/.
三。: 公共访问[互联网]。Bethesda，医学博士：国家卫生研究院；2013年[引用自2013年11月1日]。可从以下位置获得公共访问.日本政府/.
4: PMC国际[互联网]。医学博士贝塞斯达：国家生物技术信息中心；2013年[引用自2013年11月1日]。可从以下位置获得网址：http://www.ncbi.nlm.nih公司.政府/pmc/about/pmci/.
5: PMC文件提交规范[互联网]。医学博士贝塞斯达：国家生物技术信息中心；2013年[引用自2013年11月1日]。可从以下位置获得网址：http://www.ncbi.nlm.nih公司.政府/pmc/pub/filespec/
6: 概况介绍：技术服务司[互联网]。医学博士Bethesda：国家医学图书馆：2013年[引用日期：2013年11月1日]。可从以下位置获得网址：http://www.nlm.nih.gov政府/pubs/factsheets/tsd.html.
7: PMC数据评估最低标准[互联网]。医学博士贝塞斯达：国家生物技术信息中心；2009年[引用自2013年11月1日]。可从以下位置获得网址：http://www.ncbi.nlm.nih公司.政府/pmc/pmcdoc/mindatareq.pdf
8: XML目录。OASIS标准，1.1版。2005年10月7日。(网址：http://www.绿洲开放.组织/委员会/下载.php/14810/xml-catalogs.pdf)
9: PubMed中央标签指南[互联网]。医学博士贝塞斯达：国家生物技术信息中心；2013年[引用自2013年11月1日]。可从以下位置获得网址：http://www.ncbi.nlm.nih公司.政府/pmc/pmcdoc/tagging-guidelines/文章/style.html
10: OAI-PMH服务[互联网]。医学博士贝塞斯达：国家生物技术信息中心；2013年[引用自2013年11月1日]。可从以下位置获得网址：http://www.ncbi.nlm.nih公司.政府/pmc/about/oai.html.
11: W3C公司。“处理指令”。可扩展标记语言（XML）1.0（第五版）。2008年[引用日期：2013年11月1日]。可从以下位置获得(网址：http://www.w3.org/TR/REC-xml/#sec-pi).
12: PMCID/PMID/NIHMSID转换器[互联网]。医学博士贝塞斯达：国家生物技术信息中心；2013年[引用自2013年11月1日]。可从以下位置获得网址：http://www.ncbi.nlm.nih公司.政府/pmc/pmctopmid/.
13: Entrez编程实用程序帮助[Internet]。医学博士贝塞斯达：国家生物技术信息中心；2010年[引用自2013年11月1日]。可从以下位置获得网址：http://www.新冠肺炎.政府/书籍/NBK25501/.
14: PMC帮助[Internet]。医学博士贝塞斯达：国家生物技术信息中心；2005年[引用日期：2013年11月1日]。可从以下位置获得网址：http://www.ncbi.nlm.nih公司.政府/书籍/NBK3825/.
15: PMC高级搜索生成器[Internet]。医学博士贝塞斯达：国家生物技术信息中心；2013年[引用自2013年11月1日]。可从以下位置获得网址：http://www.ncbi.nlm.nih公司.政府/pmc/advanced/.
16: My NCBI–过滤器[互联网]。贝塞斯达，医学博士：国家生物技术信息中心；2013年[引用自2013年11月1日]。可从以下位置获得网址：http://www.ncbi.nlm.nih公司.gov/sites/myncbi/filters网站/.
17: “使用过滤器”My NCBI帮助[Internet]。医学博士贝塞斯达：国家生物技术信息中心；2010年[引用自2013年11月1日]。可从以下位置获得网址：http://www.ncbi.nlm.nih公司.政府/书籍/NBK53591/.
18: Entrez链接描述[Internet]。医学博士贝塞斯达：国家生物技术信息中心；2013年[引用自2013年11月1日]。可从以下位置获得http://eutils（实用程序）.网络控制系统.nih.gov/enterz/query/static/enterzlinks.html#pmc.
19: 安装：工作流创建和监视界面。[互联网]。【引用日期：2013年11月1日】。可从以下位置获得网址：http://ergatis.sourceforge.net来源/.
20: 驼鹿：Perl[Internet]的后现代对象系统。无限互动；2006年[引用日期：2013年11月1日]。可从以下位置获得http://驼鹿.iinteractive.com/en网站/.
21: NCBI C++工具包[互联网]。医学博士贝塞斯达：国家生物技术信息中心；2004年[引用日期：2013年11月1日]。可从以下位置获得网址：http://www.ncbi.nlm.nih公司.政府/书籍/NBK7160/.
22: EXSLT[互联网]。【引用日期：2013年11月1日】。可从以下位置获得网址：http://www.exslt.org网站/.
23: Zorba NoSQL查询处理器[Internet]。2008年[引用日期：2013年11月1日]。可从以下位置获得网址：http://www.zorba.io（zorba.io）/.
24: 艾迪·奥斯马尼。学习JavaScript设计模式[Internet]。2012年【引用日期：2013年11月1日】。可从以下位置获得http://addyosmani网址.通用域名格式/资源/基本jsdesignpatterns/书/.
25: RANGEINPUT[互联网]。jQuery Tools[引用自2013年11月1日]。可从以下位置获得http://jquerytools网站.组织/文档/rangeinput/index.html.
26: 开放寻址[Internet]。Wikpedia【引用自2013年11月1日】。可从以下位置获得http://en网址.维基百科/wiki/Open_addressing（维基/打开地址）.
27: 杜鹃花哈希[互联网]。Wikpedia【引用自2013年11月1日】。可从以下位置获得http://en网址.维基百科/wiki/Cuckoo_散列.
28: 欧洲PubMed Central。【引用日期：2013年11月1日】。可从以下位置获得http://europepemc网址.组织/.
29: PMC加拿大。【引用日期：2013年11月1日】。可从以下位置获得网址：//pubmedcentralcanada.ca/pmcc/.
30: 欧洲PubMed中央资助机构。【引用日期：2013年11月1日】。可从以下位置获得http://europepemc网址.组织/资助者/。
31: 文件验证工具[Internet]。医学博士贝塞斯达：国家生物技术信息中心；2013年[引用自2013年11月1日]。可从以下位置获得网址：http://www.ncbi.nlm.nih公司.政府/pmc/pub/validation/.

书架编号：NBK153388