跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航

PMC文章数据集

有兴趣在PubMed Central(PMC)中自动检索机器可读格式的文章吗?PMC和NCBI书架提供期刊文章和其他科学出版物的几个大型数据集,以便根据许可条款进行检索,与传统的受版权保护的作品(例如,Creative Commons许可)相比,许可条款通常允许更自由的重新分发和重用。

提示图标
  • 并非PMC中的所有文章都可用于文本挖掘和其他重用。
  • 这个PMC云服务,PMC OAI-PMH服务,PMC FTP服务,电子实用程序生物化学原料药是唯一可用于自动检索PMC内容的服务。禁止通过任何其他自动化过程对物品进行系统检索(或批量检索)。
  • 许可条款各不相同。有关具体的使用条款,请参阅每一篇文章中的许可声明。
  • 此数据集的用户直接且全权负责遵守版权限制,并应遵守版权所有者定义的条款和条件(参见PMC版权声明).

关于数据集

内容 许可条款 如何访问 XML格式 TXT公司 PDF格式
PMC开放访问子集 这个PMC开放访问子集(或PMC OA子集)包含数以百万计的全文开放存取文章文件,这些文件是根据Creative Commons或类似许可条款或经出版商许可提供的。该数据集包括撤回、更正和关注表达*。还包括来自PMC COVID-19收集在允许进行二次分析和重用的条件下,这些信息将继续可用。 按许可证类型细分:

允许商业使用:CC0、CC BY、CC BY-SA、CC BY-ND

仅限非商业用途:CC BY-NC、CC BY-NC-SA、CC BY-NC-ND

其他:无机器可读的Creative Commons许可证、无标记的许可证或自定义许可证
绿色复选标记表示此格式中可用 绿色复选标记表示此格式中可用 绿色复选标记表示此格式中可用(仅限FTP)
作者手稿数据集 这个作者手稿数据集由数十万个全文文件组成公认作者手稿根据合作伙伴出资人的政策在PMC中提供。该数据集包括撤回、更正和关注表达*. 默认许可证:“此文件可用于文本挖掘。也可以根据版权法的合理使用原则使用。”

包含Creative Commons许可证的AAM也可通过开放存取子集获得。
绿色复选标记表示此格式中可用 绿色复选标记表示此格式中可用
历史OCR数据集 18、19和20世纪发表的文章中OCR文本的全文文件添加到PMC中,作为NLM数字化项目. 文件通常可用于文本挖掘。

最近添加的文章可能还包括Creative Commons许可证,因此也可以通过Open Access Subset获得。
绿色复选标记表示此格式中可用
LitArch开放存取子集 这个LitArch开放存取子集包含中数千本书和文档的全文NLM文献档案. Creative Commons或类似许可 绿色复选标记表示此格式中可用

*可以通过查找<article>元素中的属性article-type=“retraction”或“correction”或者“expression-on-f-concern”,在可下载的XML文件中识别检索、更正和关注点表达式。在纯文本文件中,在Front部分查找Retraction、Correction或Expression of Concern。也可以使用分别具有retraction[filter]、correction[filter]或expression of concern[filter]值的搜索过滤器来找到撤回、更正或关注表达。

上次修改时间:2024年1月30日星期二