COVID-19开放研究数据集（CORD-19）

CORD-19是关于新冠肺炎和相关冠状病毒研究的学术论文语料库。它由艾伦人工智能研究所的语义学者团队策划和维护，以支持文本挖掘和NLP研究。请阅读我们的论文，深入了解其创建过程：https://www.aclweb.org/选集/202.nlpcovid19 acl.1/

CORD-19的最终版本于2022年6月2日发布。自2020年3月13日启动数据集以来，我们几乎每周都会发布数据集的更新版本。从第一个版本的大约4万篇文章开始，该数据集已经增长到索引超过100万篇论文，包括近37万篇论文的全文内容。我们感谢您在整个过程中的支持和反馈。有关更多信息，请参阅博客帖子。下面提供了备用数据资源列表其他资源.

更新

2022-06-02–CORD-19最终发布
2021-03-01 -评论文章发表于《生物信息学简报》
2020-07-09-CORD-19提出了在NLP-COVID研讨会上。
2020-03-13-CORD-19首次发布

重要注意事项

我们已经执行了一些数据清理，足以支持大多数文本挖掘和NLP研究工作。但我们不打算对这些数据进行足够的清理，以用于直接阅读有关新冠肺炎或冠状病毒的论文。总会有一些错误，这将使CORD-19在某些应用程序中比其他应用程序更/更不可用。我们将由用户决定，但请随时咨询我们以获取建议。

虽然CORD-19最初于2020-03-13发布，但当前模式是根据2020-05-26的更新定义的。旧版本的CORD-19不一定完全遵循本自述文件中定义的模式。如果使用旧的CORD-19版本，请在此方面寻求帮助。

下载

可以找到CORD-19的所有版本酒店雇员和饭馆雇员.

首次发布版本（2020-03-13）：下载链接 （尺寸：0.3Gb，md5:a36fe181，sha1:8fbea927）

上次发布版本（2022-06-02）：下载链接 （大小：18.7Gb，md5:c557069e，sha1:dd2c32bc）

用于TREC-COVID共享任务的数据集版本

TREC-COVID共享任务网站：https://ir.nist.gov/covid提交/index.html

TREC-COVID病毒	日期	变更日志	下载链接	md5型	沙阿1
第1轮	2020-04-10	链接	cord-192020-04-10.tar.gz（1.5GB）	`f4c3e742`	`4980d8人`
第2轮	2020-05-01	链接	cord-192020-05-01.tar.gz（1.7GB）	`电子8c56920`	`dc22dbc9型`
第3轮	2020-05-19年	链接	cord-192020-05-19.tar.gz（2.8GB）	`6424天9分`	`1781b935年`
第4轮	2020-06-19	链接	cord-192020-06-19.tar.gz（3.3GB）	`47亿61215`	`fdd0490e`
第5轮	2020-07-16	链接	cord-192020-07-16.tar.gz（3.7GB）	`018c4bc4（公元前4年）`	`7adcf31a型`

EPIC-QA共享任务使用的数据集版本

EPIC-QA共享任务网站：https://bionlp.nlm.nih.gov/epic_qa/

EPIC-QA公司	日期	变更日志	下载链接	md5型	沙阿1
初赛	2020-06-19	链接	cord-192020-06-19.tar.gz（3.3GB）	`47亿61215`	`fdd0490e`
第一轮	2020-10-22	链接	cord-19_2020-10-22.tar.gz（5.3GB）	`7cb9e743号`	`7参考285f`

概述

CORD-19发布每周的语料库的每个版本都带有日期戳（例如。2020年5月26日). 发布内容如下：

|-- 2020-05-26/|--变更日志|--绳索_19_嵌入.tar.gz|--文档分析.tar.gz|--元数据.csv|-- 2020-05-27/|-- ...

每个版本中的文件包括：

变更日志：一个文本文件，总结了此版本与上一版本之间的更改。
绳索_19_嵌入.tar.gz：预计算的集合SPECTER公司每个CORD-19文件的文档嵌入
文档_地址.tar.gz：包含CORD-19论文子集全文解析的JSON文件集合
元数据.csv：所有CORD-19论文的元数据。

什么时候？绳索_19_嵌入.tar.gz是未压缩的，它是一个769列CSV文件，其中第一列是音频（_U）其余的列对应于768维文档嵌入。例如：

ug7v899j，-2.939983606338501，-6.312200546264648，-1.0459030866622925,5.164162635803223，-0.32564637064933777，-2.507413387298584,1.735608696937561,1.9363566637039185,0.622501015663147,1.5613162517547607，。。。

什么时候？文档_地址.tar.gz未压缩，它是一个目录：

|--文档分析/|--pdf杰森/|--80013c44d7d2d3949096511ad6fa424a2c740813.json公司|--bfe20b3580e7c539c16ce4b1e424caf917d3be39.json公司|-- ...|--pmc_json公司/|--PMC7096781.xml.json公司|--PMC7118448.xml.json公司|-- ...

示例用法

我们建议大家主要使用元数据.csv&需要时使用中的全文扩充数据文档分析（_P）/例如，假设我们想收集一系列论文的标题、摘要和简介。在Python中，这样的脚本可能如下所示：

导入csv导入操作系统导入json从集合导入defaultdictcord_uid_to_text=默认字典（列表）#打开文件打开（'metadata.csv'）作为f_in：阅读器=csv。DictReader（_in）对于读卡器中的行：#访问一些元数据cord_uid=行['cord_uid']title=行['title']abstract=行['abstract']authors=row['authors'].split（'；'）#访问简介的全文（如果可用）简介=[]如果行[“df_json_files”]：对于第['pdf_json_files'].split（'；'）行中的json_path：将open（json_path）作为f_json：full_text_dict=json.load（f_json）#从全文的一些版本中抓取介绍部分对于full_text_dict['body_text']中的paragraph_dict：paragraph_text=paragraph _ dict[“文本”]section_name=paragraph_dict['section']如果section_name.lower（）中的“intro”：引言.附录（段落文本）#如果已经有介绍，停止搜索其他全文副本如果介绍：打破#保存以备以后使用cord_uid_to_text[cord_uid].追加({“title”：标题，“abstract”：抽象，“简介”：简介})

`元数据.csv`概述

我们建议每个人都与元数据.csv作为起点。此文件由以下列以逗号分隔：

有线ID：A字符串-值字段，为每个CORD-19纸张分配唯一标识符。这不一定每行都是唯一的，常见问题解答中对此进行了解释。
沙：A列表[str]-值字段，是与CORD-19论文关联的所有PDF的SHA1。大多数论文在这里要么有零值，要么有一个值（因为我们要么有PDF文件，要么没有），但有些论文会有多个值。例如，主文件可能会将补充信息保存在单独的PDF中。或者我们可能有同一篇论文的两个单独的PDF副本。如果存在多个PDF，则它们的SHA1将用分号分隔（例如。‘eb6e65ee70e2Ae2edde67da42831ff4a；d4f0247db5e916c20eae3f6d772e8572eb828236’)
源_x：A列表[str]-值字段，它是我们收到本文的来源的名称。也用分号分隔。例如，‘ArXiv；爱思唯尔；PMC；世界卫生组织。应始终至少列出一个源。
标题：A字符串-论文标题的值字段
国防部：A字符串-文件DOI的值字段
pmcid公司：A字符串-PubMed Central上论文ID的valued字段。应该以开头项目管理咨询公司后跟一个整数。
公共id：安整数-PubMed上论文ID的valued字段。
许可证：A字符串-我们发现与本文相关的具有最宽松许可证的valued字段。可能的值包括：‘cc0’，‘hybrid-oa’，‘els-covid’，‘no-cc’，‘cc-by-nc-sa’，‘cc-by’，‘gold-oa’，’biorxiv’，‘green-oa’’，‘bronze-oa’、’cc-by-nc’，‘medrxiv’、‘cc-by-nd’，’arxiv‘，‘unk’，‘acc-by-nc-nd’
摘要：A字符串-论文摘要的值字段
发布时间：A字符串-论文发布日期的值字段。这是在日期格式格式。并不总是准确的，因为有些出版商会用未来的日期来表示未知的日期，比如yyyy-12-31年
作者：A列表[str]-论文作者的值字段。每个作者的名字都在最后，第一个中间格式和分号分隔。
杂志：A字符串-纸质期刊的值字段。字符串未规范化（例如。BMJ公司和英国医学杂志可以同时存在）。如果未知，则为空字符串。
杂志id：已弃用，但最初为整数-Microsoft学术图表中所示的论文的值字段。
谁提供了id：A字符串-WHO为本文分配的ID的值字段。格式如下#72306.
arxiv_id：A字符串-本文的arXiv ID的值字段。
pdf文件：A列表[str]-valued字段，包含从当前数据转储版本的根到将纸质PDF解析为JSON格式的路径。多个路径以分号分隔。例子：document_parses/pdf_json/4eb6e165ee705e2ae2a24ed2d4e67da42831ff4a.json；document_parses/pdf_json/d4f0247db5e916c20eae3f6d772e8572eb8236.json
pmc_json_文件：A列表[str]-值字段。同上，但对应于从PMC下载的全文XML文件，解析为与上面相同的JSON格式。
网址：A列表[str]-值字段，包含与本文关联的所有URL。分号分隔。
s2_id：A字符串-包含本文的语义学者ID的valued字段。可以与语义学者API一起使用（例如。s2_id=9445722对应于http://api.semanticscholar.org/corpusid:9445722)

关于CORD-19的问题

为什么同样的`有线ID`出现在多行中？

这是一个非常棘手的问题，我们还没有决定最佳的前进道路。为了解释，让我们举个例子cord_uid=hox2xwjg。检查元数据文件中各自的行，我们发现它们是同一张纸，但来自不同的来源（Elsevier，PMC）。Elsevier行有DOI和PDF，但PMC行没有。此外，每一行的PMC ID、发布日期和URL都不同。

从技术上讲，所有这些数据都是纸张的代表hox2xwjg型所以我们不想删除其中的任何一个。但是将它们合并到一个集群需要对数据进行模式更改，这将破坏很多人的代码。希望这不是一个太大的问题，因为只有一小部分论文受到影响，但我们知道这个问题存在，我们正在讨论什么是最好的前进道路。

为什么PMC JSON不包含任何摘要，而PDF JSON包含摘要？

metadata.csv文件中的摘要是直接从出版商或数字档案馆提供的“黄金”。因为PMC在为我们提供“黄金”抽象方面非常一致，所以我们不需要解析PMC XML来获取抽象文本（它已经在metadata.csv中）。因此，PMC JSON不包含抽象。PDF JSON并非如此。我们通常通过爬行获取PDF，这样就不会有“黄金”摘要提供给我们。因此，我们仍然选择解析PDF以获取抽象文本，这就是该字段存在的原因。

为什么JSON中的标题/作者看起来与元数据文件中的不同？

最可能的原因是PDF解析错误。有时，出版商的元数据与PDF本身实际显示的元数据不同（例如，作者姓名略有不同）。我们鼓励用户在默认情况下使用元数据文件中的字段，只有在JSON缺失时才使用它。

为什么JSON缺少某些元数据，比如发布日期？

JSON仅用于以结构化、机器可读的格式表示PDF的全文。许多元数据字段（如日期和地点）通常不会出现在PDF中。请遵守所有此类字段的元数据文件，因为这些字段直接来自发布者。

你是如何处理表格、图形、方程式等纸上物体的？

CORD-19中的许多论文都包含HTML表解析。下面的文档解析文件中提供了这些表解析参考条目（_E）类型表的。注：没有全部的表将具有HTML解析。这些解析利用了IBM Watson Discovery功能（更多详细信息可以在我们的论文中找到）。

图形图像当前不可用。我们目前正在研究如何最好地支持这些。至于方程式，我们在这里没有做任何特殊的事情——符号被视为文本，应该包含在文本blob中。

如果PDF和PMC JSON都存在，我们该怎么办？或者如果有多个PDF JSON？

我们将这些视为代表同一文件的不同尝试/观点。有些产品的质量将高于其他产品。处理这些是同一文档的不同表示形式–您可以选择使用一种表示形式，也可以同时使用两种表示形式（即只使用元数据字段）。平均而言，我们认为PMC JSON比PDF JSON更干净，但这并不一定正确。

为什么同样的`沙`出现不同的`音频（_U）`?

让我们看一看示例cord_uid=d9v5xtx7和cord_uid=8avkjc84。他们都共享PDFsha=5d0d0bd116976e1412c10a84902894999df4a342这是我们从爱思唯尔获得的两篇论文。如果您遵循这些URL，您会注意到它们实际上检索到相同的PDF，尽管DOI不同。这是来自发布者的上游错误，我们不一定要对此采取任何措施。希望这些病例的数量很少。

联系人

邮件列表

订阅有关CORD-19的通知：https://share.hsforms.com/1cM7MMF68RqCdbBKTcyN7VQ3ioxm

电子邮件

请发送电子邮件lucyw@allenai.org和kylel@allenai.org任何问题或担忧。

引用CORD-19

我们的论文被ACL 2020 NLP-COVID研讨会接受。请参阅OpenReview上的评论：https://openreview.net/forum？id=0gLzHrE_t3z该论文可在ACL文集（以下BibTeX）中找到：https://www.aclweb.org/选集/202.nlpcovid19 acl.1

@正在进行{wang-etal-2020跳线，title=“{CORD-19}:{COVID-19}开放研究数据集”，作者=“王，露西·卢和罗，凯尔和钱德拉塞卡，约根和瑞斯，罗素和杨，江江和伯迪克，道格和艾德，达林和芬克，凯瑟琳和凯蒂斯，亚尼斯和金尼，罗德尼·迈克尔和李，云耀和刘，资阳和梅里尔，威廉和穆尼，保罗和默迪克，杜威A.和里希，德夫雷特和希恩，杰里和沈，志宏和Stilson、Brandon和Wade、Alex D.和Wang、Kuansan和Wang、Nancy Xin Ru和Wilhelm、Christopher和Xie、Boya和Raymond、Douglas M.和Weld、Daniel S.和Etzioni、Oren和Kohlmeier、Sebastian”，booktitle=“{ACL}2020年{COVID-19}{NLP}第一次研讨会会议记录”，月=七月，年=“2020”，address=“在线”，publisher=“计算语言学协会”，url=“https://www.aclweb.org/antology/2020.nlpcovid19-acl.1”}

使用CORD-19的项目

这是Google Sheet跟踪系统和演示使用CORD-19。项目按随机顺序列出。我们这里的重点是收集可能无法发现的社区工作，因为系统和演示并不总是能转化为论文（我们可以通过引用CORD-19来找到）。

缺少您的数据或数据不完整？让我们知道使用这个谷歌表单或电子邮件我们！

其他资源

S2ORC-doc2json公司：我们使用此库将PDF和PubMed JATS XML处理为CORD-19中发布的格式。可以对该库进行调整，以生成您自己的数据集版本。可以找到使用库的源代码和说明在这里.

语义学者API：我们索引的论文的元数据、论文摘要和引文信息可通过我们的API获得。文档在这里.

S2ORC公司：以与CORD-19相同的方式处理数百万篇全文论文的数据集，但涵盖了许多不同的科学领域。未定期更新；用于离线研究，如模型开发。可用在这里.

公共医学中心：国家医学图书馆（NLM）继续与出版商合作，以人类和机器可读的形式在PubMed Central（PMC）上立即获取新冠肺炎和冠状病毒相关出版物及相关数据。可用在这里.

LitCovid公司：NLM继续更新其新冠肺炎相关出版物的LitCovid数据集，以促进文本挖掘。可用在这里.

姓名		姓名	上次提交消息	上次提交日期
最新提交历史 25次承诺
许可证		许可证
自述.md		自述.md

提供反馈

保存的搜索

使用保存的搜索更快地筛选结果

许可证

许可证

自述.md

自述.md

存储库文件导航

COVID-19开放研究数据集（CORD-19）

更新

重要注意事项

下载

用于TREC-COVID共享任务的数据集版本

EPIC-QA共享任务使用的数据集版本

概述

示例用法

`元数据.csv`概述

关于CORD-19的问题

为什么同样的`有线ID`出现在多行中？

为什么PMC JSON不包含任何摘要，而PDF JSON包含摘要？

为什么JSON中的标题/作者看起来与元数据文件中的不同？

为什么JSON缺少某些元数据，比如发布日期？

你是如何处理表格、图形、方程式等纸上物体的？

如果PDF和PMC JSON都存在，我们该怎么办？或者如果有多个PDF JSON？

为什么同样的`沙`出现不同的`音频（_U）`?

联系人

邮件列表

电子邮件

引用CORD-19

使用CORD-19的项目

其他资源

关于

发布

包装

贡献者三

许可证

阿勒奈/电线19

文件夹和文件

最新提交

历史

许可证

许可证

自述.md

自述.md

存储库文件导航

COVID-19开放研究数据集（CORD-19）

更新

重要注意事项

下载

用于TREC-COVID共享任务的数据集版本

EPIC-QA共享任务使用的数据集版本

概述

示例用法

元数据.csv概述

关于CORD-19的问题

为什么同样的有线ID出现在多行中？

为什么PMC JSON不包含任何摘要，而PDF JSON包含摘要？

为什么JSON中的标题/作者看起来与元数据文件中的不同？

为什么JSON缺少某些元数据，比如发布日期？

你是如何处理表格、图形、方程式等纸上物体的？

如果PDF和PMC JSON都存在，我们该怎么办？或者如果有多个PDF JSON？

为什么同样的沙出现不同的音频（_U）?

联系人

邮件列表

电子邮件

引用CORD-19

使用CORD-19的项目

其他资源

关于

资源

许可证

星星

观察者

叉子

发布

包装0

贡献者三

`元数据.csv`概述

为什么同样的`有线ID`出现在多行中？

为什么同样的`沙`出现不同的`音频（_U）`?

包装