跳到内容

阿勒奈/电线19

文件夹和文件

姓名姓名
上次提交消息
上次提交日期

最新提交

 
 
 
 
 

存储库文件导航

COVID-19开放研究数据集(CORD-19)

CORD-19是关于新冠肺炎和相关冠状病毒研究的学术论文语料库。它由艾伦人工智能研究所的语义学者团队策划和维护,以支持文本挖掘和NLP研究。请阅读我们的论文,深入了解其创建过程:https://www.aclweb.org/选集/202.nlpcovid19 acl.1/

CORD-19的最终版本于2022年6月2日发布。自2020年3月13日启动数据集以来,我们几乎每周都会发布数据集的更新版本。从第一个版本的大约4万篇文章开始,该数据集已经增长到索引超过100万篇论文,包括近37万篇论文的全文内容。我们感谢您在整个过程中的支持和反馈。有关更多信息,请参阅博客帖子。下面提供了备用数据资源列表其他资源.

更新

  • 2022-06-02–CORD-19最终发布
  • 2021-03-01 -评论文章发表于《生物信息学简报》
  • 2020-07-09-CORD-19提出了在NLP-COVID研讨会上。
  • 2020-03-13-CORD-19首次发布

重要注意事项

我们已经执行了一些数据清理,足以支持大多数文本挖掘和NLP研究工作。但我们不打算对这些数据进行足够的清理,以用于直接阅读有关新冠肺炎或冠状病毒的论文。总会有一些错误,这将使CORD-19在某些应用程序中比其他应用程序更/更不可用。我们将由用户决定,但请随时咨询我们以获取建议。

虽然CORD-19最初于2020-03-13发布,但当前模式是根据2020-05-26的更新定义的。旧版本的CORD-19不一定完全遵循本自述文件中定义的模式。如果使用旧的CORD-19版本,请在此方面寻求帮助。

下载

可以找到CORD-19的所有版本酒店雇员和饭馆雇员.

首次发布版本(2020-03-13):下载链接 (尺寸:0.3Gb,md5:a36fe181,sha1:8fbea927)

上次发布版本(2022-06-02):下载链接 (大小:18.7Gb,md5:c557069e,sha1:dd2c32bc)

用于TREC-COVID共享任务的数据集版本

TREC-COVID共享任务网站:https://ir.nist.gov/covid提交/index.html

TREC-COVID病毒 日期 变更日志 下载链接 md5型 沙阿1
第1轮 2020-04-10 链接 cord-192020-04-10.tar.gz(1.5GB) f4c3e742 4980d8人
第2轮 2020-05-01 链接 cord-192020-05-01.tar.gz(1.7GB) 电子8c56920 dc22dbc9型
第3轮 2020-05-19年 链接 cord-192020-05-19.tar.gz(2.8GB) 6424天9分 1781b935年
第4轮 2020-06-19 链接 cord-192020-06-19.tar.gz(3.3GB) 47亿61215 fdd0490e
第5轮 2020-07-16 链接 cord-192020-07-16.tar.gz(3.7GB) 018c4bc4(公元前4年) 7adcf31a型

EPIC-QA共享任务使用的数据集版本

EPIC-QA共享任务网站:https://bionlp.nlm.nih.gov/epic_qa/

EPIC-QA公司 日期 变更日志 下载链接 md5型 沙阿1
初赛 2020-06-19 链接 cord-192020-06-19.tar.gz(3.3GB) 47亿61215 fdd0490e
第一轮 2020-10-22 链接 cord-19_2020-10-22.tar.gz(5.3GB) 7cb9e743号 7参考285f

概述

CORD-19发布每周的语料库的每个版本都带有日期戳(例如。2020年5月26日). 发布内容如下:

|-- 2020-05-26/|--变更日志|--绳索_19_嵌入.tar.gz|--文档分析.tar.gz|--元数据.csv|-- 2020-05-27/|-- ...

每个版本中的文件包括:

  • 变更日志:一个文本文件,总结了此版本与上一版本之间的更改。
  • 绳索_19_嵌入.tar.gz:预计算的集合SPECTER公司每个CORD-19文件的文档嵌入
  • 文档_地址.tar.gz:包含CORD-19论文子集全文解析的JSON文件集合
  • 元数据.csv:所有CORD-19论文的元数据。

什么时候?绳索_19_嵌入.tar.gz是未压缩的,它是一个769列CSV文件,其中第一列是音频(_U)其余的列对应于768维文档嵌入。例如:

ug7v899j,-2.939983606338501,-6.312200546264648,-1.0459030866622925,5.164162635803223,-0.32564637064933777,-2.507413387298584,1.735608696937561,1.9363566637039185,0.622501015663147,1.5613162517547607,。。。

什么时候?文档_地址.tar.gz未压缩,它是一个目录:

|--文档分析/|--pdf杰森/|--80013c44d7d2d3949096511ad6fa424a2c740813.json公司|--bfe20b3580e7c539c16ce4b1e424caf917d3be39.json公司|-- ...|--pmc_json公司/|--PMC7096781.xml.json公司|--PMC7118448.xml.json公司|-- ...

示例用法

我们建议大家主要使用元数据.csv&需要时使用中的全文扩充数据文档分析(_P)/例如,假设我们想收集一系列论文的标题、摘要和简介。在Python中,这样的脚本可能如下所示:

导入csv导入操作系统导入json从集合导入defaultdictcord_uid_to_text=默认字典(列表)#打开文件打开('metadata.csv')作为f_in:阅读器=csv。DictReader(_in)对于读卡器中的行:#访问一些元数据cord_uid=行['cord_uid']title=行['title']abstract=行['abstract']authors=row['authors'].split(';')#访问简介的全文(如果可用)简介=[]如果行[“df_json_files”]:对于第['pdf_json_files'].split(';')行中的json_path:将open(json_path)作为f_json:full_text_dict=json.load(f_json)#从全文的一些版本中抓取介绍部分对于full_text_dict['body_text']中的paragraph_dict:paragraph_text=paragraph _ dict[“文本”]section_name=paragraph_dict['section']如果section_name.lower()中的“intro”:引言.附录(段落文本)#如果已经有介绍,停止搜索其他全文副本如果介绍:打破#保存以备以后使用cord_uid_to_text[cord_uid].追加({“title”:标题,“abstract”:抽象,“简介”:简介})

元数据.csv概述

我们建议每个人都与元数据.csv作为起点。此文件由以下列以逗号分隔:

  • 有线ID:A字符串-值字段,为每个CORD-19纸张分配唯一标识符。这不一定每行都是唯一的,常见问题解答中对此进行了解释。
  • :A列表[str]-值字段,是与CORD-19论文关联的所有PDF的SHA1。大多数论文在这里要么有零值,要么有一个值(因为我们要么有PDF文件,要么没有),但有些论文会有多个值。例如,主文件可能会将补充信息保存在单独的PDF中。或者我们可能有同一篇论文的两个单独的PDF副本。如果存在多个PDF,则它们的SHA1将用分号分隔(例如。‘eb6e65ee70e2Ae2edde67da42831ff4a;d4f0247db5e916c20eae3f6d772e8572eb828236’)
  • 源_x:A列表[str]-值字段,它是我们收到本文的来源的名称。也用分号分隔。例如,‘ArXiv;爱思唯尔;PMC;世界卫生组织。应始终至少列出一个源。
  • 标题:A字符串-论文标题的值字段
  • 国防部:A字符串-文件DOI的值字段
  • pmcid公司:A字符串-PubMed Central上论文ID的valued字段。应该以开头项目管理咨询公司后跟一个整数。
  • 公共id:安整数-PubMed上论文ID的valued字段。
  • 许可证:A字符串-我们发现与本文相关的具有最宽松许可证的valued字段。可能的值包括:‘cc0’,‘hybrid-oa’,‘els-covid’,‘no-cc’,‘cc-by-nc-sa’,‘cc-by’,‘gold-oa’,’biorxiv’,‘green-oa’’,‘bronze-oa’、’cc-by-nc’,‘medrxiv’、‘cc-by-nd’,’arxiv‘,‘unk’,‘acc-by-nc-nd’
  • 摘要:A字符串-论文摘要的值字段
  • 发布时间:A字符串-论文发布日期的值字段。这是在日期格式格式。并不总是准确的,因为有些出版商会用未来的日期来表示未知的日期,比如yyyy-12-31年
  • 作者:A列表[str]-论文作者的值字段。每个作者的名字都在最后,第一个中间格式和分号分隔。
  • 杂志:A字符串-纸质期刊的值字段。字符串未规范化(例如。BMJ公司英国医学杂志可以同时存在)。如果未知,则为空字符串。
  • 杂志id:已弃用,但最初为整数-Microsoft学术图表中所示的论文的值字段。
  • 谁提供了id:A字符串-WHO为本文分配的ID的值字段。格式如下#72306.
  • arxiv_id:A字符串-本文的arXiv ID的值字段。
  • pdf文件:A列表[str]-valued字段,包含从当前数据转储版本的根到将纸质PDF解析为JSON格式的路径。多个路径以分号分隔。例子:document_parses/pdf_json/4eb6e165ee705e2ae2a24ed2d4e67da42831ff4a.json;document_parses/pdf_json/d4f0247db5e916c20eae3f6d772e8572eb8236.json
  • pmc_json_文件:A列表[str]-值字段。同上,但对应于从PMC下载的全文XML文件,解析为与上面相同的JSON格式。
  • 网址:A列表[str]-值字段,包含与本文关联的所有URL。分号分隔。
  • s2_id:A字符串-包含本文的语义学者ID的valued字段。可以与语义学者API一起使用(例如。s2_id=9445722对应于http://api.semanticscholar.org/corpusid:9445722)

关于CORD-19的问题

为什么同样的有线ID出现在多行中?

这是一个非常棘手的问题,我们还没有决定最佳的前进道路。为了解释,让我们举个例子cord_uid=hox2xwjg。检查元数据文件中各自的行,我们发现它们是同一张纸,但来自不同的来源(Elsevier,PMC)。Elsevier行有DOI和PDF,但PMC行没有。此外,每一行的PMC ID、发布日期和URL都不同。

从技术上讲,所有这些数据都是纸张的代表hox2xwjg型所以我们不想删除其中的任何一个。但是将它们合并到一个集群需要对数据进行模式更改,这将破坏很多人的代码。希望这不是一个太大的问题,因为只有一小部分论文受到影响,但我们知道这个问题存在,我们正在讨论什么是最好的前进道路。

为什么PMC JSON不包含任何摘要,而PDF JSON包含摘要?

metadata.csv文件中的摘要是直接从出版商或数字档案馆提供的“黄金”。因为PMC在为我们提供“黄金”抽象方面非常一致,所以我们不需要解析PMC XML来获取抽象文本(它已经在metadata.csv中)。因此,PMC JSON不包含抽象。PDF JSON并非如此。我们通常通过爬行获取PDF,这样就不会有“黄金”摘要提供给我们。因此,我们仍然选择解析PDF以获取抽象文本,这就是该字段存在的原因。

为什么JSON中的标题/作者看起来与元数据文件中的不同?

最可能的原因是PDF解析错误。有时,出版商的元数据与PDF本身实际显示的元数据不同(例如,作者姓名略有不同)。我们鼓励用户在默认情况下使用元数据文件中的字段,只有在JSON缺失时才使用它。

为什么JSON缺少某些元数据,比如发布日期?

JSON仅用于以结构化、机器可读的格式表示PDF的全文。许多元数据字段(如日期和地点)通常不会出现在PDF中。请遵守所有此类字段的元数据文件,因为这些字段直接来自发布者。

你是如何处理表格、图形、方程式等纸上物体的?

CORD-19中的许多论文都包含HTML表解析。下面的文档解析文件中提供了这些表解析参考条目(_E)类型表的。注:没有全部的表将具有HTML解析。这些解析利用了IBM Watson Discovery功能(更多详细信息可以在我们的论文中找到)。

图形图像当前不可用。我们目前正在研究如何最好地支持这些。至于方程式,我们在这里没有做任何特殊的事情——符号被视为文本,应该包含在文本blob中。

如果PDF和PMC JSON都存在,我们该怎么办?或者如果有多个PDF JSON?

我们将这些视为代表同一文件的不同尝试/观点。有些产品的质量将高于其他产品。处理这些是同一文档的不同表示形式–您可以选择使用一种表示形式,也可以同时使用两种表示形式(即只使用元数据字段)。平均而言,我们认为PMC JSON比PDF JSON更干净,但这并不一定正确。

为什么同样的出现不同的音频(_U)?

让我们看一看示例cord_uid=d9v5xtx7cord_uid=8avkjc84。他们都共享PDFsha=5d0d0bd116976e1412c10a84902894999df4a342这是我们从爱思唯尔获得的两篇论文。如果您遵循这些URL,您会注意到它们实际上检索到相同的PDF,尽管DOI不同。这是来自发布者的上游错误,我们不一定要对此采取任何措施。希望这些病例的数量很少。

联系人

邮件列表

订阅有关CORD-19的通知:https://share.hsforms.com/1cM7MMF68RqCdbBKTcyN7VQ3ioxm

电子邮件

请发送电子邮件lucyw@allenai.orgkylel@allenai.org任何问题或担忧。

引用CORD-19

我们的论文被ACL 2020 NLP-COVID研讨会接受。请参阅OpenReview上的评论:https://openreview.net/forum?id=0gLzHrE_t3z该论文可在ACL文集(以下BibTeX)中找到:https://www.aclweb.org/选集/202.nlpcovid19 acl.1

@正在进行{wang-etal-2020跳线,title=“{CORD-19}:{COVID-19}开放研究数据集”,作者=“王,露西·卢和罗,凯尔和钱德拉塞卡,约根和瑞斯,罗素和杨,江江和伯迪克,道格和艾德,达林和芬克,凯瑟琳和凯蒂斯,亚尼斯和金尼,罗德尼·迈克尔和李,云耀和刘,资阳和梅里尔,威廉和穆尼,保罗和默迪克,杜威A.和里希,德夫雷特和希恩,杰里和沈,志宏和Stilson、Brandon和Wade、Alex D.和Wang、Kuansan和Wang、Nancy Xin Ru和Wilhelm、Christopher和Xie、Boya和Raymond、Douglas M.和Weld、Daniel S.和Etzioni、Oren和Kohlmeier、Sebastian”,booktitle=“{ACL}2020年{COVID-19}{NLP}第一次研讨会会议记录”,月=七月,年=“2020”,address=“在线”,publisher=“计算语言学协会”,url=“https://www.aclweb.org/antology/2020.nlpcovid19-acl.1}

使用CORD-19的项目

这是Google Sheet跟踪系统和演示使用CORD-19。项目按随机顺序列出。我们这里的重点是收集可能无法发现的社区工作,因为系统和演示并不总是能转化为论文(我们可以通过引用CORD-19来找到)。

缺少您的数据或数据不完整?让我们知道使用这个谷歌表单电子邮件我们!

其他资源

S2ORC-doc2json公司:我们使用此库将PDF和PubMed JATS XML处理为CORD-19中发布的格式。可以对该库进行调整,以生成您自己的数据集版本。可以找到使用库的源代码和说明在这里.

语义学者API:我们索引的论文的元数据、论文摘要和引文信息可通过我们的API获得。文档在这里.

S2ORC公司:以与CORD-19相同的方式处理数百万篇全文论文的数据集,但涵盖了许多不同的科学领域。未定期更新;用于离线研究,如模型开发。可用在这里.

公共医学中心:国家医学图书馆(NLM)继续与出版商合作,以人类和机器可读的形式在PubMed Central(PMC)上立即获取新冠肺炎和冠状病毒相关出版物及相关数据。可用在这里.

LitCovid公司:NLM继续更新其新冠肺炎相关出版物的LitCovid数据集,以促进文本挖掘。可用在这里.

发布

未发布版本

包装

未发布包

贡献者

  •  
  •  
  •