2022-06-02–CORD-19最终发布 2021-03-01 - 评论文章 发表于《生物信息学简报》 2020-07-09-CORD-19 提出了 在NLP-COVID研讨会上。 2020-03-13-CORD-19首次发布
|
|
||||
|
|
||||
|
|
||||
|
|
||||
|
|
|
|
||||
|
|
|-- 2020-05-26/ |--变更日志 |--绳索_19_嵌入.tar.gz |--文档分析.tar.gz |--元数据.csv |-- 2020-05-27/ |-- ...
变更日志 :一个文本文件,总结了此版本与上一版本之间的更改。 绳索_19_嵌入.tar.gz :预计算的集合 SPECTER公司 每个CORD-19文件的文档嵌入 文档_地址.tar.gz :包含CORD-19论文子集全文解析的JSON文件集合 元数据.csv :所有CORD-19论文的元数据。
ug7v899j,-2.939983606338501,-6.312200546264648,-1.0459030866622925,5.164162635803223,-0.32564637064933777,-2.507413387298584,1.735608696937561,1.9363566637039185,0.622501015663147,1.5613162517547607,。。。
|--文档分析/ |--pdf杰森/ |--80013c44d7d2d3949096511ad6fa424a2c740813.json公司 |--bfe20b3580e7c539c16ce4b1e424caf917d3be39.json公司 |-- ... |--pmc_json公司/ |--PMC7096781.xml.json公司 |--PMC7118448.xml.json公司 |-- ...
导入csv 导入操作系统 导入json 从集合导入defaultdict cord_uid_to_text=默认字典(列表) #打开文件 打开('metadata.csv')作为f_in: 阅读器=csv。 DictReader(_in) 对于读卡器中的行: #访问一些元数据 cord_uid=行['cord_uid'] title=行['title'] abstract=行['abstract'] authors=row['authors'].split(';') #访问简介的全文(如果可用) 简介=[] 如果行[“df_json_files”]: 对于第['pdf_json_files'].split(';')行中的json_path: 将open(json_path)作为f_json: full_text_dict=json.load(f_json) #从全文的一些版本中抓取介绍部分 对于full_text_dict['body_text']中的paragraph_dict: paragraph_text=paragraph _ dict[“文本”] section_name=paragraph_dict['section'] 如果section_name.lower()中的“intro”: 引言.附录(段落文本) #如果已经有介绍,停止搜索其他全文副本 如果介绍: 打破 #保存以备以后使用 cord_uid_to_text[cord_uid].追加({ “title”:标题, “abstract”:抽象, “简介”:简介 })
有线ID :A 字符串 -值字段,为每个CORD-19纸张分配唯一标识符。 这不一定每行都是唯一的,常见问题解答中对此进行了解释。 沙 :A 列表[str] -值字段,是与CORD-19论文关联的所有PDF的SHA1。 大多数论文在这里要么有零值,要么有一个值(因为我们要么有PDF文件,要么没有),但有些论文会有多个值。 例如,主文件可能会将补充信息保存在单独的PDF中。 或者我们可能有同一篇论文的两个单独的PDF副本。 如果存在多个PDF,则它们的SHA1将用分号分隔(例如。 ‘eb6e65ee70e2Ae2edde67da42831ff4a; d4f0247db5e916c20eae3f6d772e8572eb828236’ ) 源_x :A 列表[str] -值字段,它是我们收到本文的来源的名称。 也用分号分隔。 例如, ‘ArXiv; 爱思唯尔; PMC; 世界卫生组织 。应始终至少列出一个源。 标题 :A 字符串 -论文标题的值字段 国防部 :A 字符串 -文件DOI的值字段 pmcid公司 :A 字符串 -PubMed Central上论文ID的valued字段。 应该以开头 项目管理咨询公司 后跟一个整数。 公共id :安 整数 -PubMed上论文ID的valued字段。 许可证 :A 字符串 -我们发现与本文相关的具有最宽松许可证的valued字段。 可能的值包括: ‘cc0’,‘hybrid-oa’,‘els-covid’,‘no-cc’,‘cc-by-nc-sa’,‘cc-by’,‘gold-oa’,’biorxiv’,‘green-oa’’,‘bronze-oa’、’cc-by-nc’,‘medrxiv’、‘cc-by-nd’,’arxiv‘,‘unk’,‘acc-by-nc-nd’ 摘要 :A 字符串 -论文摘要的值字段 发布时间 :A 字符串 -论文发布日期的值字段。 这是在 日期格式 格式。 并不总是准确的,因为有些出版商会用未来的日期来表示未知的日期,比如 yyyy-12-31年 作者 :A 列表[str] -论文作者的值字段。 每个作者的名字都在 最后,第一个中间 格式和分号分隔。 杂志 :A 字符串 -纸质期刊的值字段。 字符串未规范化(例如。 BMJ公司 和 英国医学杂志 可以同时存在)。 如果未知,则为空字符串。 杂志id :已弃用,但最初为 整数 -Microsoft学术图表中所示的论文的值字段。 谁提供了id :A 字符串 -WHO为本文分配的ID的值字段。 格式如下 #72306 . arxiv_id :A 字符串 -本文的arXiv ID的值字段。 pdf文件 :A 列表[str] -valued字段,包含从当前数据转储版本的根到将纸质PDF解析为JSON格式的路径。 多个路径以分号分隔。 例子: document_parses/pdf_json/4eb6e165ee705e2ae2a24ed2d4e67da42831ff4a.json; document_parses/pdf_json/d4f0247db5e916c20eae3f6d772e8572eb8236.json pmc_json_文件 :A 列表[str] -值字段。 同上,但对应于从PMC下载的全文XML文件,解析为与上面相同的JSON格式。 网址 :A 列表[str] -值字段,包含与本文关联的所有URL。 分号分隔。 s2_id :A 字符串 -包含本文的语义学者ID的valued字段。 可以与语义学者API一起使用(例如。 s2_id=9445722 对应于 http://api.semanticscholar.org/corpusid:9445722 )
@正在进行{wang-etal-2020跳线, title=“{CORD-19}:{COVID-19}开放研究数据集”, 作者= “王,露西·卢和罗,凯尔和钱德拉塞卡,约根和瑞斯,罗素和杨,江江和伯迪克,道格和艾德,达林和芬克,凯瑟琳和凯蒂斯,亚尼斯和金尼,罗德尼·迈克尔和李,云耀和刘,资阳和梅里尔,威廉和穆尼,保罗和默迪克,杜威A.和里希,德夫雷特和希恩,杰里和沈, 志宏和Stilson、Brandon和Wade、Alex D.和Wang、Kuansan和Wang、Nancy Xin Ru和Wilhelm、Christopher和Xie、Boya和Raymond、Douglas M.和Weld、Daniel S.和Etzioni、Oren和Kohlmeier、Sebastian”, booktitle=“{ACL}2020年{COVID-19}{NLP}第一次研讨会会议记录”, 月=七月, 年=“2020”, address=“在线”, publisher=“计算语言学协会”, url=“ https://www.aclweb.org/antology/2020.nlpcovid19-acl.1 ” }