EMBL-EBI和我们的合作者管理的数据资源对你的工作产生影响?
如果是这样,请花10分钟填写我们的调查,并帮助我们说明为什么维持开放数据资源对生命科学研究至关重要。
进行调查

此网站需要Cookie,并且您的个人数据才能发挥作用。使用该网站即表示您同意如我们的隐私声明和cookie策略.

批注提交服务

引言


注释提交服务是一种发布机制欧洲PMC注释平台上的注释。

简单地说,您为我们提供了希望共享的注释,并且我们通过SciLite在欧洲PMC网站上发布并制作可通过欧洲PMC注释API.

基本规则


  • 注释应丰富任何摘要以及所有开放式摘要的内容访问欧洲PMC平台中包含的全文文章突出生物或方法实体并提供链接相关资源。
  • 注释标记的生物实体的链接应为公共且无限制可访问(无订阅或登录屏幕)。
  • 欧洲PMC注释平台上发布的所有注释都将被视为公共领域,并将在网站上发布通过欧洲PMC注释API共享。
  • 我们强烈鼓励使用任何用于生成注释的算法/代码设置为可共享/开源。
  • 我们保留删除注释的权利,例如,如果内容不在范围内,或不再得到合理维护。

入门


请发送电子邮件至annotations@europepmc.org,简要描述要共享的注释。我们会得到与您联系并提供生成注释数据集并将其上传到平台中。

根据说明生成注释文件后下面,您可以使用您的私有云存储系统。

我们已经尽力让它变得简单,这样即使你没有坚强技术技能方面,仍有可能做出贡献。

通过使用注释提交系统,您承认您已阅读并接受欧洲PMC高级用户服务隐私声明.

提交过程


一旦您通过以下地址联系我们annotations@europepmc.org,我们将向您提供以下信息:

  1. 要在提交的文件中使用的提供程序ID。
  2. 私有云存储系统的URL以及用户名和提交注释文件所需的密码。您可以自由随时更改这些凭据,但如果您这样做请发送电子邮件给我们annotations@europepmc.org尽快。这将允许我们修改系统以符合新凭据。
  3. 数据集的规范。

根据上述信息,可以提交文件包含平台的注释,可以使用web浏览器或编程方式。有关更多信息,请参阅“如何在生物学中共享文本挖掘结果“描述过程的视频。

每次提交将由一个文件组成。每个文件必须具有少于10000行,其中每行代表一个单独的文章带有所有相关注释。如果数据集包含的内容超过10000篇文章,因此您有10000多行要上传可以生成多个文件,然后提交zip或gzipped包含所有数据的tar文件(unix命令:tar-czvf提交文件tar.gz/*).

如果您使用浏览器,您可以按照和如下所示:

  • 转到分配的私有云存储系统的登录页面并使用您的凭据登录
  • 单击页面左侧的“提交”链接
  • 单击“+”图标,然后单击右侧的“上传文件”图标提交文件的页面底部
注释提交

您还可以通过编程方式提交文件。为此,请使用驱动程序描述的云存储系统的在这里.有许多不同语言的驱动程序可用。这里有一个使用Java Driver提交的简单示例:

MinioClient MinioClient=新的MinioClient(“https://annotations.europepmc.org“,”your_username“,”your_password“);文件fileToSend=新文件(文件名);minioClient.putObject(“提交”,fileToSend.getName(),新的FileInputStream(fileToSend),“应用程序/八位字节流”);

请注意,本例中指定的URL与URL不同您需要从浏览器访问才能提交文件。

提交文件后,将由提交人处理系统。系统应该每60分钟运行一次,所以它可以花点时间确认新文件。一旦过程开始,您将收到两封电子邮件:

  1. 第一封电子邮件将通知您,您的文件将在系统中进行处理和加载。你可以期待电子邮件主题表示“加载注释文件<文件名>提供者<提供者名称>正在启动“。
  2. 提交文件完成后,将发送第二封电子邮件已处理。它会通知你手术的结果反映在电子邮件主题中。如果操作成功主题为“注释加载文件<文件名>performed successfully”,您可以找到文章的数量已在电子邮件附件中成功处理。如果过程失败主题为“注释加载文件<文件名称>失败”,电子邮件将说明加载原因失败,要求您解决已确定的问题并重新提交数据。

提交结果的相关数据也可以在使用“results”链接登录到私有云存储系统位于浏览器的左侧。例如,如果您提交文件“abstract.09_06_2018.tar.gz”,您将找到相关文件在提交文件夹中包含通过电子邮件发送的信息(文件“Log_abstract.09_06_2018.tar.gz.txt”)和结果文件夹(文件“Result_abstract.09_06_2018.tar.gz.txt”)。

注释提交结果

数据格式


每个文件必须采用UTF-8编码。

注释文件中的每一行都包含一个JSON对象特定文章的注释:

{“src”:“MED”,“id”:“27105176”,“provider”:“europepmc”,“anns”:[{“position”:“1.2”,“prefix”:“要评估的非侵袭性标记”,“exact”:”肝纤维化“,“section”:“Title”,”postfix“:“.”,“tags”:[}“name”:“肝纤维化”,“uri”:http://linkedlifedata.com/resource/umls-concept/C0239946“}]},{”position“:”2.1“,”prefix“:”“,”exact“:“慢性肝病”,”section“:”Abstract“,”postfix“:”represents a major public health probleb“,”tags“:[{”name“:”Chronic liver disease“,”uri“:http://linkedlifedata.com/resource/umls-concept/C0341439“}]},{”position“:”3.2“,”prefix“:”and progression of“,”exact“:“肝纤维化”,”section“:”Abstract“,”postfix“:”with time and the r“,”tags“:[{”name“:”liver fibrosis“,”uri“:http://linkedlifedata.com/resource/umls-concept/C0239946“}]},{”位置“:”3.4“,”前缀“:”h时间和发展风险“,”确切“:”肝硬化“,”节“:”摘要“,”后缀“:”.“,”标记“:[{”名称“:”硬化“,”uri“:”http://linkedlifedata.com/resource/umls-concept/C0023890“}]},{”position“:”7.2“,”prefix“:”essing the presence and the degree of“,”exact“:“肝纤维化”,”section“:”Abstract“,”postfix“:”.“,”tags“:[{”name“:”liver fibrosis“,”uri“:http://linkedlifedata.com/resource/umls-concept/C0239946“}]},{”position“:”8.2“,”prefix“:”e方法在评估中有用“,”exact“:“肝纤维化”,”section“:”Abstract“,”postfix“:”.“,”tags“:[{”name“:”肝纤维化“,”uri“:http://linkedlifedata.com/resource/umls-concept/C0239946" } ] } ] }

平台中有两种类型的注释:基于句子的注释注释和命名实体注释。

每个对象应遵循的JSON模式信息各不相同根据注释类型。更多详细信息和数据提交前的验证准则在这里.

一篇文章基于句子的注释示例:

{“src”:“PMC”,#文章来源“id”:“PMC5844054”,#源字段上下文中项目的标识符“provider”:“Disgenet”,#提供者名称“anns”:[      {“确切”:“……SBP1缺失可能会导致……侵袭性疾病。”,#注释句“section”:“abstract”,#注释所在文章的section。“标记”:[{#标记的实体“name”:“……SBP1缺失可能导致……侵袭性疾病。”,#识别标记实体的名称“uri”:“http://purl.uniprot.org/uniprot/Q13228“#标记实体的特定URI        }]      },....#此处显示其他注释元素    ]}

一篇文章的命名实体注释示例:

  {“src”:“MED”,#文章来源“id”:“27105176”,#源字段上下文中文章的标识符“provider”:“europepmc”,#提供者名称“anns”:[      {“位置”:“1.2”,#实体在文章中的位置“prefix”:“要评估的非侵入性标记”,#文章句子内实体的前缀“后缀”:“.”,#文章句子内实体的后缀“确切”:“肝纤维化”,注释中提及的实体号“section”:“Title”,找到注释的文章的#节。“标记”:[{#标记的实体“name”:“肝纤维化”,#识别标记实体的名称“uri”:“http://linkedlifedata.com/resource/umls-concept/C0239946“#标记实体的特定URI        }]      },....#此处显示其他注释元素]  }

以下是带有相关解释的字段列表:

姓名含义笔记
型钢混凝土文章来源必填字段。它必须是以下值之一:
  • 基础教学法硕士:PubMed MEDLINE摘要
  • 项目管理咨询公司:PubMedCentral全文文章
  • 拍打:专利
  • AGR公司:阿格里科拉(USDA/NAL)
  • 中国男子篮球职业联赛:中国生物文摘
  • HIR公司:NHS证据(英国HIR)
  • CTX公司:CiteXlore提交
  • 以太币:EThOS论文(BL)
  • CIT公司:CiteSeer(PSU)
身份证件src字段上下文中项目的标识符假如必填字段
供应商提供者的名称必填字段。它必须与指定的识别名称匹配在订阅阶段发送给提供商
人工神经网络注释列表必填字段
anns.位置注释的位置仅命名实体注释的必填字段。我们需要物品中被开采实体的相对顺序。这个信息用于帮助定位和突出挖掘文本中的实体。例如,“1.3”表示该实体在文章第一句的第三段
anns.前缀出现在标记实体之前的句子部分仅与命名实体识别注释相关。对于每个注释在前缀和后缀之间至少有一个字段必须指定
anns.postfix出现在标记实体后面的句子部分仅与命名实体识别注释相关。对于每个注释在前缀和后缀之间至少有一个字段必须指定
anns.exact公司标记实体的文本必填字段
anns.截面标记实体所在文章部分的名称出现可选字段。对于与全文文章(src=PMC)可能的值列表为:
  • 标题
  • 摘要
  • 介绍
  • 方法
  • 结果
  • 讨论
  • 致谢
  • 工具书类
  • 案例研究
  • 补充材料
  • 结论
  • 缩写
  • 竞争性利益
  • 文章(如果注释不能映射到任何其他部分)
对于任何其他文章来源,可能的值为:
  • 标题
  • 摘要(默认)
anns.tags标签此注释标记的实体列表必填字段。此列表应至少包含一个标记
anns.tags.名称标记实体的名称必填字段
anns.tags.uri网站实体链接到的ID或登录号的URI(例如:UniPort:http://purl.uniprot.org/uniprot/[Acs_number])。必填字段