PKDE4J型

公共知识发现中的实体与关系抽取。由于大量的科学出版物无法人工处理,文本挖掘技术在自动信息提取中的应用越来越受到人们的关注,尤其是在生物医学领域。这些技术为信息搜索、知识发现和假设生成提供了有效的手段。以往的研究主要集中在命名实体识别和关系抽取的设计和性能改进上。在本文中,我们提出了一个综合性的文本挖掘系统PKDE4J,它集成了基于词典的实体抽取和基于规则的关系抽取,具有高度的灵活性和可扩展性。从斯坦福大学CoreNLP开始,我们开发了一个系统来处理多种类型的实体和关系。该系统还具有相当好的准确性和配置文本处理组件的能力。通过对多个语料库的评价,我们发现它优于现有的系统,实体抽取的平均F-测度为85%,关系抽取的平均F-测度为81%。