自然语言处理(NLP)工具在以下情况下性能最佳用于他们接受培训的同一类内容测试。不幸的是,对于STM领域的用户,我们的内容与常用新闻专线文本的一些重大差异在大多数NLP工具的开发中。有一些STM的语料库内容,但我们知道的内容特定于一个域,例如作为生物医学,通常由摘要组成,而不是全文。这不太理想,因为数学文章与生物床文章非常不同,文章也非常不同摘自摘要。
语料库
为了改善这种情况,爱思唯尔提供了110种选择来自10个不同STM领域的期刊文章可免费再发行语料库。这些文章是从我们的开放存取内容中选择的并拥有Creative Commons CC-BY许可证。因此,他们可以自由地重新分配和使用。这些领域包括农业、天文学、,生物学、化学、计算机科学、地球科学、工程学、,材料科学、数学和医学。目前我们提供11个10个领域中的每个领域中的文章。对于语料库中的每一篇文章,我们提供:
- XML源,
- 简单的文本版本,便于文本挖掘,
- 具有不同注释的多个版本。其中包括部分语音标记、句号、NP和VP块、引理、句法成分解析、维基百科概念识别和话语分析。(其中一些仍在建设中。)
注释和测试集
除了拥有广泛的STM语料库外,我们还希望内容被许多不同类型的NLP分析超出上述范围。这不仅允许对相同类型注释的算法进行比较允许自动选择要用于创建的功能高阶注释。
大多数注释都是自动创建的。然而,我们已经确定了10个文档作为默认测试集。作为新的注释类型添加后,这些文章应该是手动的首选审查并更正测试数据。
树库
为了启动手动创建测试集的过程,Elsevier已经委托对默认测试中的十篇全文文章进行树库设置。我们希望这个语料库和树库成为一个有价值的资源面向NLP、语言学和文本挖掘研究人员、开发人员和用户,因为我们都在努力开发能够更好地处理问题的工具STM内容。
上下文
数量 |
内容 |
约1200万 |
所有爱思唯尔杂志文章 |
约60万 |
全部可以自由阅读爱思唯尔杂志文章。PDF免费阅读。 |
约15公里 |
具有CC-BY许可证的Open Access文章。PDF可以免费阅读、重新发布和使用。 |
110 |
STM语料库文章。PDF和XML可以免费阅读、重新发布和使用。 |
10 |
项目的默认测试集。手动注释的起点,以及我们树库的来源。 |
未来
2015年1月11日,FORCE2015黑客马拉松公开预发布。我们将根据预发布的反馈进行修订。语料库和树库的完全发布将在所有10篇文章都被树库链接后进行。根据社区的反馈,我们可能会在最初的110篇之外的语料库中添加其他文章。