从Web中打开信息提取
引入了Open IE(OIE),这是一种新的提取范式,系统在其语料库中进行单个数据驱动传递,并提取大量关系元组,而无需任何人工输入。 推文中命名实体识别的实验研究
与斯坦福大学ner系统相比,新的T-ner系统将F1得分翻了一番,并利用推文中固有的冗余来实现这一性能,使用LabeledLDA将Freebase词典作为远程监督的来源。 你认为你已经解决了问题?尝试ARC,AI2推理挑战
AI2推理挑战(ARC)是一个新的问题集、文本语料库和基线集合,旨在鼓励人工智能在高级问答中的研究,它需要比以前的挑战(如SkuAD或SNLI)更强大的知识和推理能力。 面向信息提取的开放式语言学习
开放信息提取(IE)系统通过识别任意形式的关系短语和关联参数,从文本中提取关系元组,而不需要预先指定的词汇表…
从评论中提取产品特征和观点
介绍了Opine,这是一个无监督的信息提取系统,它对评论进行挖掘,以建立一个重要产品特征、评论人对其的评价以及跨产品的相对质量的模型。 CORD-19:Covid-19开放研究数据集
本文描述了数据集构建的机制,突出了挑战和关键设计决策,概述了CORD-19的使用方法,并描述了围绕数据集建立的几个共享任务。 Web文档聚类:可行性论证
为了满足Web领域的严格要求,引入了一种称为后缀树聚类(Suffix Tree Clustering,STC)的增量线性时间算法,该算法基于文档之间共享的短语创建聚类,表明STC比该领域的标准聚类方法更快。 学习用动词分类解决算术单词问题
本文分析了算术单词问题“体裁”,确定了此类问题中使用的七类动词,并在不依赖预定义模板的情况下报告了此任务的首次学习结果,并公开了数据。 开放式信息抽取:第二代
本文描述了第二代开放式IE系统,该系统依赖于一种新颖的模型,即关系及其参数如何在英语句子中表达,与以前的系统(如TEXTRUNNER和WOE)相比,其精确度/召回率提高了一倍。