INEX 2009系列

介绍

The INEX倡议自2006年以来,一直在使用基于维基百科文章的XML集合。虽然该集合在主题多样性和规模方面比旧的IEEE文章有了很大的改进,但很难找到对结果结构有意义约束的查询。从2009年开始,INEX使用了一组新的Wikipedia XML文章,这些文章还基于语义知识库提供了文章和传出链接的语义标记雅高明确标注了5800多类实体,如人、电影、城市等。由于这个新的集合是从最近的维基百科转储中创建的,它包含的文章大约是2006年集合的四倍,大小大约是2006年集合的十倍。

此集合是从2008年10月8日倾倒英文维基百科文章,并纳入了2008年w40-2版本的语义注释雅高.

有关该系列初步版本的更多技术说明,请参见:拉尔夫·申克尔(Ralf Schenkel)、费边·苏查内克(Fabian M.Suchanek)和格杰吉·卡塞基(Gjergji Kasneci):YAWN:语义注释的维基百科XML语料库, 12. GI-Fachtagung für Datenbanksysteme in Business,Technologie und Web(BTW 2007),德国亚琛,2007年3月。

    统计

    • 50.7 GiB未压缩大小
    • 2666190篇文章

    在线演示

    下载

    • 每个藏品分为四个部分,每个部分包含大约66万篇文章;您需要下载全部四个档案才能获得完整的收藏。
    • INEX 2009官方系列:
      这个集合包括基于YAGO分配给维基百科文章的WordNet概念的文章和传出链接的语义注释。提交给INEX基准测试的任何运行都应该在此集合上进行评估(其他集合中的文本位置可能存在一些差异)。
    • 不带注释标记的INEX 2009集合:(非官方)
      这个未压缩大小约为30 GiB的集合不包含语义注释。
    • INEX 2009集合作为纯文本文件:(非官方)
      这个未压缩大小约为12GiB的集合不包含任何标记,只包含纯文本内容。(尚不可用)
    • 相应的YAGO版本:
      官方INEX 2009集合中的注释是使用YAGO版本2008-w40-2创建的,可用在这里(0.994吉布)。