跳到主要内容
文章
免费访问

RCV1:文本分类研究的新基准集合

出版:2004年12月1日出版历史
跳过抽象节

摘要

路透社语料库第一卷(RCV1)是路透社有限公司(Reuters,Ltd.)最近出于研究目的提供的超过80万个手动分类新闻专线故事的档案。使用这些数据进行文本分类研究需要详细了解产生数据的现实世界约束条件。根据对路透社人员的采访和对路透社文档的访问,我们描述了生成RCV1数据时使用的编码策略和质量控制程序、层次分类法的预期语义,以及删除错误数据所需的更正。我们将原始数据称为RCV1-v1,将修正后的数据称为RCV1-v2。我们在RCV1-v2上对几种广泛使用的监督学习方法进行了基准测试,说明了集合的属性,为研究提出了新的方向,并为未来的研究提供了基线结果。我们通过在线附录提供了详细的分类实验结果,以及类别分配和分类结构的更正版本。

工具书类

  1. D.G.奥尔特曼。医学研究实用统计.Chapman和;霍尔/CRC,1991年。]]谷歌学者谷歌学者数字图书馆数字图书馆
  2. T.Ault和Y.Yang。kNN、Rocchio和TREC-10信息过滤指标。第十届文本检索会议(TREC 2001),第84-93页,盖瑟斯堡,马里兰州20899-00012002年。国家标准技术研究所。http://trec.nist.gov/pubs/trec10/papers/cmucatcorrect.pdf。]]谷歌学者谷歌学者
  3. C.巴克利、G.索尔顿和J.艾伦。在相关反馈环境中添加相关信息的效果。第十七届国际ACM-SIGIR信息检索研究与开发会议记录(SIGIR 94),第292-300页,1994年。]]谷歌学者谷歌学者数字图书馆数字图书馆
  4. C.W.克利夫顿。索引语言Cranfield测试的意义。第十四届国际ACM-SIGIR信息检索研究与开发会议记录(SIGIR 91),第3-12页,1991年。]]谷歌学者谷歌学者数字图书馆数字图书馆
  5. 英国国家统计局。1992年英国经济活动标准行业分类索引英国SIC(92)国家统计局,伦敦,1997年。]]谷歌学者谷歌学者
  6. 英国国家统计局。英国经济活动标准行业分类英国SIC(92),2002年12月20日。http://www.statistics.gov.uk/meethods_quality/sic/contents.asp。]]谷歌学者谷歌学者
  7. R.Grishman和B.Sundheim。MUC-6评估的设计。第六条信息理解评估(MUC-6),第1-12页。国防高级研究计划局,摩根·考夫曼,1995年。]]谷歌学者谷歌学者数字图书馆数字图书馆
  8. P.J.Hayes和S.P.Weinstein。CONSTRUE/TIS:新闻故事数据库的基于内容的索引系统。第二届人工智能创新应用年会,第49-64页,1990年。]]谷歌学者谷歌学者数字图书馆数字图书馆
  9. W.Hersh、C.Buckley、T.J.Leone和D.Hickman。OHSUMED:交互式检索评估和新的大型研究文本集。第十七届国际ACM-SIGIR信息检索研究与开发会议记录(SIGIR 94),第192-201页,1994年。]]谷歌学者谷歌学者数字图书馆数字图书馆
  10. D.J.Ittner、D.D.Lewis和D.D.Ahn。低质量图像的文本分类。文献分析和信息检索专题讨论会,第301-315页,拉斯维加斯,1995年。]]谷歌学者谷歌学者
  11. T.约阿希姆。使用支持向量机进行文本分类:使用许多相关功能进行学习。欧洲机器学习会议(ECML'98),第137-142页,柏林,1998年。]]谷歌学者谷歌学者数字图书馆数字图书馆
  12. T.约阿希姆。使用支持向量机进行文本分类的传导性推理。国际机器学习会议(ICML'99),第200-209页,加利福尼亚州旧金山,1999年。]]谷歌学者谷歌学者数字图书馆数字图书馆
  13. T.约阿希姆。SVM Light:支持向量机,2002年5月13日。http://svmlight.joachims.org。]]谷歌学者谷歌学者交叉引用交叉引用
  14. D.V.Khmelev和W.J.Teahan。用于验证文本集合和文本分类的基于重复的度量。第二十六届国际ACM SIGIR信息检索研究与开发会议论文集(SIGIR 03),第104-110页,2003年。]]谷歌学者谷歌学者数字图书馆数字图书馆
  15. D.Koller和M.Sahami。使用很少的单词对文档进行分层分类。国际机器学习会议(ICML'97),第170-178页,纳什维尔,1997年。]]谷歌学者谷歌学者数字图书馆数字图书馆
  16. F.W.兰卡斯特。理论与实践中的索引与文摘第二版。伊利诺伊大学香槟分校,伊利诺伊州,1998年。]]谷歌学者谷歌学者
  17. D.D.刘易斯。正在评估文本分类。演讲与自然语言研讨会论文集,第312-318页。美国国防高级研究计划局,摩根·考夫曼,1991年。]]谷歌学者谷歌学者数字图书馆数字图书馆
  18. D.D.刘易斯。文本分类任务中短语和聚类表示的评估。第十五届国际ACM SIGIR信息检索研究与开发会议记录(SIGIR 92),第37-50页,1992年。]]谷歌学者谷歌学者数字图书馆数字图书馆
  19. D.D.刘易斯。评估和优化自主文本分类系统。第18届国际ACM SIGIR信息检索研究与开发会议记录(SIGIR 95),第246-254页,1995年。]]谷歌学者谷歌学者数字图书馆数字图书馆
  20. D.D.刘易斯。路透社-21578文本分类测试集。分发1.0。自述文件(1.2版)。手稿,1997年9月26日。http://www.daviddlewis.com/resources/testcollections/reuters21578/readme.txt]]谷歌学者谷歌学者
  21. D.D.刘易斯。将支持向量机应用于TREC-2001批过滤和路由任务。第十届文本检索会议(TREC 2001)第286-292页,马里兰州盖瑟斯堡,邮编:20899-00012002。国家标准技术研究所。http://trec.nist.gov/pubs/trec10/papers/daviddlewis-trec2001-draft4.pdf。]]谷歌学者谷歌学者
  22. D.D.Lewis、R.E.Schapire、J.P.Callan和R.Papka。线性文本分类器的训练算法。第19届国际ACM SIGIR信息检索研究与开发会议记录(SIGIR 96),第298-306页,1996年。]]谷歌学者谷歌学者数字图书馆数字图书馆
  23. D.D.Lewis和R.M.Tong。MUC-3和MUC-4中的文本过滤。第四届信息理解会议(MUC-4)会议记录,第51-66页。国防高级研究计划局,Morgan Kaufmann,1992年。]]谷歌学者谷歌学者数字图书馆数字图书馆
  24. M.F.波特。后缀剥离算法。程序, 14(3):130-137, 1980.]]谷歌学者谷歌学者数字图书馆数字图书馆
  25. M.F.波特。Porter Stemming算法,2003年。http://www.tartarus.org/~马丁/波特·斯特默。]]谷歌学者谷歌学者
  26. S.Robertson和I.Soboroff。TREC 2001过滤跟踪报告。第十届文本检索会议(TREC 2001),第26-37页,盖瑟斯堡,马里兰州20899-00012002年。国家标准技术研究所。http://trec.nist.gov/pubs/trec10/papers/filtering2_track.pdf。]]谷歌学者谷歌学者
  27. J.J.Rocchio,Jr.,《信息检索中的相关性反馈》。编辑G.Salton,SMART检索系统:自动文档处理实验,第313-323页。普伦蒂斯·霍尔,1971年。]]谷歌学者谷歌学者
  28. M.Rogati和Y.Yang。用于文本分类的高性能和可扩展的功能选择。第十一届信息和知识管理国际会议记录,第659-661页,2002年。]]谷歌学者谷歌学者数字图书馆数字图书馆
  29. T.Rose、M.Stevenson和M.Whitehead。路透社语料库第1卷-从昨天的新闻到明天的语言资源。第三届国际语言资源与评价会议记录, 2002. http://about.reuters.com/researchandstandstandards/corpus/LREC_camera_ready.pdf]]谷歌学者谷歌学者
  30. T.罗斯。发送电子邮件至[电子邮件保护]2002年6月11日。http://groups.yahoo.com/group/ReutersCorpora/message/70。]]谷歌学者谷歌学者
  31. G.Salton和C.Buckley。通过相关反馈提高检索性能。美国信息科学学会杂志, 41:288-297, 1990.]]谷歌学者谷歌学者交叉引用交叉引用
  32. G.Salton,编辑。SMART检索系统:自动文档处理实验普伦蒂斯·霍尔,1971年谷歌学者谷歌学者数字图书馆数字图书馆
  33. R.E.Schapire、Y.Singer和A.Singhal。Boosting和Rocchio应用于文本过滤第二十届国际ACM SIGIR信息检索研究与开发年会会议记录(SIGIR 98),第215-223页,1998年。]]谷歌学者谷歌学者数字图书馆数字图书馆
  34. F.塞巴斯蒂亚尼。自动文本分类中的机器学习。倒排索引综述, 34(1):1-47, 2002.]]谷歌学者谷歌学者数字图书馆数字图书馆
  35. J.M.塔格。信息检索实验的语用学。编辑K.Sparck Jones,信息检索实验,第5章。巴特沃斯,1981年。]]谷歌学者谷歌学者
  36. C.J.van Rijsbergen。自动信息结构和检索。博士论文,剑桥大学国王学院,1972年。]]谷歌学者谷歌学者
  37. C.J.van Rijsbergen。信息检索.巴特沃斯,1979年。]]谷歌学者谷歌学者数字图书馆数字图书馆
  38. M.怀特黑德。发送电子邮件至[电子邮件保护]2002年11月14日。http://groups.yahoo.com/group/ReutersCorpora/message/106。]]谷歌学者谷歌学者
  39. A.S.Weigend、E.D.Wiener和J.O.Pedersen。利用文本分类中的层次结构。信息检索, 1(3):193-216, 1999.]]谷歌学者谷歌学者数字图书馆数字图书馆
  40. 杨勇。文本分类统计方法的评估。信息检索, 1(1/2):67-88, 1999.]]谷歌学者谷歌学者数字图书馆数字图书馆
  41. 杨勇。文本分类的阈值策略研究。第二十四届国际ACM信息检索研究与发展会议(SIGIR 01),第137-145页,2001年。]]谷歌学者谷歌学者数字图书馆数字图书馆
  42. Y.Yang、T.Ault、T.Pierce和C.W.Lattimer。改进事件跟踪的文本分类方法。第23届国际ACM SIGIR信息检索研究与开发会议记录(SIGIR 00),第65-72页,2000年。]]谷歌学者谷歌学者数字图书馆数字图书馆
  43. Y.Yang和X.Liu。重新审视文本分类方法。第二十二届国际ACM SIGIR信息检索研究与开发会议记录(SIGIR 99),第42-49页,1999年。]]谷歌学者谷歌学者数字图书馆数字图书馆
  44. Y.Yang和J.O.Pedersen。文本分类中特征选择的比较研究。第十四届国际机器学习会议(ICML'97),第412-420页。Morgan Kaufmann,1997年。]]谷歌学者谷歌学者数字图书馆数字图书馆
  45. T.Zhang和F.J.Oles。基于正则化线性分类方法的文本分类。信息检索, 4(1):5-31, 2001.]]谷歌学者谷歌学者数字图书馆数字图书馆

索引术语

  1. RCV1:文本分类研究的新基准集合

            建议

            评论

            法布里齐奥·塞巴斯蒂亚尼

            Reuters-21578是信息检索(IR)研究人员熟悉的名称,因为它表示文本分类(TC)研究的标准基准,文本分类是IR的子领域,涉及将文本文档分类为一组预定义的类别。TC基准是一组预先分类的文档,它有两个主要目的:首先,可以通过从被称为训练集的基准子集中学习类别的语义特征来自动构建文本分类器;其次,可以通过将分类器的分类决策与其余文档(统称为测试集)中编码的分类决策进行比较来测试分类器的准确性。在整个20世纪90年代,路透社21578(根据118个主题类别预先分类的12902条新闻专线)的可用性为竞争性TC方法提供了一个共同的试验场,从而促进了TC研究。然而,现在是路透社-21578提前退役的时候了,特别是因为它的规模现在被认为太小,无法保证实验得出重要结论(在其他IR子领域,标准基准很容易达到数千万个文档)。本文报告了一个新的可用测试集,路透社语料库第一卷(RCV1),它有望成为TC研究的新标准基准,并更好地替代路透社-21578,因为它的超大规模(804414个文档)、可扩展标记语言(XML)标记、较小的噪音和更明确的语义。作者关于人类编码人员在准备数据时使用的编码实践、数据的性质以及有关数据的统计数据的报告,将成为任何希望在TC实验中使用RCV1的人的必要背景,虽然作者报告了他们通过在数据上运行几种已知TC技术(从基于实例的方法到支持向量机)获得的实验结果,但这将为需要改进新技术提供基线。对于那些希望从事文本分类研究的人来说,这是一篇重要的论文。

            访问计算机文献的关键评论在这里

            成为评论员计算评论。

            评论

            登录选项

            检查您是否可以通过登录凭据或您的机构访问本文。

            登录

            完全访问权限

            • 发布于

              封面图片机器学习研究杂志
              机器学习研究杂志 第5卷,发行
              12/1/2004
              1571页
              国际标准编号:1532-4435
              EISSN公司:1533-7928
              期刊目录

              出版商

              JMLR.org网站

              出版历史

              • 出版:2004年12月1日
              发布于jmlr公司第5卷,发行

              限定符

              • 文章

            PDF格式

            以PDF文件查看或下载。

            PDF格式

            电子阅读器

            使用eReader联机查看。

            电子阅读器