文章

免费访问

RCV1：文本分类研究的新基准集合

出版：2004年12月1日出版历史

机器学习研究杂志

摘要

路透社语料库第一卷（RCV1）是路透社有限公司（Reuters，Ltd.）最近出于研究目的提供的超过80万个手动分类新闻专线故事的档案。使用这些数据进行文本分类研究需要详细了解产生数据的现实世界约束条件。根据对路透社人员的采访和对路透社文档的访问，我们描述了生成RCV1数据时使用的编码策略和质量控制程序、层次分类法的预期语义，以及删除错误数据所需的更正。我们将原始数据称为RCV1-v1，将修正后的数据称为RCV1-v2。我们在RCV1-v2上对几种广泛使用的监督学习方法进行了基准测试，说明了集合的属性，为研究提出了新的方向，并为未来的研究提供了基线结果。我们通过在线附录提供了详细的分类实验结果，以及类别分配和分类结构的更正版本。

工具书类

D.G.奥尔特曼。医学研究实用统计.Chapman和；霍尔/CRC，1991年。]]谷歌学者数字图书馆
T.Ault和Y.Yang。kNN、Rocchio和TREC-10信息过滤指标。在第十届文本检索会议（TREC 2001），第84-93页，盖瑟斯堡，马里兰州20899-00012002年。国家标准技术研究所。http://trec.nist.gov/pubs/trec10/papers/cmucatcorrect.pdf。]]谷歌学者
C.巴克利、G.索尔顿和J.艾伦。在相关反馈环境中添加相关信息的效果。在第十七届国际ACM-SIGIR信息检索研究与开发会议记录（SIGIR 94），第292-300页，1994年。]]谷歌学者数字图书馆
C.W.克利夫顿。索引语言Cranfield测试的意义。在第十四届国际ACM-SIGIR信息检索研究与开发会议记录（SIGIR 91），第3-12页，1991年。]]谷歌学者数字图书馆
英国国家统计局。1992年英国经济活动标准行业分类索引英国SIC（92）国家统计局，伦敦，1997年。]]谷歌学者
英国国家统计局。英国经济活动标准行业分类英国SIC（92），2002年12月20日。http://www.statistics.gov.uk/meethods_quality/sic/contents.asp。]]谷歌学者
R.Grishman和B.Sundheim。MUC-6评估的设计。在第六条信息理解评估（MUC-6），第1-12页。国防高级研究计划局，摩根·考夫曼，1995年。]]谷歌学者数字图书馆
P.J.Hayes和S.P.Weinstein。CONSTRUE/TIS：新闻故事数据库的基于内容的索引系统。在第二届人工智能创新应用年会，第49-64页，1990年。]]谷歌学者数字图书馆
W.Hersh、C.Buckley、T.J.Leone和D.Hickman。OHSUMED：交互式检索评估和新的大型研究文本集。在第十七届国际ACM-SIGIR信息检索研究与开发会议记录（SIGIR 94），第192-201页，1994年。]]谷歌学者数字图书馆
D.J.Ittner、D.D.Lewis和D.D.Ahn。低质量图像的文本分类。在文献分析和信息检索专题讨论会，第301-315页，拉斯维加斯，1995年。]]谷歌学者
T.约阿希姆。使用支持向量机进行文本分类：使用许多相关功能进行学习。在欧洲机器学习会议（ECML'98），第137-142页，柏林，1998年。]]谷歌学者数字图书馆
T.约阿希姆。使用支持向量机进行文本分类的传导性推理。在国际机器学习会议（ICML'99），第200-209页，加利福尼亚州旧金山，1999年。]]谷歌学者数字图书馆
T.约阿希姆。SVM Light:支持向量机，2002年5月13日。http://svmlight.joachims.org。]]谷歌学者交叉引用
D.V.Khmelev和W.J.Teahan。用于验证文本集合和文本分类的基于重复的度量。在第二十六届国际ACM SIGIR信息检索研究与开发会议论文集（SIGIR 03），第104-110页，2003年。]]谷歌学者数字图书馆
D.Koller和M.Sahami。使用很少的单词对文档进行分层分类。在国际机器学习会议（ICML'97），第170-178页，纳什维尔，1997年。]]谷歌学者数字图书馆
F.W.兰卡斯特。理论与实践中的索引与文摘第二版。伊利诺伊大学香槟分校，伊利诺伊州，1998年。]]谷歌学者
D.D.刘易斯。正在评估文本分类。在演讲与自然语言研讨会论文集，第312-318页。美国国防高级研究计划局，摩根·考夫曼，1991年。]]谷歌学者数字图书馆
D.D.刘易斯。文本分类任务中短语和聚类表示的评估。在第十五届国际ACM SIGIR信息检索研究与开发会议记录（SIGIR 92），第37-50页，1992年。]]谷歌学者数字图书馆
D.D.刘易斯。评估和优化自主文本分类系统。在第18届国际ACM SIGIR信息检索研究与开发会议记录（SIGIR 95），第246-254页，1995年。]]谷歌学者数字图书馆
D.D.刘易斯。路透社-21578文本分类测试集。分发1.0。自述文件（1.2版）。手稿，1997年9月26日。http://www.daviddlewis.com/resources/testcollections/reuters21578/readme.txt]]谷歌学者
D.D.刘易斯。将支持向量机应用于TREC-2001批过滤和路由任务。在第十届文本检索会议（TREC 2001）第286-292页，马里兰州盖瑟斯堡，邮编：20899-00012002。国家标准技术研究所。http://trec.nist.gov/pubs/trec10/papers/daviddlewis-trec2001-draft4.pdf。]]谷歌学者
D.D.Lewis、R.E.Schapire、J.P.Callan和R.Papka。线性文本分类器的训练算法。在第19届国际ACM SIGIR信息检索研究与开发会议记录（SIGIR 96），第298-306页，1996年。]]谷歌学者数字图书馆
D.D.Lewis和R.M.Tong。MUC-3和MUC-4中的文本过滤。在第四届信息理解会议（MUC-4）会议记录，第51-66页。国防高级研究计划局，Morgan Kaufmann，1992年。]]谷歌学者数字图书馆
M.F.波特。后缀剥离算法。程序, 14(3):130-137, 1980.]]谷歌学者数字图书馆
M.F.波特。Porter Stemming算法，2003年。http://www.tartarus.org/~马丁/波特·斯特默。]]谷歌学者
S.Robertson和I.Soboroff。TREC 2001过滤跟踪报告。在第十届文本检索会议（TREC 2001），第26-37页，盖瑟斯堡，马里兰州20899-00012002年。国家标准技术研究所。http://trec.nist.gov/pubs/trec10/papers/filtering2_track.pdf。]]谷歌学者
J.J.Rocchio，Jr.，《信息检索中的相关性反馈》。编辑G.Salton，SMART检索系统：自动文档处理实验，第313-323页。普伦蒂斯·霍尔，1971年。]]谷歌学者
M.Rogati和Y.Yang。用于文本分类的高性能和可扩展的功能选择。在第十一届信息和知识管理国际会议记录，第659-661页，2002年。]]谷歌学者数字图书馆
T.Rose、M.Stevenson和M.Whitehead。路透社语料库第1卷-从昨天的新闻到明天的语言资源。在第三届国际语言资源与评价会议记录, 2002. http://about.reuters.com/researchandstandstandards/corpus/LREC_camera_ready.pdf]]谷歌学者
T.罗斯。发送电子邮件至[电子邮件保护]2002年6月11日。http://groups.yahoo.com/group/ReutersCorpora/message/70。]]谷歌学者
G.Salton和C.Buckley。通过相关反馈提高检索性能。美国信息科学学会杂志, 41:288-297, 1990.]]谷歌学者交叉引用
G.Salton，编辑。SMART检索系统：自动文档处理实验普伦蒂斯·霍尔，1971年谷歌学者数字图书馆
R.E.Schapire、Y.Singer和A.Singhal。Boosting和Rocchio应用于文本过滤第二十届国际ACM SIGIR信息检索研究与开发年会会议记录（SIGIR 98），第215-223页，1998年。]]谷歌学者数字图书馆
F.塞巴斯蒂亚尼。自动文本分类中的机器学习。倒排索引综述, 34(1):1-47, 2002.]]谷歌学者数字图书馆
J.M.塔格。信息检索实验的语用学。编辑K.Sparck Jones，信息检索实验，第5章。巴特沃斯，1981年。]]谷歌学者
C.J.van Rijsbergen。自动信息结构和检索。博士论文，剑桥大学国王学院，1972年。]]谷歌学者
C.J.van Rijsbergen。信息检索.巴特沃斯，1979年。]]谷歌学者数字图书馆
M.怀特黑德。发送电子邮件至[电子邮件保护]2002年11月14日。http://groups.yahoo.com/group/ReutersCorpora/message/106。]]谷歌学者
A.S.Weigend、E.D.Wiener和J.O.Pedersen。利用文本分类中的层次结构。信息检索, 1(3):193-216, 1999.]]谷歌学者数字图书馆
杨勇。文本分类统计方法的评估。信息检索, 1(1/2):67-88, 1999.]]谷歌学者数字图书馆
杨勇。文本分类的阈值策略研究。在第二十四届国际ACM信息检索研究与发展会议（SIGIR 01），第137-145页，2001年。]]谷歌学者数字图书馆
Y.Yang、T.Ault、T.Pierce和C.W.Lattimer。改进事件跟踪的文本分类方法。在第23届国际ACM SIGIR信息检索研究与开发会议记录（SIGIR 00），第65-72页，2000年。]]谷歌学者数字图书馆
Y.Yang和X.Liu。重新审视文本分类方法。在第二十二届国际ACM SIGIR信息检索研究与开发会议记录（SIGIR 99），第42-49页，1999年。]]谷歌学者数字图书馆
Y.Yang和J.O.Pedersen。文本分类中特征选择的比较研究。在第十四届国际机器学习会议（ICML'97），第412-420页。Morgan Kaufmann，1997年。]]谷歌学者数字图书馆
T.Zhang和F.J.Oles。基于正则化线性分类方法的文本分类。信息检索, 4(1):5-31, 2001.]]谷歌学者数字图书馆

索引术语

RCV1：文本分类研究的新基准集合

建议

基于短文的文本分类评价

文本分类的研究一直局限于全文档级别的分类，可能是因为缺乏全文测试集。然而，今天大量可用的全长文档重新引起了人们对文本的兴趣。。。
阅读更多信息
基于无监督学习的文本自动分类
COLING’00：第18届计算语言学会议记录-第1卷

文本分类的目标是将文档分类为一定数量的预定义类别。该领域以前的工作使用了大量标记的培训文档进行监督学习。一个问题是这很难。。。
阅读更多信息
基于MILO树遍历的文本分类
ICGEC’10：2010年第四届遗传与进化计算国际会议记录

本文提出了一种基于MILO的文本自动分类方法。MILO分类技术是一种新的基于规则的分类技术，它不同于传统的基于规则技术如决策树、关联规则等。。。
阅读更多信息

审核人：法布里齐奥·塞巴斯蒂亚尼

Reuters-21578是信息检索（IR）研究人员熟悉的名称，因为它表示文本分类（TC）研究的标准基准，文本分类是IR的子领域，涉及将文本文档分类为一组预定义的类别。TC基准是一组预先分类的文档，它有两个主要目的：首先，可以通过从被称为训练集的基准子集中学习类别的语义特征来自动构建文本分类器；其次，可以通过将分类器的分类决策与其余文档（统称为测试集）中编码的分类决策进行比较来测试分类器的准确性。在整个20世纪90年代，路透社21578（根据118个主题类别预先分类的12902条新闻专线）的可用性为竞争性TC方法提供了一个共同的试验场，从而促进了TC研究。然而，现在是路透社-21578提前退役的时候了，特别是因为它的规模现在被认为太小，无法保证实验得出重要结论（在其他IR子领域，标准基准很容易达到数千万个文档）。本文报告了一个新的可用测试集，路透社语料库第一卷（RCV1），它有望成为TC研究的新标准基准，并更好地替代路透社-21578，因为它的超大规模（804414个文档）、可扩展标记语言（XML）标记、较小的噪音和更明确的语义。作者关于人类编码人员在准备数据时使用的编码实践、数据的性质以及有关数据的统计数据的报告，将成为任何希望在TC实验中使用RCV1的人的必要背景，虽然作者报告了他们通过在数据上运行几种已知TC技术（从基于实例的方法到支持向量机）获得的实验结果，但这将为需要改进新技术提供基线。对于那些希望从事文本分类研究的人来说，这是一篇重要的论文。

访问计算机文献的关键评论在这里

成为评论员计算评论。

登录选项

检查您是否可以通过登录凭据或您的机构访问本文。

完全访问权限

获取此文章

发布于

机器学习研究杂志第5卷，发行
12/1/2004
1571页
国际标准编号：1532-4435
EISSN公司：1533-7928
期刊目录
发起人
合作中
出版商
JMLR.org网站
出版历史
- 出版：2004年12月1日
发布于jmlr公司第5卷，发行
限定符
- 文章
会议
资金来源
其他指标
查看文章度量

文章指标
- 777
  引文总数
  查看引文
- 3,552
  总下载次数
- 下载次数（过去12个月）167
- 下载次数（最近6周）14
其他指标
查看作者指标
引用人
查看全部

PDF格式

以PDF文件查看或下载。

PDF格式

电子阅读器

使用eReader联机查看。

电子阅读器

RCV1：文本分类研究的新基准集合

机器学习研究杂志

摘要

工具书类

引用人

索引术语

建议

基于短文的文本分类评价

基于无监督学习的文本自动分类

基于MILO树遍历的文本分类

评论

访问计算机文献的关键评论在这里

评论

登录选项

完全访问权限

发布于

发起人

合作中

出版商

出版历史

限定符

会议

资金来源

其他指标

文章指标

其他指标

引用人

PDF格式

电子阅读器

数字版

解说词

RCV1：文本分类研究的新基准集合

机器学习研究杂志

摘要

工具书类

引用人

索引术语

建议

基于短文的文本分类评价

基于无监督学习的文本自动分类

基于MILO树遍历的文本分类

评论

访问计算机文献的关键评论在这里

评论

登录选项

完全访问权限

发布于

发起人

合作中

出版商

出版历史

限定符

会议

资金来源

文章指标

其他指标

PDF格式

电子阅读器

数字版

共享此出版物链接

在社交媒体上分享