RCV1型 swMATH ID: 7279 软件作者: 大卫·D·刘易斯(David D.Lewis);杨一鸣;托尼·G·罗斯(Tony G.Rose);范丽 描述: RCV1:文本分类研究的新基准集合。路透社语料库第一卷(RCV1)是路透社有限公司(Reuters,Ltd.)最近出于研究目的提供的超过80万个手动分类新闻专线故事的档案。使用这些数据进行文本分类研究需要详细了解产生数据的现实世界约束条件。根据对路透社人员的采访和对路透社文档的访问,我们描述了生成RCV1数据时使用的编码策略和质量控制程序、层次分类法的预期语义,以及删除错误数据所需的更正。我们将原始数据称为RCV1-v1,将修正后的数据称为RCV1-v2。我们在RCV1-v2上对几种广泛使用的监督学习方法进行了基准测试,说明了集合的属性,为研究提出了新的方向,并为未来的研究提供了基线结果。我们通过在线附录提供了详细的分类实验结果,以及类别分配和分类结构的更正版本。 主页: http://dl.acm.org/citation.cfm?id=1005345 相关软件: 伦敦银行支持向量机;UCI-毫升;BoosTexter公司;L-BFGS公司;新加坡元-QN;LIBLINEAR银行;阿达格拉德;帕伽索斯;单词2vec;t-SNE公司;OHSUMED公司;HOGWILD公司;手套;亚当;ImageNet公司;ML-KNN公司;MULAN公司;SVM灯;传奇;ElemStatLearn(电子状态学习) 引用于: 105文件 全部的 前5名304位作者引用 5 林志珍 三 莱昂·博图 三 约翰·兰福德 三 林,启航 三 袁晓彤 三 张彤 2 张凯伟 2 科比·克拉默 2 Drineas,Petros公司 2 约翰内斯·范克兰兹 2 谢祖瑞 2 黄亚奎 2 匡、达 2 黎巴嫩,盖伊 2 李丽红 2 李平 2 刘洪伟 2 安吉莉亚·奈迪奇 2 海森公园 2 阿萨夫·舒斯特 2 乌代五世香巴格。 2 伊兹察克沙夫曼 2 宋阳秋 2 小林 2 叶洁平 2 尹沃涛 2 Farzad Yousefian先生 2 Yun、Sangwoon 1 安倍晋三 1 阿加瓦尔(Alekh Agarwal) 1 Kamyar阿拉比法尔德 1 弗朗西斯·巴赫。 1 安东尼奥·巴哈蒙德 1 苏赫里德·巴拉克利什南 1 巴沙尔,Md Abul 1 苏加托巴苏 1 伊内斯·巴尤 1 尼古拉斯·贝克特 1 费尔南多·贝尼特斯 1 迈克尔·W·贝里。 1 帕斯卡·比安奇 1 卡琳娜·邦切娃 1 波德斯,安托万 1 克劳斯·布林克 1 穆雷·布朗 1 弗洛里安·布鲁克 1 Wray L.邦廷。 1 伯克哈特,索菲 1 斯坦尼斯拉夫·布西金 1 蔡洪民 1 蔡林坤 1 岑世聪 1 里卡多·塞里 1 钱伯斯,美国 1 尼提什·查拉。 1 陈建辉 1 陈嘉洲 1 程红 1 汤米·W·S·周。 1 尼洛·克里斯蒂亚尼尼 1 安德烈亚·克里斯托法里 1 哈米什·坎宁安 1 Frank E.柯蒂斯。 1 马可·库图里 1 弗雷德·戴米劳(Fred J.Damerau)。 1 哈尔·多美三世 1 伊恩·戴维森 1 玛丽安娜·德·桑提斯 1 盖·德特雷 1 胡安·何塞·德尔科兹 1 安东尼奥斯·德利吉安纳基斯 1 邓素成 1 乔治·Díez 1 苏哈斯·N·迪加维。 1 约书亚五世·狄龙。 1 亚历山德罗斯·G·迪马基斯。 1 卡洛塔·多梅尼科尼 1 巴里·德雷克。 1 马克·德雷泽 1 杜、兰 1 杜润东 1 约翰·杜奇(John C.Duchi)。 1 米罗斯拉夫·杜迪克 1 沃特·杜伊夫斯泰恩 1 Dvurechensky,Pavel E。 1 伊桑·R·埃伦伯格。 1 杜米特鲁·埃尔汉 1 范荣恩 1 范一伟 1 玛丽亚姆·法泽尔 1 奥利维尔·费尔科克 1 托马斯·芬利 1 伊利亚斯·弗劳纳斯 1 乔治·福尔曼 1 基蒙·方图拉基斯 1 加布里洛维奇,E。 1 帕特里克·加里纳里 1 朱利奥·加尔文 1 高汉宁 1 米诺斯·加罗法拉基斯 …和204多位作者 全部的 前5名引用于37个系列 18 机器学习研究杂志(JMLR) 13 机器学习 9 SIAM优化杂志 8 数据挖掘与知识发现 5 模式识别 4 信息科学 三 人工智能 2 全球优化杂志 2 数学编程。A系列B系列 2 计算优化与应用 2 人工智能研究杂志 1 ACM数据库系统事务 1 统计年鉴 1 模糊集与系统 1 美国统计协会杂志 1 应用概率杂志 1 运筹学数学 1 应用数值数学 1 统计科学 1 计算机与运筹学 1 应用数学快报 1 SIAM矩阵分析与应用杂志 1 科学计算杂志 1 并行与分布式计算杂志 1 神经网络 1 神经计算 1 计算统计学 1 SIAM审查 1 计算统计与数据分析 1 SIAM科学计算杂志 1 计算机网络 1 数学生物科学与工程 1 电子统计学杂志 1 机器学习的基础和趋势 1 欧洲计算优化杂志 1 中国运筹学会学报 1 信息几何 全部的 前5名在12个字段中引用 75 计算机科学(68至XX) 40 统计学(62-XX) 29 运筹学、数学规划(90-XX) 19 数值分析(65-XX) 5 线性代数和多线性代数;矩阵理论(15-XX) 5 变异微积分和最优控制;最优化(49至XX) 2 组合数学(05-XX) 2 概率论与随机过程(60-XX) 2 生物学和其他自然科学(92-XX) 1 偏微分方程(35-XX) 1 算子理论(47-XX) 1 博弈论、经济学、金融和其他社会和行为科学(91-XX) 按年份列出的引文