RCV1型

RCV1:文本分类研究的一个新的基准集合。路透社语料库第一卷(RCV1)是一个超过80万手动分类的新闻热线故事的档案,最近由路透社有限公司提供用于研究目的。将这些数据用于文本分类的研究需要详细了解数据产生时的实际约束条件。通过对路透社人员的采访和对路透社文件的访问,我们描述了在产生RCV1数据时使用的编码策略和质量控制程序,层次分类法的预期语义,以及删除错误数据所需的更正。我们将原始数据称为RCV1-v1,校正后的数据称为RCV1-v2。我们在RCV1-v2上对几种广泛使用的监督学习方法进行了基准测试,说明了集合的性质,提出了新的研究方向,并为将来的研究提供了基线结果。我们提供了详细的,每个类别的实验结果,以及更正版本的类别分配和分类结构,通过在线附录。

这个软件也是同行评审按日记帐汤姆斯.


zbMATH中的参考文献(参考文献114篇)

显示第1到第20个结果,共114个。
按年份排序(引用)
  1. 雅菲,阿里尔;克鲁格,尤瓦尔;林德曼,乔治·C。;米什妮,加尔;Steinerberger,Stefan:随机化近邻图,巨分量和数据科学中的应用(2020)
  2. 郑晋红;Sael,Lee:快速精确的稀疏矩阵重排序和增量法伪逆(2020)
  3. 洛尔,马塞洛;数据元素Tré, 盖伊:通过增强(模糊)计算处理主观信息(2020)
  4. 中野,飞利浦健机;里卡多;Vens,Celine:分层多标签分类的主动学习(2020)
  5. 杨天宝;张丽君;林启航;朱生火;金荣:通过探索内在稀疏性从随机草图数据中恢复高维模型(2020)
  6. 尤瑟芬,法扎德;内迪ć, 安吉丽娅;Shanbhag,Uday V.:非强凸优化的随机和确定性拟牛顿方法:渐近收敛和速率分析(2020)
  7. 袁晓彤;李平:关于分布式近似牛顿方法的收敛性:全球化,更清晰的边界和超越(2020)
  8. 袁晓彤;刘波;王乐子;刘青山;Metaxas,Dimitris N.:双重迭代硬阈值法(2020)
  9. 杜奇,约翰;Namkoong,Hongseok:基于方差的凸目标正则化(2019)
  10. 费科克,奥利弗;Bianchi,Pascal:具有大步长和可能不可分离函数的坐标下降原对偶算法(2019)
  11. 卡拉库斯,可以;孙逸凡;迪加维,苏哈斯;Yin,Wotao:分布式优化和学习中的冗余技术(2019)
  12. 克里希那穆尔蒂,阿克夏;阿加瓦尔,阿列赫;黄子阔;三,哈尔道姆é; 约翰兰福德:成本敏感分类的主动学习(2019)
  13. 安德烈,米尔扎里克;萧,仙桃;岑世聪;文,再文;Ulbrich,Michael:非光滑非凸优化的随机半光滑牛顿法(2019)
  14. 宋,阳秋;乌帕德耶,希亚姆;彭浩若;梅休,斯蒂芬;Roth,Dan:走向任何语言零镜头文本文档主题分类(2019)
  15. 巴沙尔,阿布勒医学博士;李岳峰:文本模式解读(2018)
  16. 博图,我é打开;柯蒂斯,弗兰克E。;Nocedal,Jorge:大规模机器学习的优化方法(2018)
  17. 伯克哈特,索菲;Kramer,Stefan:文本分类的在线多标签依赖主题模型(2018)
  18. 伊桑·R·埃伦伯格。;康纳,拉吉夫;迪马基斯,亚历山德罗斯G。;Negahban,Sahand:受限强凸性意味着弱子模块性(2018)
  19. 弗朗西斯科·查特,安东尼奥·J。里维拉,大卫·查特,马尔代夫ía J。del Jesus,Francisco Herrera:管理多标签数据集的提示、指南和工具:mldr.datasets R包和Cometa数据存储库(2018)第十四章
  20. 古迪瓦达,文卡特N。;Arbabifard,Kamyar:NLP的开源库、应用程序框架和工作流系统(2018)