RCV1型

RCV1:文本分类研究的一个新的基准集合。路透社语料库第一卷(RCV1)是一个超过80万手动分类的新闻热线故事的档案,最近由路透社有限公司提供用于研究目的。将这些数据用于文本分类的研究需要详细了解数据产生时的实际约束条件。通过对路透社人员的采访和对路透社文件的访问,我们描述了在产生RCV1数据时使用的编码策略和质量控制程序,层次分类法的预期语义,以及删除错误数据所需的更正。我们将原始数据称为RCV1-v1,校正后的数据称为RCV1-v2。我们在RCV1-v2上对几种广泛使用的监督学习方法进行了基准测试,说明了集合的性质,提出了新的研究方向,并为将来的研究提供了基线结果。我们提供了详细的,每个类别的实验结果,以及更正版本的类别分配和分类结构,通过在线附录。

这个软件也是同行评审按日记帐汤姆斯.


zbMATH中的参考文献(参考文献117篇)

显示117个结果中的1到20个。
按年份排序(引用)
  1. 加尔文,朱利奥;拉普奇,马特奥;林志仁;马尔科,Scandrone:一个利用一阶和二阶信息的支持向量机训练问题的两层分解框架(2021)
  2. 梅特尔,迈克尔R。;Takeda,Akiko:非光滑非凸约束稀疏优化的随机近似方法(2021)
  3. 雅菲,阿里尔;克鲁格,尤瓦尔;林德曼,乔治·C。;米什妮,加尔;Steinerberger,Stefan:随机化近邻图,巨分量和数据科学中的应用(2020)
  4. 郑晋红;Sael,Lee:快速精确的稀疏矩阵重排序和增量法伪逆(2020)
  5. 洛尔,马塞洛;德特雷,盖伊:通过增强(模糊)计算处理主观信息(2020)
  6. 中野,飞利浦健机;塞里,里卡多;Vens,Celine:分层多标签分类的主动学习(2020)
  7. 杨天宝;张丽君;林启航;朱生火;金荣:通过探索内在稀疏性从随机草图数据中恢复高维模型(2020)
  8. 尤瑟芬,法扎德;尼迪奇,安吉丽娅;Shanbhag,Uday V.:非强凸优化的随机和确定性拟牛顿方法:渐近收敛和速率分析(2020)
  9. 袁晓彤;牛顿和李平(2020)的近似收敛和李平(Li-Ping)关于全球化的近似方法
  10. 袁晓彤;刘波;王乐子;刘青山;Metaxas,Dimitris N.:双重迭代硬阈值法(2020)
  11. 杜奇,约翰;Namkoong,Hongseok:基于方差的凸目标正则化(2019)
  12. 费科克,奥利弗;Bianchi,Pascal:具有大步长和可能不可分离函数的坐标下降原对偶算法(2019)
  13. 卡拉库斯,可以;孙逸凡;迪加维,苏哈斯;Yin,Wotao:分布式优化和学习中的冗余技术(2019)
  14. 克里希那穆尔蒂,阿克夏;阿加瓦尔,阿列赫;黄子阔;三,哈尔多姆;约翰兰福德:成本敏感分类的主动学习(2019)
  15. 安德烈,米尔扎里克;萧,仙桃;岑世聪;文,再文;Ulbrich,Michael:非光滑非凸优化的随机半光滑牛顿法(2019)
  16. Śmieja,马雷克;哈伊托,克孜什托夫;Tabor,Jacek:稀疏高维二进制数据聚类的有效混合模型(2019)
  17. 宋,阳秋;乌帕德耶,希亚姆;彭浩若;梅休,斯蒂芬;Roth,Dan:走向任何语言零镜头文本文档主题分类(2019)
  18. 巴沙尔,阿布勒医学博士;李岳峰:文本模式解读(2018)
  19. 博图,莱昂;柯蒂斯,弗兰克E。;Nocedal,Jorge:大规模机器学习的优化方法(2018)
  20. 伯克哈特,索菲;Kramer,Stefan:文本分类的在线多标签依赖主题模型(2018)