×

River:Python中流数据的机器学习。 (英语) Zbl 07370627号

小结:River是一个用于动态数据流和持续学习的机器学习库。它为不同的流学习问题提供了多种最先进的学习方法、数据生成器/转换器、性能指标和评估器。它是Python中两个流行的流学习包的合并结果:Creme和scikit-multiflow。River根据从开创性方案中吸取的教训,引入了一种经过改造的建筑。River的目标是成为一个针对流数据进行机器学习的go-to库。此外,这个开源软件包还将一个由从业者和研究人员组成的大型社区置于同一保护伞下。源代码位于https://github.com/online-ml/river.

MSC公司:

68T05型 人工智能中的学习和自适应系统
PDF格式BibTeX公司 XML格式引用
全文: arXiv公司 链接

参考文献:

[1] Charu C Aggarwal、Jiawei Han、Jianyong Wang和Philip S Yu。聚类不断发展的数据流框架——第29届国际会议论文集.pdf。Vldb,第81-92页,2003年。统一资源定位地址http://www.vldb.org/conf/2003/papers/S04P02.pdf。
[2] 彼得·奥尔、尼科洛·塞萨·比安奇和保罗·菲舍尔。多武器土匪问题的有限时间分析。机器学习,47(2):235-2562002·Zbl 1012.68093号
[3] Manuel Baena-Garc a、Jos´e del Campo-´Avila、Ra´ul Fidalgo、Albert Bifet、R Gavalda和R Morales-Bueno。早期漂移检测方法。第四届数据流知识发现国际研讨会,第6卷,第77-86页,2006年。
[4] S.Behnel、R.Bradshaw、C.Citro、L.Dalcin、D.S.Seljebotn和K.Smith。Cython:两全其美。科学工程计算,13(2):31-392011。doi:10.1109/MCSE.2010.118。
[5] 阿尔伯特·比费特和里卡德·加瓦尔达。通过自适应窗口从随时间变化的数据中学习。2007年SIAM数据挖掘国际会议论文集,第443-448页。SIAM,2007年。
[6] 阿尔伯特·比费特和里卡德·加瓦尔达。从不断变化的数据流中进行自适应学习。在智能数据分析国际研讨会上,第249-260页。施普林格,2009年。
[7] 阿尔伯特·比费特(Albert Bifet)、里卡德·加瓦尔达(Ricard Gavalda)、杰夫·霍姆斯(Geoff Holmes)和伯恩哈德·普法林格(Bernhard Pfahringer)。MOA中数据流的机器学习及实例。麻省理工学院出版社,2018年。https://moa。cms.waikato.ac.nz/book/。
[8] 曹峰、马丁·埃斯特、钱伟宁和周奥英。基于密度的聚类在不断演化的数据流上进行,并带有噪声。2006年SIAM数据挖掘国际会议论文集,第328-339页。SIAM,2006年。
[9] Tony F Chan、Gene H Golub和Randall J LeVeque。计算样本方差的算法:分析和建议。美国统计学家,37(3):242-2471983·Zbl 0521.65098号
[10] Krzysztof Dembczynski、Weiwei Cheng和Eyke H¨ullermier。基于概率分类器链的贝叶斯最优多标签分类。InICML,2010年。
[11] 约翰·杜奇(John Duchi)、伊拉德·哈赞(Elad Hazan)和约拉姆·辛格(Yoram Singer)。在线学习和随机优化的自适应次梯度方法。机器学习研究杂志,12(7),2011年·Zbl 1280.68164号
[12] 托尼·芬奇。加权平均值和方差的增量计算。剑桥大学,4(11-5):41-422009。
[13] 菲利普·弗拉乔莱特(Philippe Flajolet)、埃里克·福西(Eric Fusy)、奥利维尔·甘杜埃(Olivier Gandouet)和埃里克·梅尼尔(Eric Meunier)神父。Hyperloglog:近最优基数估计算法的分析。《离散数学和理论计算机科学》,第137-156页。离散数学和理论计算机科学,2007年。
[14] 伊斯瓦尼·弗里亚斯·布兰科(Isvani Fris-Blanco)、何塞·德尔·坎波(Josée del Campo-´Avila)、冈萨洛·拉莫斯·希梅内斯(Gonzalo Ramos-Jimenez)、拉斐尔·莫拉莱斯·布诺(Rafael Morales-Bueno)、阿古斯汀·奥尔蒂兹·迪亚兹(Agustin Ortiz。基于hoeffding界的在线和非参数漂移检测方法。IEEE知识与数据工程汇刊,27(3):810-8232014。
[15] Joao Gama、Pedro Medas、Gladys Castillo和Pedro Rodrigues。学习漂移检测。巴西人工智能研讨会,第286-295页。斯普林格,2004年·Zbl 1105.68376号
[16] 乔·阿奥·伽马(Joáao Gama)、因德尔·eéZliobit·e、阿尔伯特·比费特(Albert Bifet)、米科拉·佩切尼茨基(Mykola Pechenizkiy)和阿卜杜勒哈米德·布查奇亚(Abdelhamid Bouchachia)。概念漂移适应研究综述。ACM计算调查,46(4):1-372014年3月。ISSN 03600300。doi:10.1145/2523813。统一资源定位地址http://dl.acm.org/引文.cfm?doid=2597757.2523813·兹比尔1305.68141
[17] 泽维尔·格洛洛特和约舒亚·本吉奥。了解训练深度前馈神经网络的困难。第十三届人工智能和统计国际会议记录,第249-256页。JMLR研讨会和会议记录,2010年。
[18] Heitor M Gomes、Albert Bifet、Jesse Read、Jean-Paul Barddal、Fabr´11-cio Enembreck、Bernhard Pfharinger、Geoff Holmes和Talel Abdessalem。用于进化数据流分类的自适应随机森林。机器学习,106(9):1469-14952017。
[19] 海托·穆里洛·戈麦斯(Heitor Murilo Gomes)、杰西·里德(Jesse Read)和阿尔伯特·比费特(Albert Bifet)。用于演进数据流分类的流式随机补丁。2019年IEEE数据挖掘国际会议(ICDM),第240-249页。IEEE,2019a。
[20] 继承人穆里洛·戈麦斯、杰西·里德、阿尔伯特·比费特、让·保罗·巴达尔和乔·阿奥·伽马。流数据的机器学习。ACM SIGKDD探索新闻稿,21(2):6-222019b。doi:10.1145/337344.33733470。统一资源定位地址http://dl.acm.org/citation.cfm?doid= 3373464.3373470.
[21] 米夏·戈尔利克和伊恩·奥斯瓦尔德。高性能Python。O'Reilly Media,Inc.,2020年。
[22] Max Halford、Geoffrey Bolmier、Raphael Sourty、Robin Vaysse和Adil Zouitine。creme,一个用于在线机器学习的Python库,2019.URLhttps://github.com/MaxHalford/creme公司。
[23] 迈克尔·哈里斯和新南威尔士州。拼接2比较评估:电价,1999年。
[24] 特雷弗·哈斯蒂(Trevor Hastie)、罗伯特·蒂比什拉尼(Robert Tibshirani)和杰罗姆·弗里德曼(Jerome Friedman)。统计学习的要素:数据挖掘、推理和预测。Springer科学与商业媒体,2009年·Zbl 1273.62005年
[25] 杰夫·霍尔滕(Geoff Hulten)、劳丽·斯宾塞(Laurie Spencer)和佩德罗·多明戈斯(Pedro Domingos)。挖掘时变数据流。第七届ACM SIGKDD知识发现和数据挖掘国际会议论文集——KDD’01,第18卷,第97-106页,美国纽约州纽约市,2001年。ACM出版社。国际标准图书编号158113391X。doi:10.1145/52512.502529。统一资源定位地址http://portal.acm.org/citation.cfm?doid=502512.502529。
[26] 埃里克·雅各布森和理查德·莱昂斯。滑动dft。IEEE信号处理杂志,20(2):74-802003。
[27] Yuchin Juan、Yong Zhuang、Wei-Sheng Chin和Chih-Jen Lin。用于ctr预测的现场软件因式分解机。2016年第10届ACM推荐系统会议记录,第43-50页。
[28] Diederik P Kingma和Jimmy Ba.Adam:一种随机优化方法。arXiv预印本arXiv:1412.6980,2014。
[29] Tor Lattimore和Csaba Szepesv´ari.Bandit算法。剑桥大学出版社,2020年·Zbl 1439.68002号
[30] 维克多·洛辛(Viktor Losing)、芭芭拉·哈默(Barbara Hammer)和海科·沃辛(Heiko Wersing)。具有自调整记忆的Knn分类器用于异构概念漂移。2016年IEEE第16届数据挖掘国际会议(ICDM),第291-300页。IEEE,2016年。
[31] 罗良晨、熊元浩、刘艳和孙旭。学习率动态界的自适应梯度法。arXiv预印本arXiv:1902.098432019。
[32] 雅各布·蒙蒂尔(Jacob Montiel)、杰西·里德(Jesse Read)、阿尔伯特·比费特(Albert Bifet)和塔勒·阿卜杜塞勒姆(Talel Abdessalem)。Scikit-multiflow:一个多输出流框架。机器学习研究杂志,19(72):1-52018。统一资源定位地址http://jmlr.org/papers/v19/18-251.html。
[33] Nikunj C Oza和Stuart J Russell。在线装袋和助推。在人工智能和统计国际研讨会上,第229-236页。PMLR,2001年。
[34] Ewan S第页。连续检查计划。《生物特征》,41(1/2):100-1151954·Zbl 0056.38002号
[35] 熊猫开发团队。pandas-dev/pandas:pandas,2020年2月。
[36] F.Pedregosa、G.Varoquex、A.Gramfort、V.Michel、B.Thirion、O.Grisel、M.Blondel、P.Prettenhofer、R.Weiss、V.Dubourg、J.Vanderplas、A.Passos、D.Cournapeau、M.Brucher、M.Perrot和E.Duchesnay。Scikit-learn:Python中的机器学习。机器学习研究杂志,12:2825-28302011·Zbl 1280.68189号
[37] Christoph Raab、Moritz Heusinger和Frank-Michael Schleif。概念漂移流的反应式软原型计算。神经计算,416:340-3512020。
[38] 杰西·里德(Jesse Read)、卢卡·马蒂诺(Luca Martino)和大卫·朗戈(David Luengo)。使用分类器链进行多维学习的高效蒙特卡罗方法。模式识别,47(3):1535-15462014·Zbl 1326.68251号
[39] Sashank J Reddi、Satyen Kale和Sanjiv Kumar。关于亚当与超越的交汇。arXiv预印arXiv:1904.092372019。
[40] 斯特芬·伦德尔。保理机。2010年IEEE数据挖掘国际会议,第995-1000页。IEEE,2010年。
[41] 赫伯特·罗宾斯和萨顿·蒙罗。一种随机近似方法。《数理统计年鉴》,第400-407页,1951年·Zbl 0054.05901号
[42] 塞巴斯蒂安·鲁德。梯度下降优化算法概述。arXiv预打印arXiv:1609.047472016。
[43] 埃里希·舒伯特和迈克尔·格茨。数值稳定的(协)方差并行计算。《第30届国际科学和统计数据库管理会议记录》,2018年第1-12页。
[44] 乔纳森·席尔瓦(Jonathan A Silva)、伊莱恩·法里亚(Elaine R Faria)、罗德里戈·巴罗斯(Rodrigo C Barros)、爱德华多·赫鲁什卡(Eduardo R Hruschka)、安德烈·卡瓦略(Andr´e CPLF de Carvalho)和乔·阿奥。数据流聚类:一项调查。ACM计算调查(CSUR),46(1):1-312013年·Zbl 1288.68200号
[45] 理查德·萨顿和安德鲁·巴托。强化学习:简介。麻省理工学院出版社,2018·Zbl 1407.68009号
[46] 陶宇飞和迪米特里斯·帕帕迪亚。在数据流上维护滑动窗口天际线。IEEE知识与数据工程汇刊,18(3):377-3912006。
[47] S.van der Walt、S.C.Colbert和G.Varoqueux。numpy数组:一种高效数值计算的结构。科学工程计算,13(2):22-302011。doi:10.1109/MCSE.2111.37。
[48] BP Welford公司。关于计算平方和乘积修正和的方法的注释。技术计量学,4(3):419-4201962年。
[49] DHD西部。更新均值和方差估计:一种改进的方法。ACM通讯,22(9):532-5352979·Zbl 0419.62003号
[50] 马修·D·泽勒。Adadelta:一种自适应学习速率方法。arXiv预印本arXiv:1212.57012012。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。