×

一种强核集算法,用于加速大规模问题中基于图的机器学习OPF。 (英语) Zbl 1484.68180号

概述:Optimum-path森林(OPF)是一种高效的基于图形的框架,它可以通过提取通过将数据编码到图形中获得的图形的最佳分区来确定输入数据集的模式。由于OPF是在简单假设的基础上引入的,没有考虑大规模问题的要求,因此这种机器学习算法只对合理大小的输入数据集有效。为了提供一个可扩展的OPF,本研究引入了一个强核集来加速OPF算法。应用这种方法可以加快OPF过程,尤其是在处理大量数据集时。因此,开发了一种新的代数来将OPF问题表示为所提出的核心集定义的优化问题。为了提高OPF构造速度,提出了一种新的核集构造算法,该算法可以近似OPF解。在不同基准数据集上的不同实验的仿真结果表明,与原始算法相比,该算法在构造和分类速度方面具有计算增益和优越性,同时显示了可靠准确的性能。提出的核集构造算法执行OPF的训练和测试阶段的速度分别比以前快6.1倍和4.9倍。

理学硕士:

68T05型 人工智能中的学习和自适应系统
68T09号 数据分析和大数据的计算方面
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Papa,J.P。;法尔考,A.X。;铃木,C.T.N.,《基于最优路径森林的监督模式分类》,国际成像系统杂志。技术。,19, 120-131 (2009)
[2] Ciesielski,K.C。;法尔考,A.X。;Miranda,P.A.V.,Dijkstra算法返回最优映射的路径值函数,J.Math。成像视觉,601025-1036(2018)·Zbl 1397.05187号
[3] 阿莫林,W.P。;法尔考,A.X。;Papa,J.P.,通过最优路径森林的多标签半监督分类,《信息科学》。,465, 86-104 (2018) ·Zbl 1441.68202号
[4] Cappabianco,F.A.M。;法尔考,A.X。;Yasuda,C.L。;Udupa,J.K.,通过最优路径森林聚类进行脑组织MR-图像分割,计算。视觉。图像理解。,116, 1047-1059 (2012)
[5] Iwashita,A.S。;阿尔伯克基,V.H.C。;Papa,J.P.,《学习概念漂移与基于最优路径的森林分类器集成》,《未来世代》。计算。系统。,95, 198-211 (2019)
[6] 陈,S。;孙,T。;杨,F。;Sun,H。;Guan,Y.,一种改进的用于遥感图像分割的最优路径森林聚类算法,计算。地质科学。,112, 38-46 (2018)
[7] 博斯塔尼,H。;Sheikhan,M.,使用基于MapReduce方法的无监督OPF的物联网基于异常和基于规范的IDS的混合,计算。社区。,98, 52-71 (2017)
[8] 科斯塔,K.A.P。;佩雷拉,L.A.M。;Nakamura,R.Y.M。;佩雷拉,C.R。;Papa,J.P。;Falcáo,A.X.,《加速最优路径森林聚类的自然启发方法及其在计算机网络入侵检测中的应用》,《信息科学》。,294, 95-108 (2015) ·兹比尔1360.62323
[9] Kuanar,S.K。;Ranga,K.B。;Chowdhury,A.S.,使用二部匹配约束最优路径森林聚类的多视图视频摘要,IEEE Trans。多媒体,17,1166-1173(2015)
[10] 伊利耶夫,A.I。;Scordilis,M.S。;Papa,J.P。;Falcáo,A.X.,通过使用声门特征的最优路径森林分类进行口语情感识别,计算。演讲语言,24,445-460(2010)
[11] Nunes,T.M。;科尔霍有限责任公司。;利马,C.A.M。;Papa,J.P。;Albuquerque,V.H.C.,通过最佳路径森林进行癫痫诊断的脑电图信号分类——系统评估,神经计算,136,103-123(2014)
[12] Papa,J.P。;法尔考,A.X。;de Freitas,G.M。;deávila,A.M.H.,应用于基于卫星的降雨量估计的最优路径森林分类训练模式的稳健修剪,IEEE Geosci。遥感快报。,7, 396-400 (2010)
[13] Papa,J.P。;Cappabianco,F.A.M。;Falcáo,A.X.,为大型数据集优化最优路径森林分类,(第20届模式识别国际会议论文集(2010),IEEE:IEEE伊斯坦布尔,土耳其),4162-4165
[14] W.P.Amorim,M.H.de Carvalho,《在最优路径森林中使用本地分析监督学习》,载于:《第25届SIBGRAPI图形、模式和图像会议论文集》,IEEE,巴西乌罗普雷托,2012年,第330-335页。
[15] Papa,J.P。;费尔南德斯,S.E.N。;Falcáo,A.X.,基于k连通性的Optimum-path森林:理论和应用,模式识别。莱特。,87, 117-126 (2017)
[16] 罗德里格斯,D。;Souza,A.N。;Papa,J.P.,使用多目标优化修剪最优路径森林分类器,(第30届SIBGRAPI图形、模式和图像会议论文集(2017),IEEE:IEEE Niteroi,巴西),127-133
[17] M.蓬蒂。;Riva,M.,最优路径森林分类器的增量线性时间学习算法,Inform。过程。莱特。,126, 1-6 (2017) ·兹比尔1407.68413
[18] 迪尼兹,W.F.S。;弗里蒙特,V。;我·芬托尼。;Nóbrega,E.G.O.,一种基于FPGA的嵌入式系统性能加速架构,应用于最佳路径森林分类器,微过程。微晶。,52, 261-271 (2017)
[19] 阿方索,L.C.S。;佩杜奈特,D.C.G。;de Souza,A.N。;Papa,J.P.,使用无监督流形学习改进最优路径森林分类,(第24届模式识别国际会议论文集(2018),IEEE:IEEE北京,中国),560-565
[20] 博斯塔尼,H。;Sheikhan,M.,使用马尔可夫聚类算法修改最优路径森林,(第二届信号处理与智能系统国际会议论文集(2016),IEEE:IEEE德黑兰,伊朗)
[21] 蒙特罗,A.E。;Falcáo,A.X.,基于最优路径森林的分治聚类方法,(第31届SIBGRAPI图形、模式和图像会议论文集(2018),IEEE:IEEE巴拉那,巴西),416-423
[22] 费尔南德斯,S.E.N。;Papa,J.P.,《使用分类法和置信度改进最优路径森林学习》,《模式分析》。申请。,22, 703-716 (2019)
[23] Culquicondor,A。;巴尔达辛,A。;Castelo-Fernández,C。;de Carvalho,J.P.L。;Papa,J.P.,《训练监督最优路径森林分类器的高效并行实现》,神经计算,393,259-268(2020)
[24] G.Frahling,C.Sohler,动态几何数据流中的核心集,摘自:第37届ACM计算理论研讨会论文集,美国马里兰州ACM,2005年,第209-217页·Zbl 1192.68360号
[25] M.Schmidt,德国多特蒙德技术大学计算机科学系,k均值问题的核心集和流算法及相关聚类目标,2014年。
[26] M.Lucic,O.Bachem,A.Krause,《硬和软Bregman聚类的强核集及其在指数族混合中的应用》,载于:《第19届国际人工智能与统计会议论文集》,JMLR:W&CP,西班牙加的斯,2016年,第1-16页。
[27] 阿加瓦尔,P.K。;Har-Peled,S。;Varadarajan,K.R.,通过核心集的几何近似,组合与计算,几何,52,1-30(2005)·Zbl 1123.68141号
[28] Yu,H。;阿加瓦尔,P.K。;波雷迪,R。;Varadarajan,K.R.,《使用核心集进行形状拟合和动力学数据结构的实用方法》,《算法》,52,378-402(2008)·Zbl 1163.68042号
[29] 阿加瓦尔,P.K。;Har-Peled,S。;Yu,H.,通过剥皮和格栅芯组进行坚固的形状拟合,Disc。计算。几何学,39,38-58(2008)·Zbl 1138.68055号
[30] 张,Q。;Chin,T.-J.,三角测量核心集,IEEE Trans。模式分析。机器。智力。,40, 2095-2108 (2018)
[31] Har-Peled,S。;Kushal,A.,k-median和k-means聚类的较小核心集,Disc。计算。几何,37,3-19(2007)·兹伯利1106.68112
[32] 弗拉林,G。;Sohler,C.,《使用核心集的快速k-means实现》,《国际计算机》。几何应用。,18, 605-625 (2008) ·Zbl 1182.65034号
[33] Chen,K.,关于度量空间和欧氏空间中K-中值和K-均值聚类的核集及其应用,SIAM J.Compute。,39, 923-947 (2009) ·Zbl 1192.68880号
[34] Zhang,Y。;汤旺三,K。;Tirthapura,S.,Streaming k-means clustering with fast queries,(第33届国际数据工程会议论文集(2017),IEEE:IEEE San Diego,CA,USA)
[35] D.Feldman,M.Monemizadeh,C.Sohler,基于弱核集的k-means聚类的PTAS,载于:第23届计算几何年度研讨会论文集,ACM,韩国庆州,2007年,第11-18页·Zbl 1209.68639号
[36] Bachem,O。;Lucic,M。;Krause,A.,非参数估计的核心集——DP-means案例,(第32届机器学习国际会议论文集(2015),ACM,里尔:ACM,法国里尔),209-217
[37] McGrory,C.A。;阿霍克特区。;霍斯利,J.A。;Alston,C.L.,通过核心集对海量数据集进行混合建模的加权吉布斯采样,Stat,3291-299(2014)
[38] 博斯塔尼,H。;谢汗,M。;Mahboobi,B.,《开发基于核心集的快速监督最优路径森林》(《人工智能和信号处理会议论文集》(2017),IEEE:IEEE Shiraz,伊朗)
[39] Papa,J.P。;法尔考,A.X。;阿尔伯克基,V.H.C。;Tavares,J.M.R.S.,大型数据集的高效监督最优路径森林分类,模式识别。,45, 512-520 (2012)
[40] 法尔考,A.X。;斯托尔菲,J。;de Alencar Lotufo,R.,《图像森林变换:理论、算法和应用》,IEEE Trans。模式分析。机器。智力。,26, 19-29 (2004)
[41] 博斯塔尼,H。;Sheikhan,M.,使用无监督学习和社交网络概念修改基于监督OPF的入侵检测系统,模式识别。,62, 56-72 (2017)
[42] O.Bachem,M.Lucic,A.Krause,《机器学习的实用核心集构造》,苏黎世理工学院计算机科学系技术报告,2017年(https://arxiv.org/pdf/1703.06476v2.pdf).
[43] Ackermann,M.R.,《Bregman k-median问题的算法》,博士论文(2009),帕德博恩大学计算机科学系:德国帕德博恩大学计算科学系
[44] Yang,Y。;Wang,J.,多跳无线网络中路由度量的设计指南,(第27届计算机通信会议论文集(2008),IEEE:美国亚利桑那州凤凰城IEEE)
[45] 加德纳,M.,《数学游戏——约翰·康韦的新纸牌游戏《生命》的奇妙组合》,科学。美国,223120-123(1970)
[46] 博斯塔尼,H。;Sheikhan,M.,入侵检测系统中用于特征选择的二进制引力搜索算法和互信息的混合,软件。计算。,21, 2307-2324 (2017)
[47] M.Tavallaee,E.Bagheri,W.Lu,A.Ghorbani,NSL-KDD数据集,2009年。可用时间:http://www.unb.ca/cic/datasets/nsl.html。【查阅日期:2018年6月6日】。
[48] J.Catlett,Statlog(Shuttle)Data Set,在线阅读:http://archive.ics.uci.edu/ml/datasets/Statlog+
[49] R.Bhatt,A.Dhall,《皮肤分割数据集》,在线阅读:http://archive.ics.uci.edu/ml/datasets/Skin网站+细分。【2018年6月6日访问】。
[50] 佩杜奈特,D.C.G。;Gonçalves,F.M.F。;Guilherme,I.R.,通过倒数kNN图和图像检索任务的连接组件进行无监督流形学习,模式识别。,75, 161-174 (2018)
此参考列表基于出版商或数字数学图书馆提供的信息。它的项目与zbMATH标识符启发式匹配,并且可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。