×

最小学习机:理论结果和基于聚类的参考点选择。 (英语) Zbl 1531.68077号

摘要:最小学习机(MLM)是一种基于学习输入和输出数据空间中计算的距离矩阵之间的线性映射的非线性监督方法,其中距离是使用称为参考点的点子集计算的。它的简单公式吸引了最近几项关于扩展和应用的工作。在本文中,我们旨在解决与传销相关的一些开放性问题。首先,我们详细介绍了保证MLM插值和通用逼近能力的理论方面,这之前只是通过经验验证的。其次,我们确定了为MLM的泛化能力选择参考点的任务的主要重要性。然后提出并分析了几种基于聚类的回归场景中参考点选择方法。基于广泛的实证评估,我们得出结论,所评估的方法既可扩展又有用。具体来说,对于少量参考点,基于聚类的方法优于原始MLM公式的标准随机选择。

MSC公司:

68T05型 人工智能中的学习和自适应系统
62H30型 分类和区分;聚类分析(统计方面)
62J02型 一般非线性回归

软件:

k平均值++
PDF格式BibTeX公司 XML格式引用
全文: arXiv公司 链接

参考文献:

[1] 阿米亚·阿班达、Usue Mori和Jose A.Lozano。基于距离的时间序列分类综述。数据挖掘与知识发现,33(2):378-4122019·Zbl 1458.62191号
[2] 查鲁·C·阿加瓦尔(Charu C.Aggarwal)、孔祥南(Xiannan Kong)、顾全全(Quanquan Gu)、韩嘉伟(Jiawei Han)和S.于菲利浦(S.Yu Philip)。主动学习:一项调查。《数据分类》,第599-634页。查普曼和霍尔/CRC,2014年。
[3] David Arthur和Sergei Vassilvitskii。k表示++:谨慎播种的优点。第十八届ACM-SIAM离散算法年会论文集,第1027-1035页。工业和应用数学学会,2007年·Zbl 1302.68273号
[4] 约翰·W·奥尔。距离矩阵可逆性的初等证明。线性与多线性代数,40(2):119-1241995·Zbl 0843.15011号
[5] 玛丽亚·弗洛琳娜·巴尔坎、阿夫里姆·布鲁姆和内森·斯雷布罗。具有相似函数的学习理论。机器学习,72(1-2):89-1122008·Zbl 1470.68076号
[6] David S.Broomhead和D.Lowe。多变量函数插值和自适应网络。复杂系统,2:321-3551988·Zbl 0657.68085号
[7] 韦斯利·卡尔达斯(Weslley L.Caldas)、乔·阿奥·P·P·戈麦斯(Joáao P.P.Gomes)和迭戈·P·梅斯基塔(Diego P.Mesquita)。快速Co-MLM:一种基于最小学习机的高效半监督协同训练方法。新一代计算,36(1):41-582018。
[8] 曹红柳、西蒙·伯纳德、罗伯特·萨布林和劳伦特·希特。基于随机森林差异的多视图学习在辐射学中的应用。模式识别,88:185-1972019。
[9] M.Emre Celebi、Hassan A.Kingravi和Patricio A.Vela。k均值聚类算法有效初始化方法的比较研究。应用专家系统,40(1):200-2102013。
[10] 陈一华。基于相似性的学习策略。华盛顿大学电气工程专业博士论文,2010年。
[11] 陈一华(Yihua Chen)、埃里克·K·加西亚(Eric K.Garcia)、玛雅·R·古普塔(Maya R.Gupta)、阿里·拉希米(Ali Rahimi)和卢卡·卡赞蒂(Luca Cazzanti)。基于相似性的分类:概念和算法。机器学习研究杂志,10:747-7762009·Zbl 1235.68138号
[12] David N.Coelho、Guilherme A.Barreto、Cl´audio M.S.Medeiros和Jos´e D.A.Santos。分类器在三相异步电机短路早期故障检测中的性能比较。2014年IEEE工程解决方案计算智能研讨会(CIES),第42-48页,2014年。
[13] Yandre M.G.Costa、Diego Bertolini、Alceu S.Britto、George D.C.Cavalcanti和Luiz E.S.Oliveira。差异方法:综述。《人工智能评论》,53:2783-28082020。
[14] 阿多尼亚斯·德奥利维拉(Adonias C.de Oliveira)、乔·阿奥·P·P·戈麦斯(Joáao P.P.Gomes)、阿贾马尔·罗查·内托(Ajalmar R.Rocha Neto)和小阿毛里·H·德·苏扎(Amauri H。具有拒绝选项的高效最小学习机器。2016年第五届巴西智能系统大会(BRACIS),第397-4022016页。
[15] 小阿毛里·H·德·苏扎、弗朗西斯科·科罗纳、尤恩·米奇、阿毛里·伦达塞、吉尔赫默·A·巴雷托和奥利·西蒙。最小学习机:一种新的基于距离的监督学习方法。国际人工神经网络工作会议,第408-416页。施普林格,2013年。
[16] 小阿毛里·H·德·苏扎、弗朗西斯科·科罗纳、吉尔赫默·A·巴雷托、尤恩·米奇和阿毛里·伦达塞。最小学习机:一种新的基于监督距离的回归和分类方法。神经计算,164:34-442015年9月21日。
[17] Madson L.D.Dias、Lucas S.de Souza、Ajalmar R.da Rocha Neto和Amauri H.de Sousa Junior。反向邻域:一种选择最小学习机参考点的新方法。2018年欧洲人工神经网络、计算智能和机器学习研讨会论文集(ESANN 2018),201-206页,2018年。
[18] 彼得·德里内亚斯(Petros Drineas)和迈克尔·马奥尼(Michael W.Mahoney)。关于Nystr–om方法,用于近似gram矩阵,以改进基于核的学习。机器学习研究杂志,6:2153-21752005·Zbl 1222.68186号
[19] Jose A.V.Florˆencio、Madson L.D.Dias、Ajalmar R.da Rocha Neto和Amauri H.de Souza J´unior。一种基于模糊c均值的最小学习机参考点选择方法。《模糊信息处理》编辑Guilherme A.Barreto和Ricardo Coelho,Cham,2018年,第398-407页。施普林格国际出版公司。
[20] 何塞·A·V·弗洛·恩西奥(Jose A.V.Florˆencio)、索洛·A·F·奥利维拉(Saulo A.F.Oliveira)、乔·奥·P·P·戈麦斯(Joáao P.P.Gomes)和阿贾马尔·罗查·内托(Aja。最小学习机器的新视角:轻量级方法。神经计算,2020年。
[21] Jerome Friedman、Trevor Hastie和Robert Tibshirani。统计学习的要素,第2卷。斯普林格统计系列,纽约,2001年·Zbl 0973.62007号
[22] 甘海涛、农桑、黄睿、童晓军和丹志平。使用聚类分析改进半监督分类。神经计算,101:290-2982013年。
[23] Joao P.P.Gomes、Diego P.P..Mesquita、Ananda Freire、Amauri H.Souza J´unior和Tommi K¨arkk¨ainen。基于m-估计的鲁棒最小学习机。《2017年欧洲人工神经网络、计算智能和机器学习研讨会论文集》,第383-388页,2017年。
[24] 特奥菲洛·冈萨雷斯。聚类以最小化最大簇间距离。理论计算机科学,38:293-3061985·Zbl 0567.62048号
[25] 伊兰·格罗诺和什洛莫·莫兰。UPGMA和其他常见聚类算法的优化实现。信息处理信函,104(6):205-2102007·Zbl 1184.68600号
[26] 乔纳斯·海默·艾宁。JYU论文第43卷“基于原型的聚类元素的改进与应用”。Jyv–askyl–大学,2018年。
[27] Joonas H¨am¨al¨ainen和Tommi K¨arkk¨ainen。使用分布式平衡折叠初始化大数据聚类。2016年欧洲人工神经网络、计算智能和机器学习研讨会论文集——ESANN,第587-592页,2016年。
[28] Joonas H¨am¨al¨ainen和Tommi K¨arkk¨ainen。最小学习机的牛顿方法。工业计算科学和人工智能-解决未来社会和经济挑战的新数字技术。斯普林格,2020年。(出现)。
[29] Joonas H¨am¨al¨ainen、Susanne Jauhiainen和Tommi K¨arkk¨ainen。基于原型聚类的内部聚类验证指数比较。算法,10(3):105,2017·Zbl 1436.62257号
[30] 胡彦军、张磊、李高、马晓平、丁恩杰。基于误差传播估计的多点定位线性系统构造。EURASIP无线通信与网络杂志,2016(1):1542016年6月。
[31] Itay Hubara、Matthieu Courbariaux、Daniel Soudry、Ran El-Yaniv和Yoshua Bengio。量化神经网络:训练具有低精度权重和激活的神经网络。《机器学习研究杂志》,18:6869-68982017·Zbl 1468.68183号
[32] Purushottam Kar和Pratek Jain。通过数据驱动嵌入实现基于相似性的学习。神经信息处理系统进展,1998-2006页,2011年。
[33] 托米·K·阿克·阿宁。极端最小学习机:基于距离的岭回归。神经计算,342:33-482019年。
[34] 布莱恩·库利斯。度量学习:一项调查。《机器学习基础与趋势》,5(4):287-3642013年·Zbl 1278.68014号
[35] Sanjiv Kumar、Mehryar Mohri和Amee Talwalkar。Nystr–om方法的采样方法。《机器学习研究杂志》,13:981-10062012年·Zbl 1283.68292号
[36] 斯图亚特·劳埃德。PCM中的最小二乘量化。IEEE信息理论学报,28(2):129-1371982·Zbl 0504.94015号
[37] Viktor Losing、Barbara Hammer和Heiko Wersing。增量在线学习:最新算法的回顾和比较。神经计算,275:1261-12742018。
[38] Atilla N.Maia、Madson L.D.Dias、Jo~´ao P.P.Gomes和Ajamar R.da Rocha Neto。最佳选择最小学习机器。在Hujun Yin、David Camacho、Paulo Novais和Antonio J.Tall´on Ballesteros的《智能数据工程和自动化学习-IDEAL 2018》编辑中,Cham,2018年,第670-678页。施普林格国际出版公司。
[39] Leandro B.Marinho、Amauri H.de Souza Junior和Pedro P.Rebou cas Filho。使用机器学习技术进行人类活动识别的新方法。在智能系统设计和应用国际会议上,第529-538页。斯普林格,2016年。
[40] 莱安德罗·B·马里奥、杰斐逊·S·阿尔梅达、乔·奥·W·M·苏扎、维克多·H·C·阿尔伯克基和佩德罗·P·雷布·卡斯·菲略。一种基于拓扑图的移动机器人定位新方法,在全方位图像中使用带拒绝选项的分类。专家系统与应用,72:1-172017。
[41] 莱安德罗·B·马里诺、佩德罗·P·雷布·卡斯·菲略、杰斐逊·S·阿尔梅达、乔·奥·W·M·苏扎、小阿毛里·H·德·苏扎和维克多·H·C·德·阿尔伯克基。一种新的基于计算机视觉分类和拒绝选项的移动机器人定位方法。计算机与电气工程,68:26-432018。
[42] Diego P.P.Mesquita、Joáao P.P..Gomes和Amauri H.de Souza Junior。缺少值的数据集的最小学习机。第22届神经信息处理国际会议——2015年ICONIP,第565-572页,2015年。
[43] Diego P.P.Mesquita、Joáao P.P..Gomes和Amauri H.de Souza Junior。用于分类和回归的高效最小学习机的集成。《神经处理快报》,46(3):751-7662017a。
[44] Diego P.P.Mesquita、Joáao P.P..Gomes、Amauri H.de Souza Junior和Juvˆencio S.Nobre。不完全数据集的欧氏距离估计。神经计算,2017b,248:11-18。
[45] 查尔斯·米切利。散乱数据的插值:距离矩阵和条件正定函数。构造近似,2(1):11-221986·Zbl 0625.41005号
[46] J.G.Moreno Torres、J.A.S´aez和F.Herrera。研究分区诱导的数据集移动对k-fold交叉验证的影响。IEEE神经网络和学习系统汇刊,23(8):1304-13122012。
[47] Eug'ene-Patrice Ndong Ngu´ema和Guillaume Saint-Pierre。基于模型的差异分类:最大似然法。模式分析与应用,11(3-4):281-2982008。
[48] Dino Oglic和Thomas G¨artner。Nystr–om方法,以核k均值++样本作为标志。第34届国际机器学习会议论文集第70卷,2652-2660页。JMLR.org,2017年。
[49] Pavel Paclık和Robert P.W.Duin。基于差异的光谱分类:计算问题。实时成像,9(4):237-2442003。
[50] Jooyoung Park和Irwin W Sandberg。使用径向基函数网络的通用近似。神经计算,3(2):246-2571991。
[51] Jooyoung Park和Irwin W.Sandberg。近似和径向基函数网络。神经计算,5(2):305-3161993。
[52] Elzbieta Pekalska和Robert P.W.Duin。基于相似表示的自动模式识别。《电子快报》,37(3):159-1602001。
[53] Elzbieta Pekalska和Robert P.W.Duin。超越传统内核:在两个基于差异的表示空间中进行分类。IEEE系统、人与控制论汇刊,C部分(应用与评论),38(6):729-7442008。
[54] Elzbieta Pekalska、Pavel Paclik和Robert P.W.Duin。基于差异的分类的广义核方法。机器学习研究杂志,2:175-2112001·Zbl 1037.68127号
[55] Elzbieta Pekalska、Robert P.W.Duin和Pavel Paclik。基于差异的分类器原型选择。模式识别,39(2):189-2082006·Zbl 1080.68646号
[56] 安蒂·皮拉贾姆·阿基(Antti Pihlajam¨aki)、朱纳斯·H¨am¨al¨ainen、约阿金·林加(Joakim Linja)、帕沃·尼米宁(Paavo Nieminen)、萨米·马洛拉(Sami Malola)、托米·卡拉克(Tommi K¨arkk¨ainenn)和汉努·。使用基于距离的机器学习方法对Au38(SCH3)24纳米团簇进行蒙特卡罗模拟。物理化学杂志A,2020年。
[57] 叶尼塞尔·普拉森西亚·卡拉纳(Yenisel Plasencia-Calaána)、毛里西奥·奥罗佐·阿尔扎特(Mauricio Orozco-Alzate)、海迪·M´endez-V´azquez、埃德尔·加尔克·阿雷耶斯(Edel Garc´afreyes)和罗伯特·P·W·杜恩(Robert P.W.Duin)。通过快速标准的遗传算法实现可扩展原型选择。在IAPR模式识别(SPR)和结构与句法模式识别(SSPR)统计技术联合国际研讨会上,第343-352页。斯普林格,2014年。
[58] 叶尼塞尔·普拉森西亚·卡拉纳(Yenisel Plasencia-Calaána)、毛里西奥·奥罗佐·阿尔扎特(Mauricio Orozco-Alzate)、海迪·M´endez-V´azquez、埃德尔·加尔克·阿雷耶斯(Edel Garc´afreyes)和罗伯特·杜恩(Robert P.W。通过遗传算法和散列选择可伸缩原型。arXiv预印本arXiv:1712.092772017。
[59] 托马索·波乔和费德里科·吉罗西。近似和学习网络。IEEE学报,78(9):1481-14971990。
[60] Farhad Pourkamali-Anaraki、Stephen Becker和Michael B.Wakin。大规模内核机器的随机聚类Nystrom。2018年第三十二届AAAI人工智能会议。
[61] 迈克尔·鲍威尔(Michael J.D.Powell)。多变量插值的径向基函数:综述。在近似算法中,第143-167页。克拉伦登出版社,牛津,1987年·兹比尔0638.41001
[62] Chandan K.Reddy和Bhanukiran Vinzamuri。分区和层次聚类算法综述。InData Clustering Algorithms and Applications,第87-110页。Chapman和Hall/CRC,2013年。
[63] 弗兰克·迈克尔·施莱夫(Frank-Michael Schleif)和彼得·蒂诺(Peter Tino)。不确定邻近学习:综述。神经计算,27(10):2039-2962015·Zbl 1472.68155号
[64] Shai Shalev-Shwartz和Shai Ben-David。理解机器学习:从理论到算法。剑桥大学出版社,2014年·Zbl 1305.68005号
[65] 罗伯特·索卡尔(Robert R.Sokal)。评价系统关系的统计方法。堪萨斯大学科学通报,28:1409-14381958。
[66] 孙世良、赵靖、朱江。Nystr–om大规模机器学习方法综述。信息融合,2015年26:36-48。
[67] 王利伟、程阳和冯菊富。论具有不同功能的学习。第24届机器学习国际会议论文集,第991-998页,2007年。
[68] 王利伟、杉山正树、杨成、Hatano Kohei和冯菊富。不同函数学习的理论和算法。神经计算,21(5):1459-14842009·Zbl 1178.68476号
[69] 克里斯托弗·威廉姆斯和马蒂亚斯·西格。使用Nystr–om方法加速内核机器。神经信息处理系统进展,第682-688页,2001年。
[70] P.Zerzucha、M.Daszykowski和B.Walczak。异类偏最小二乘法在非线性建模问题中的应用。化学计量学和智能实验室系统,110(1):156-1622012。
[71] 张凯和郭台铭。用于大规模流形学习和降维的聚类Nystr–om方法。IEEE神经网络汇刊,21(10):1576-15872010。
[72] 张凯(Kai Zhang)、Ivor W.Tsang和詹姆斯·郭台铭(James T.Kwok)。改进的Nystr–om低阶近似和误差分析。第25届机器学习国际会议论文集,第1232-1239页,2008年。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。