×

基于流形的合成过采样与流形一致性估计。 (英语) 兹比尔1457.68227

概述:分类领域,如医学、国家安全和环境领域,经常缺乏针对感兴趣的类的培训实例。在许多情况下,在这些条件下诱导的分类模型对重要的少数类的预测性能较差。合成过采样可以通过生成额外的训练实例来减轻不平衡的影响。在该领域,大多数研究都集中在细化SMOTE算法上。然而,我们注意到,SMOTE的生成偏差不适合于符合流形性质的大类学习问题。这些是高维问题,例如图像和光谱分类,其隐式特征空间的维数低于其物理数据空间。我们表明,忽略这一点可能会导致在数据空间的错误区域中生成实例。我们提出了基于流形的合成过采样的一般框架帮助用户选择适合于域的流形学习方法,如PCA或自动编码器,并将其应用于建模和生成额外的训练样本。我们对多种学习文献中标准的理论分布和图像分类任务的数据生成进行了评估,并实证显示了其对高维图像和γ射线光谱任务的分类以及16个UCI数据集的积极影响。

MSC公司:

68T05型 人工智能中的学习和自适应系统
62H25个 因子分析和主成分;对应分析
62H30型 分类和区分;聚类分析(统计方面)
62兰特 歧管统计
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] 阿卡巴尼,R;奎克,S;Japkowicz,N,将支持向量机应用于不平衡数据集,机器学习:ECML,3201,39-50,(2004)·Zbl 1132.68523号
[2] 阿兰,G;Bengio,Y,《正规化自动编码器从数据生成分布中学到了什么》,《机器学习研究杂志》,第15期,第3563-593页,(2014年)·Zbl 1311.62053号
[3] Alpaydin,E.(2014)。机器学习简介(第三版)。马萨诸塞州剑桥:麻省理工学院出版社·Zbl 1298.68002号
[4] 巴蒂斯塔,G;RC普拉蒂;Monard,MC,《平衡机器学习训练数据的几种方法的行为研究》,ACM SIGKD Explorations Newsletter:Special Issue on learning from Imbalanced Dataset,6,20,(2004)·doi:10.145/1007730.1007735
[5] 巴蒂斯塔,G;RC普拉蒂;Monard,MC,平衡机器学习训练数据的几种方法的行为研究,ACM Sigkdd Explorations Newsletter,6,20-26,(2004)·doi:10.145/1007730.1007735
[6] Batista,G.E.、Bazzan,A.L.C.和Monard,M.C.(2003年)。关键词自动注释的训练数据平衡:一个案例研究。巴西生物信息学讲习班(第10-18页)。
[7] M·贝尔金;Niyogi,P,用于降维和数据表示的拉普拉斯本征映射,神经计算,151373-1396,(2003)·Zbl 1085.68119号 ·doi:10.1162/089976603321780317
[8] M·贝尔金;Niyogi,P,黎曼流形上的半监督学习,机器学习,56209-239,(2004)·Zbl 1089.68086号 ·doi:10.1023/B:MACH.0000033120.25363.1e
[9] Bellinger,C.(2016)。超越SMOTE的边界:基于流形的合成过采样框架博士论文。
[10] Bellinger,C.、Drummond,C.和Japkowicz,N.(2016)。超越SMOTE的边界:基于流形的合成过采样框架。欧洲机器学习会议(第1-16页)。
[11] Bellinger,C.、Japkowicz,N.和Drummond,C.(2015)。用于高级放射性威胁检测的合成过采样。机器学习和应用国际会议.doi:10.1109/ICMLA.2015.58·兹比尔1457.68227
[12] Blondel,M.、Seki,K.和Uehara,K.(2011年)。解决基于文献的基因功能注释中的类不平衡和数据稀缺。第34届ACM SIGIR信息研究与开发国际会议记录-SIGIR’11(第1123-1124页)。纽约州纽约市:ACM出版社·Zbl 1242.68256号
[13] Bunkhumpornpat,C.、Sinapiromsaran,K.和Lursinsap,C.(2009年)。安全水平打击:用于处理类别不平衡问题的安全水平合成少数过采样技术。亚太知识发现和数据挖掘会议(第475-482页)。柏林:斯普林格·Zbl 1132.68523号
[14] Cattell,RB,因素数量的筛选检验,多变量行为研究,1245-276,(1966)·doi:10.1207/s15327906mbr0102_10
[15] Chapelle,O.、Scholkopf,B.和Zien,A.(2006年)。半监督学习剑桥:麻省理工学院出版社。 ·doi:10.7551/mitpress/9780262033589.001.0001
[16] 查拉,N;鲍耶,K;霍尔,L;WP,K,SMOTE:合成少数人过采样技术,《人工智能研究杂志》,16,321-357,(2002)·Zbl 0994.68128号
[17] Chawla,N.、Japkowicz,N.和Kolcz,A.(2003)。不平衡数据集的车间学习2。机器学习国际会议.
[18] 内华达州肖拉;贾普科维奇,N;Drive,P,编辑:关于从不平衡数据集学习的特刊,ACM SIGKD Explorations Newsletter,62000-2004,(2004)·数字对象标识代码:10.1145/1007730.1007733
[19] Chawla,N.和Zhou,Z.H.(2009年)。当类不平衡且错误有代价时进行数据挖掘。第十三届亚太知识发现和数据挖掘会议研讨会.
[20] 考特尼,M;Ray,G,《确定全民教育中保留的因素数量:使用SPSS R菜单2.0版进行更明智的估计》,《实践评估、研究与评估》,第18期,第1-14页,(2013年)
[21] Dietterich,TG,用于比较监督分类学习算法的近似统计测试,神经计算,101895-1923,(1998)·doi:10.1162/08997669830017197
[22] 多明戈斯,P,《关于机器学习的一些有用知识》,《ACM的通信》,第55、78页,(2012年)·doi:10.1145/2347736.2347755
[23] Drummond,C.和Holte,R.C.(2003)。C4.5、类别不平衡和成本敏感性:为什么欠采样胜过过采样。ICML学习不平衡数据集研讨会II.
[24] Fecker,D.、Märgner,V.和Fingscheidt,T.(2013)。高度不平衡数据集的密度诱导过采样。P.R.Bingham和E.Y.Lam(编辑),SPIE公司。8661,图像处理:机器视觉应用VI(第8661卷,第86610P-1-86610P-11页)。华盛顿州贝灵汉:光电仪器工程师学会(SPIE)。
[25] Gao,M.、Hong,X.、Chen,S.和Harris,C.J.(2012)。基于概率密度函数估计的非平衡二类问题的过采样。2012年国际神经网络联合会议(IJCNN)(第1-8页)。电气与电子工程师协会。
[26] 加里多,LE;福建省阿巴德市;Ponsoda,V,velicer最小平均分项因子保留法与分类变量的绩效,教育与心理测量,71,551-570,(2011)·doi:10.177/013164410389489
[27] Gauld,DB,流形的拓扑性质,美国数学月刊,81,633-636,(2008)·Zbl 0287.57002号 ·doi:10.2307/2319220
[28] Goldberg,AB;朱,X;辛格,A;徐,Z;Nowak,R,Multi-manifold半监督学习,机器学习研究杂志,5,169-176,(2009)
[29] Han,H.,Wang,W.Y.,&Mao,B.H.(2005)。边界SMOTE:不平衡数据集学习中的一种新的过采样方法。在D.S.Huang、X.P.Zhang和G.B.Huang(编辑)中,智能计算的进展.ICIC 2005年计算机科学课堂讲稿(第3644卷)。施普林格,柏林,海德堡。
[30] He,H.、Bai,Y.、Garcia,E.A.和Li,S.(2008)。ADASYN:用于不平衡学习的自适应合成采样方法。2008年IEEE神经网络国际联合会议(IEEE计算智能世界大会)(第3期,第1322-1328页)。
[31] He,H;Garcia,EA,从不平衡数据中学习,IEEE知识与数据工程汇刊,211263-1284,(2009)·doi:10.1109/TKDE.2008.239
[32] 霍恩,JL,《因子分析中因子数量的理论基础和检验》,《心理测量学》,30179-185,(1965)·Zbl 1367.62186号 ·doi:10.1007/BF02289447
[33] LG汉弗莱斯;Montanelli,RGJ,《确定共同因素数量的平行分析标准的调查》,《多元行为研究》,第10期,193-205页,(1975)·doi:10.1207/s15327906mbr1002_5
[34] 霍,X.,倪,X.S.,&史密斯,A.K.(2007)。基于流形的学习方法综述。企业数据挖掘最新进展国际研讨会:算法和应用(第691-745页)。新加坡:世界科学。
[35] Japkowicz,N.(2000年)。编辑。AAAI’2000不平衡数据集学习研讨会.
[36] Japkowicz,N,通过前馈神经网络进行监督与非监督二进制学习,机器学习,42,97-122,(2001)·Zbl 0970.68128号 ·doi:10.1023/A:1007660820062
[37] 乔,T;Japkowicz,N,《阶级不平衡与小分离》,ACM SIGKDD探索通讯:从不平衡数据集学习特刊,6,40-49,(2004)·doi:10.145/1007730.1007737
[38] Kaiser,HF,《电子计算机在因素分析中的应用》,教育和心理测量,20,141-151,(1960)·doi:10.1177/001316446002000116
[39] Kangas,LJ;Keller,体育;西西里亚诺,ER;库兹,RT;Ely,JH,《人工神经网络在基于PVT的辐射入口监测器中的应用》,核仪器和物理研究方法A部分:加速器、光谱仪、探测器和相关设备,587398-412,(2008)·doi:10.1016/j.nima.2008.01.065
[40] Krizhevsky,A.(2009)。从微小图像中学习多层特征多伦多大学计算机科学系硕士论文。
[41] Kubat,M.、Holte,R.C.和Matwin,S.(1998)。卫星雷达图像中石油泄漏检测的机器学习。机器学习,30(2), 195-215.
[42] LeCun,Y;博图,L;本吉奥,Y;Haffner,P,《基于梯度的学习应用于文档识别》,IEEE会议记录,862278-2324,(1998)·数字对象标识代码:10.1109/5.726791
[43] Liu,M.、Wang,R.、Huang,Z.、Shan,S.和Chen,X.(2013)。基于格拉斯曼流形的偏最小二乘回归情感识别。第15届ACM多模交互国际会议记录(第525-530页)。ACM公司·Zbl 1367.62186号
[44] Lui,Y.M.、Beveridge,J.R.和Kirby,M.(2010年)。产品流形上的动作分类。2010年IEEE计算机视觉和模式识别会议(CVPR)(第833-839页)。电气与电子工程师协会。
[45] Ma,Y.,&Fu,Y..(编辑)。(2011年)。流形学习理论与应用CRC出版社。
[46] Nguwi,Y.Y.和Cho,S.Y.(2009年)。支持向量自组织学习用于不平衡医学数据。2009年国际神经网络联合会议(第2250-2255页)。电气与电子工程师协会。
[47] Olmos,P;迪亚兹,J;佩雷斯,J;戈麦斯,P;Rodellar,V型;阿瓜约,P;布鲁,A;加西亚-贝尔蒙特,G;Pablos,J,《自动辐射光谱分析的新方法》,IEEE核科学汇刊,38,971-975,(1991)·doi:10.1009/23.83860
[48] Raiche,G.、Roipel,M.和Blais,J.G.(2006)。Cattell的scree测试的非图形解决方案。心理测量学国际年会.
[49] Revelle,W.(2013)。心理学:人格和心理学研究程序伊利诺伊州埃文斯顿:西北大学。http://CRAN.R-project.org/package=psych版本=1.3.2·Zbl 1311.62053号
[50] Revelle,W;Rocklin,T,《非常简单的结构:估算可解释因素最佳数量的替代程序》,《多元行为研究》,第4期,第403-414页,(1979年)·doi:10.1207/s15327906mbr1404_2
[51] Roweis,S;Saul,L,通过局部线性嵌入降低非线性维数,《科学》,2902323-2326,(2000)·doi:10.1126/science.290.5500.2323
[52] Rumelhart,D.E.、Hinton,G.E.和Williams,R.J.(1986年)。通过错误传播学习内部表示。并行分布式处理:认知微观结构的探索(第1卷,第318-362页)。MA:麻省理工学院出版社。
[53] Ruscio,J;Roche,B,使用已知因子结构的比较数据确定探索性因子分析中保留的因子数量,《心理评估》,24,282,(2012)·数字对象标识代码:10.1037/a0025697
[54] Schwarz,G,估算模型的维数,统计年鉴,6,461-464,(1978)·Zbl 0379.62005年 ·doi:10.1214/aos/1176344136
[55] Silva,V.D.和Tenenbaum,J.B.(2003)。非线性降维中的全局与局部方法。神经信息处理系统研究进展(第15卷,第721-728页)。马萨诸塞州剑桥:麻省理工学院出版社·Zbl 0287.57002号
[56] 斯拉玛语,R;Wannous,H;达乌迪,M;Srivastava,A,使用格拉斯曼流形上的学习进行精确的3D动作识别,模式识别,48,556-567,(2015)·doi:10.1016/j.patcog.2014.08.011
[57] Stefanowski,J.和Wilk,S.(2007年)。通过对不平衡数据的选择性预处理,改进MODLEM诱导的基于规则的分类器。ECML/PKDD知识发现粗糙集国际研讨会(RSKD’2007)(第54-65页)。
[58] Tenenbaum,JB;席尔瓦,V;Langford,JC,非线性降维的全球几何框架,科学(纽约,NY),2902319-23,(2000)·doi:10.1126/science.290.5500.2319
[59] Tuzel,O.、Porikli,F.和Mee,P.(2007a)。基于黎曼流形分类的人体检测。2017 IEEE计算机视觉和模式识别会议明尼阿波利斯,明尼苏达州,2007年(第1-8页)。
[60] Tuzel,O.、Porikli,F.和Meer,P.(2007b)。基于黎曼流形分类的人体检测。2007年IEEE计算机视觉和模式识别会议。2007年CVPR(第1-8页)。电气与电子工程师协会。
[61] 图泽尔,O;Porikli,F;Meer,P,通过黎曼流形分类进行行人检测,IEEE模式分析和机器智能汇刊,301713-1727,(2008)·doi:10.1109/TPAMI.2008.75
[62] Van Hulse,J.、Khoshgoftaar,T.M.和Napolitano,A.(2007年)。从不平衡数据中学习的实验视角。第24届机器学习国际会议记录(第935-942页)。
[63] Velicer,W,从偏相关矩阵中确定成分的数量,《心理测量学》,41,321-327,(1976)·Zbl 0336.62041号 ·doi:10.1007/BF02293557
[64] Vincent,P,堆叠去噪自动编码器:通过局部去噪学习深层网络中的有用表示,标准,11,3371-3408,(2010)·Zbl 1242.68256号
[65] Wallace,B.C.、Small,K.、Brodley,C.E.和Trikalinos,T.A.(2011年)。阶级不平衡,redux。2011年IEEE第11届数据挖掘国际会议(第754-763页)。电气与电子工程师协会。
[66] Wang,S.、Minku,L.L.、Chawla,N.和Yao,X.(2017)。课堂失衡和概念漂移情况下的学习研讨会。IJCAI 2017研讨会.
[67] Wei,J.、Peng,H.、Lin,Y.-S.、Huang,Z.-M.和Wang,J.-B.(2008)。流形学习的自适应邻域选择。2008年机器学习和控制论国际会议(第1卷,第380-384页)·Zbl 1089.68086号
[68] Weinberger,K.Q.、Sha,F.和Saul,L.K.(2004年a)。学习非线性降维的核矩阵。机器学习国际会议(第106-113页)·Zbl 1085.68119号
[69] Weinberger,K.Q.、Sha,F.和Saul,L.K.(2004年b)。学习非线性降维的核矩阵。第二十一届机器学习国际会议记录(第106页)。ACM公司。
[70] GM Weiss,《稀有采矿:统一框架》,SIGKDD Explorations Newsletter,6,7-19,(2004)·doi:10.145/1007730.1007734
[71] Xue,H.U.I.和Chen,S.C.(2007年)。可选的鲁棒局部嵌入。2007年国际小波分析与模式识别会议(第591-596页)。
[72] 杨,Q;吴,X;埃尔坎,C;盖尔克,J;韩,J;赫克曼,D;凯姆,D;刘,J;Madigan,D;Piatetsky-shapiro,G;拉加万(VV);拉斯托吉,R;斯托尔福,SJ;图之林,A;Wah,BW,《数据挖掘研究中的10个挑战性问题》,《国际信息技术与决策杂志》,第5期,第597-604页,(2006年)·doi:10.1142/S0219622006002258
[73] 吉田,E;Shizuma,K;Endo,S;Oka,T,神经网络在分析锗光谱仪测量的γ射线光谱中的应用,核仪器和物理研究方法a部分:加速器、光谱仪、探测器和相关设备,484557-563,(2002)·doi:10.1016/S0168-9002(01)01962-3
[74] Zhang,D.和Chen,X.(2005)。基于多项式流形核的文本分类。第28届ACM SIGIR信息检索研究与发展年度国际会议论文集(第266-273页)。
[75] 朱,M;Ghodsi,A,通过使用剖面似然从碎石图中自动选择维度,计算统计和数据分析,51,918-930,(2006)·Zbl 1157.62429号 ·doi:10.1016/j.csda.2005.09.010
此参考列表基于出版商或数字数学图书馆提供的信息。它的项目与zbMATH标识符启发式匹配,并且可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。