×

使用局部分类器方法处理层次分类中的不平衡问题。 (英语) Zbl 1478.62174号

摘要:从不平衡数据集学习的任务在二进制、多类和多标签分类场景中得到了广泛的研究。虽然这个问题也影响了层次化数据集,但文献中很少有处理它的工作。同时,局部分类器方法是文献中处理层次化分类问题最常用的技术。在本文中,我们提出了在使用局部分类器方法时处理层次分类问题中的数据不平衡的新方法。根据局部分类方法,我们提出了三种不同的重采样模式:(1)每个节点的局部分类器;(2) 每个父节点的本地分类器;和(3)每个级别的本地分类器。为了定义某个层次数据集的不平衡程度,考虑到不同的局部分类方法,我们还提出了三种新的度量层次数据集不平衡程度的指标。对八个著名数据集的实验评估表明,不平衡度量确实可以测量数据集的不平衡,与基线、最新技术和相关工作方法相比,所提出的重采样模式能够改善分类结果。

MSC公司:

62H30型 分类和区分;聚类分析(统计方面)
62H22个 概率图形模型
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Ariyaratne HB,Zhang D(2012)《一种新颖的音乐流派分类自动层次方法》。摘自:IEEE多媒体和博览会研讨会国际会议记录,第564-569页
[2] Bader-El-Den M,Teitei E,Perry T(2018)处理阶级不平衡问题的偏向随机森林。IEEE跨神经网络学习系统
[3] Bannour H,Hudelot C(2012)使用语义层次的分层图像注释。摘自:第21届ACM信息和知识管理国际会议记录,第2431-2434页
[4] 巴蒂斯塔,G。;普拉蒂,R。;Monard,M.,平衡机器学习训练数据的几种方法的行为研究,ACM SIGKDD Explor Newsl,6,1,20-29(2004)
[5] Y.本杰米尼。;Hochberg,Y.,《控制错误发现率:一种实用且强大的多重测试方法》,J R Stat Soc Ser B(Methodol),57,1,289-300(1995)·Zbl 0809.62014号
[6] Bennett PN,Nguyen N(2009)精炼专家:改进大型分类法中的分类。摘自:第32届ACM SIGIR信息检索研究与开发国际会议记录,第11-18页
[7] Bergstra,J。;Bengio,Y.,超参数优化的随机搜索,J Mach Learn Res,13,281-305(2012)·兹比尔1283.68282
[8] Bunkhumpornpat C、Sinapiromsaran K、Lursinsap C(2009)《安全水平打击:处理阶级不平衡问题的安全水平合成少数族裔过采样技术》。在:太平洋-亚洲知识发现和数据挖掘会议,泰国曼谷,第475-482页
[9] 福建卡斯特拉诺斯;瓦莱罗·马斯,JJ;Calvo-Zaragoza,J。;Rico-Juan,JR,《字符串空间中的过采样不平衡数据》,Pattern Recogn Lett,103,32-38(2018)
[10] Cesa-Bianchi N,Valentini G(2009)全基因组基因功能预测的分层成本敏感算法。摘自:系统生物学中的机器学习,第14-29页
[11] 塞萨·比安奇,N。;关于M。;Valentini,G.,《多标签层次集合的协同、数据融合和基因功能推断的成本敏感方法》,《马赫学习》,88,1-2,209-241(2012)·Zbl 1243.68234号
[12] Charte F、Rivera A、del Jesus MJ、Herrera F(2013)处理多标签数据集不平衡的第一种方法。摘自:混合人工智能系统国际会议记录,第150-160页
[13] Charte F、Rivas AJR、del Jesus M、Herrera F(2014)MLeNN:启发式多标签欠采样的第一种方法。摘自:智能数据工程和自动学习国际会议记录,第1-9页
[14] Charte F、Rivera A、del Jesus M、Herrera F(2015a)《解决多标签分类中的不平衡:度量和随机重采样算法》。神经计算杂志163:3-16
[15] Charte F、Rivera A、del Jesus M、Herrera F(2015b)MLSMOTE:通过合成实例生成实现不平衡的多标签学习。基于知识的系统89:385-397
[16] Charuvaka A,Rangwala H(2015)Hiercost:通过成本敏感的学习改进大规模层次分类。在:关于数据库中的机器学习和知识发现的欧洲联合会议上。施普林格,第675-690页
[17] 查拉,N。;鲍耶,K。;霍尔,L。;Kegelmeyer,P.,Smote:合成少数人过采样技术,《Artif Intell Res杂志》,第16期,第321-357页(2002年)·Zbl 0994.68128号
[18] Chen B,Hu J(2010)结合先验信息的分层多标签分类用于基因功能预测。2010年:第十届智能系统设计与应用国际会议。IEEE,第231-236页
[19] 陈,B。;Hu,J.,基于过采样和层次约束的基因功能预测层次多标签分类,IEEJ Trans-Elector Electron Eng,7,2,183-189(2012)
[20] Chen B,Duan L,Hu J(2012)基于复合核的SVM用于分层多标签基因功能分类。摘自:国际神经网络联合会议(IJCNN)会议记录。IEEE,第1-6页
[21] 西斯拉克,DA;Hoens,TR;内华达州查拉;Kegelmeyer,WP,Hellinger距离决策树是稳健且偏敏感的,Data Min Knowl Disc,24,1,136-158(2012)·Zbl 1235.68141号
[22] 科隆纳,JG;贾马,J。;Nakamura,EF,《无尾类分类的分层多输出识别方法比较》,《马赫学习》,107,11,1651-1671(2018)·Zbl 06990219号
[23] Defferrard M、Benzi K、Vandergheynst P、Bresson X(2017)《FMA:音乐分析数据集》。摘自:《国际音乐信息检索学会会议录》,中国苏州,第316-323页
[24] 迪亚曼蒂尼,C。;Potena,D.,用于类不平衡问题的贝叶斯矢量量化器,IEEE Trans Knowl Data Eng,21,5,638-651(2009)
[25] 迪米特洛夫斯基,I。;科切夫,D。;洛斯科夫斯卡,S。;Dzeroski,S.,医学图像的层次注释,模式识别,44,10,2436-2449(2011)
[26] Dumais S,Chen H(2000)网络内容的层次分类。摘自:第23届ACM SIGIR国际信息检索研究与开发年会论文集,第256-263页
[27] OJ Dunn,《均值之间的多重比较》,美国统计学会杂志,56,293,52-64(1961)·Zbl 0103.37001号
[28] Fagni T,Sebastiani F(2007)关于分层文本分类中负面示例的选择。摘自:语言与技术会议记录,第24-28页
[29] 费尔南德斯,A。;洛佩兹,V。;加拉尔,M。;德尔·耶稣,MJ;Herrera,F.,《分析多类不平衡数据集的分类:二值化技术和特殊方法》,《基于知识的系统》,42,97-110(2013)
[30] 北卡罗来纳州加西亚·佩德拉哈斯。;佩雷兹·罗德里格斯,J。;García-Pedrajas,M。;Ortiz-Boyer,D。;Fyfe,C.,DNA序列中翻译起始位点识别的类不平衡方法,基于知识的系统,25,1,22-34(2012)
[31] 戈帕尔,S。;Yang,Y.,大规模分类的层次贝叶斯推理和递归正则化,ACM Trans-Knowl Discov Data,9,3,1-23(2015)
[32] Ha-Thuc V,Renders JM(2011)《无标签数据的大尺度分层文本分类》。摘自:第四届ACM网络搜索和数据挖掘国际会议记录,第685-694页
[33] 海翔,G。;Yijing,L。;尚,J。;明云,G。;元月,H。;Bing,G.,《从类平衡数据中学习:方法和应用回顾》,《专家系统应用》,73,220-239(2017)
[34] Han H,Wang WY,Mao BH(2005)《边界距离:非平衡数据集学习中的一种新的过采样方法》。参加:智能计算国际会议。中国合肥,第878-887页
[35] Hart,P.,《压缩最近邻规则(对应)》,IEEE Trans-Inf理论,14,3,515-516(1968)
[36] 哈斯蒂,T。;Tibshirani,R.,成对耦合分类,高级神经信息处理系统,11,1,507-513(1998)·Zbl 0932.62071号
[37] He H,Bai Y,Garcia EA,Li S(2008)Adasyn:不平衡学习的自适应合成抽样方法。In:IEEE国际神经网络联合会议,香港,第1322-1328页
[38] 贾普科维奇,N。;Stephen,S.,《阶级失衡问题:一项系统研究》,《智能数据分析》,第6、5、429-449页(2002年)·Zbl 1085.68628号
[39] Jeni LA、Cohn JF、De LA Torre F(2013)《面对不平衡数据:使用绩效指标的建议》。摘自:关于情感计算和智能交互的人类协会会议记录,第245-251页
[40] SH Jung;Bang,H。;Young,S.,微阵列数据分析中多重测试的样本量计算,生物统计学,6,1157-169(2005)·Zbl 1069.62098号
[41] Kiritchenko S,Matwin S,Famili F(2005)《使用层次文本分类的基因功能注释》。In:美国底特律ACL生物文献链接研讨会论文集
[42] 科切夫,D。;文斯,C。;斯特鲁伊夫,J。;Díeroski,S.,《预测结构化输出的树集合》,《模式识别》,46,3,817-833(2013)
[43] Krawczyk,B.,《从不平衡数据中学习:开放的挑战和未来的方向》,Prog Artif Intell,5,4,221-232(2016)
[44] Kumar S,Rowley HA,Wang X,Rodrigues JJM(2015)信用卡数据提取中的层次分类。美国专利9213907
[45] 李,D。;Ju,Y。;邹强,用层次结构SVM预测蛋白质折叠,Curr Proteom,13,2,79-85(2016)
[46] Mani I,Zhang I(2003)了解不平衡数据分布的方法:涉及信息提取的案例研究。摘自:《从不平衡数据集学习研讨会论文集》,美国华盛顿特区,第126卷
[47] DS麦克纳马拉;克罗斯利,SA;罗斯科,RD;艾伦,LK;Dai,J.,自动化论文评分的层次分类法,《评估写作》,23,35-59(2015)
[48] Mieth,B。;Kloft,M。;罗德里格斯,JA;Sonnenburg,S。;Vobruba,R。;莫西洛·苏亚雷斯,C。;X·法雷。;马里戈尔塔,UM;费尔,E。;Dickhaus,T.,将多重假设测试与机器学习相结合增加了全基因组关联研究的统计能力,科学代表,636671(2016)
[49] Mukaka,MM,医学研究中相关系数的适当使用指南,马拉维医学杂志,24,3,69-71(2012)
[50] 奈克,A。;Rangwala,H.,《具有罕见类别和不一致性的大尺度层次分类》,AI Matters,2,3,27-29(2016)
[51] 奈克,A。;Rangwala,H.,《大规模等级分类:最新进展》(2018),柏林:施普林格出版社,柏林
[52] 奈克,A。;Rangwala,H.,《通过重新布线改进大规模层次分类:基于数据驱动过滤器的方法》,《智能信息系统杂志》,52,1,141-164(2019)
[53] 中野,FK;Lietaert,M。;Vens,C.,《发现缺失或错误蛋白质功能注释的机器学习》,BMC Bioninform,20,1,485(2019)
[54] Napierała K,Stefanowski J,Wilk S(2010)《在存在噪声和边界示例的情况下从不平衡数据中学习》。粗糙集和当前计算趋势国际会议,波兰华沙,第158-167页
[55] 诺塔罗,M。;舒巴赫,M。;罗宾逊,PN;Valentini,G.,通过层次集成方法预测人类表型本体术语,BMC Bioninform,18,1,449(2017)
[56] Obozinski,G。;Lanckriet,G.等人。;格兰特,C。;密歇根州约旦;Noble,WS,蛋白质功能预测的一致概率输出,《基因组生物学》,9,1,S6(2008)
[57] 不列颠哥伦比亚省佩斯;Plastino,A。;Freitas,AA,《改进地方各级分层分类》,《信息数据管理杂志》,3,3,394-394(2012)
[58] Partalas I、Kosmopoulos A、Baskiotis N、Artières T、Paliouras G、Gaussieré、Androutsopoulos I、Amini M、Gallinari P(2015)LSHTC:大型文本分类的基准。CoRR abs/1503.08581
[59] Pereira RM,da Costa YMG,Silla Jr CN(2018)使用多标签重采样技术处理分层多标签数据集中的不平衡。参见:IEEE第30届人工智能工具国际会议(ICTAI),第818-824页
[60] 佩雷拉,RM;科斯塔,YM;Silla,CN Jr,MLTL:Tomek链路欠采样算法的多标签方法,神经计算,38395-105(2020)
[61] 里夫金,R。;Klautau,A.,《为一对一分类辩护》,J Mach Learn Res,5101-141(2004)·Zbl 1222.68287号
[62] 罗伊,A。;克鲁兹,RMO;Sabourin,R。;Cavalcanti,GDC,《针对不平衡学习的动态选择和数据预处理相结合的研究》,神经计算,286179-192(2018)
[63] Ruepp,A。;Zollner,A。;Maier,D。;阿尔伯曼,K。;哈尼,J。;莫克雷兹,M。;太科,I。;吉尔德纳,美国。;Mannhaupt,G。;Münsterkötter,M.,FunCat,全基因组蛋白质系统分类的功能注释方案,核酸研究,32,18,5539-5545(2004)
[64] 萨纳尔·巴贝多,JG;Lopes,A.,《音乐信号的自动类型分类》,EURASIP J Adv Signal Process,2007,1,064960(2006)·Zbl 1168.68513号
[65] Schietgat,L。;文斯,C。;斯特鲁伊夫,J。;Blockeel,H。;科切夫,D。;Díeroski,S.,使用分层多标签决策树集成预测基因功能,BMC Bioninform,11,1,1-14(2010)·Zbl 1211.68172号
[66] Silla CN Jr,Freitas AA(2009)用于层次分类的新型自顶向下方法及其在自动音乐流派分类中的应用。2009年IEEE系统、人与控制论国际会议。IEEE,第3499-3504页
[67] 小CN Silla;Freitas,AA,跨不同应用领域的分层分类调查,Data Min Knoll Disc,22,1-2,31-72(2011)·Zbl 1235.68190号
[68] Sitompul,操作系统;Nababan,EB,处理阶级不平衡问题中的偏倚支持向量机和加权距离,《国际先进情报》,4,1,21-27(2018)
[69] Sokolova M、Japkowicz N、Szpakowicz S(2006)《超越准确性、F-score和ROC:绩效评估的一系列判别指标》。摘自:澳大利亚人工智能联合会议记录,第1015-1021页
[70] Soleymani,R。;格兰杰,E。;Fumera,G.,F-测量曲线:一种可视化不平衡条件下分类器性能的工具,《模式识别》,100107146(2020)
[71] Song Y,Roth D(2014)关于无数据分层文本分类。参加:第二十八届AAAI人工智能会议
[72] Stefanowski J,Wilk S(2008):用于提高分类性能的不平衡数据的选择性预处理。In:意大利都灵数据仓库和知识发现国际会议,第283-292页
[73] 斯坦因,RA;宾夕法尼亚州Jaques;Valiati,JF,《使用单词嵌入的层次文本分类分析》,Inf-Sci,471,216-232(2019)
[74] 孙,Y。;Kamel女士;AK Wong;Wang,Y.,不平衡数据分类的成本敏感增强,模式识别,40,12,3358-3378(2007)·Zbl 1122.68505号
[75] Szalkai,B。;格罗穆斯,V。;Hancock,J.,Seclaf:一种用于分层生物序列分类的网络服务器和深层神经网络设计工具,生物信息学,1,3(2018)
[76] Tang,H。;Wang,Y。;唐,S。;朱,D。;Li,C.,用于有效预测蛋白质功能的随机聚类森林方法,IEEE Access,712360-12372(2019)
[77] Tomek,I.,《使用编辑过的最近邻规则的实验》,IEEE Trans-Syst Man Cybern,6,6,448-452(1976)·兹伯利0332.68081
[78] Tsoumakas G,Vlahavas I(2007)《随机k标签集:多标签分类的集成方法》。参加:欧洲机器学习会议。施普林格,第406-417页
[79] 文斯,C。;斯特鲁伊夫,J。;Schietgat,L。;季洛斯基,S。;Blockeel,H.,《分层多标签分类的决策树》,《马赫学习》,73、2、185(2008)·Zbl 1470.62098号
[80] 王,S。;Yao,X.,《多类不平衡问题:分析和潜在解决方案》,IEEE Trans-Syst Man Cybern第B部分(Cyber),42,4,1119-1130(2012)
[81] 徐,C。;Geng,X.,基于标签分布学习的层次分类,《AAAI Conf Artif Intell程序》,33,5533-5540(2019)
[82] 严,SJ;Lee,YS,不平衡数据分布的基于聚类的欠采样方法,专家系统应用,36,3,5718-5727(2009)
[83] Yu,L。;周,R。;Tang,L。;Chen,R.,基于DBN的重采样SVM集成学习范式,用于不平衡数据信用分类,应用软件计算,69,192-202(2018)
[84] Zhao,H.,成本敏感分类的实例权重与阈值调整,知识信息系统,15,3,321-334(2008)
[85] 周,ZH;Liu,XY,《关于多类成本敏感学习》,《计算智能》,第26、3、232-257页(2010年)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。