×

集成数据扩充和混合特征选择,用于高维小样本信用风险评估。 (英语) Zbl 1520.91420号

摘要:数据稀缺是一些新兴金融机构信贷风险评估中的一个严重问题。作为一种典型的数据稀缺类型,高维小样本往往导致无法建立有效的信用风险评估模型。为了解决这个问题,提出了一种基于Wasserstein生成对抗网络(WGAN)的数据增强和混合特征选择方法,用于高维小样本信用风险评估。在该方法中,首先使用WGAN生成虚拟样本来克服数据实例稀缺性问题,然后提出一种核偏最小二乘量子粒子群优化算法(KPLS-QPSO)来解决高维问题。为了验证目的,使用了两个高维的小样本信用数据集来证明所提方法的有效性。实证结果表明,该方法可以显著提高预测性能,避免信用风险评估中可能出现的经济损失。这意味着所提出的方法是一种具有竞争力的高维小样本信贷风险评估方法。

MSC公司:

91G40型 信用风险
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Altman,E.I.,《财务比率、判别分析和企业破产预测》,《金融杂志》,23,4,589-609(1968)
[2] Arjovsky,M。;钦塔拉,S。;Bottou,L.,Wasserstein生成性对抗网络,(第34届机器学习国际会议论文集(2017)),214-223
[3] Ba,H.,2019年。使用生成性对抗网络改进对信用卡欺诈交易的检测。[在线]。可用:http://arxiv.org/abs/11907.03355。 https://doi.org/10.48550/arXiv.1907.03355。
[4] 贝洛蒂,T。;Crook,J.,《信用评分和重要特征发现的支持向量机》,专家系统。申请。,36, 2, 3302-3308 (2009)
[5] Bennett,K.,Embrechts,M.,2003年。核偏最小二乘回归的优化观点。收录于:J.Suykens、G.Horvath、S.Basu、C.Michelli、J.Vandewalle(编辑),《学习理论的进展:方法、模型和应用》,《北约科学系列III:计算机与系统科学》第190卷,第227-250页。
[6] P.Bermejo。;Gámez,J.A。;Puerta,J.M.,使用Naive Bayes分类器加速增量包装器特征子集选择,Knowl-基于系统。,55, 140-147 (2014)
[7] 波隆-卡内多,V。;Alonso-Betanzos,A.,《功能选择的集成:回顾与未来趋势》,《信息融合》,第52期,第1-12页(2019年)
[8] 波隆-卡内多,V。;Sánchez-Maroño,N。;Alonso-Betanzos,A.,《合成数据特征选择方法综述》,Knowl。信息系统。,34, 483-519 (2013)
[9] 布雷佐尼克,L。;费斯特,I。;Podgorec,V.,特征选择的Swarm智能算法:综述,Appl。科学。,8, 9, 1521 (2018)
[10] Chandrashekar,G。;Sahin,F.,《特征选择方法调查》,计算。选举人。工程,40,1,16-28(2014)
[11] Chawla,N.V.公司。;鲍耶,K.W。;洛杉矶霍尔。;Kegelmeyer,W.P.,SMOTE:合成少数人过采样技术,《人工智能研究杂志》,16,321-357(2002)·Zbl 0994.68128号
[12] 陈,C。;张,Q。;Yu,B。;于,Z。;劳伦斯,P.J。;马奇。;Zhang,Y.,使用XGBoost特征选择和堆叠集成分类器提高蛋白质相互作用预测准确性,计算。《生物医学》,第123页,第103899条,pp.(2020)
[13] 陈,M.C。;Huang,S.H.,通过进化计算技术重新分配信用评分和拒绝实例,专家系统。申请。,24, 4, 433-441 (2003)
[14] 陈,T。;Guestrin,C.,Xgboost:一个可扩展的树增强系统,(第22届ACM SIGKDD知识发现和数据挖掘国际会议论文集(2016)),785-794
[15] 陈振生。;朱,B。;何永乐。;Yu,L.A.,基于粒子群优化的小样本集虚拟样本生成方法:在回归数据集中的应用,工程应用。Artif公司。智力。,59, 236-243 (2017)
[16] Dahooie,H.J。;哈加加,S.H.R。;Farazmehr,S。;Zavadskas,E.K。;Antucheviciene,J.,一种新的动态信用风险评估方法,使用具有公共权重的数据包络分析并结合多属性决策方法,计算。操作。第129号决议,第105223条,pp.(2021)·Zbl 1510.91174号
[17] 丁,C。;Peng,H.,微阵列基因表达数据的最小冗余特征选择,生物信息学杂志。计算。生物学,3,02,185-205(2005)
[18] Djeundje,V。;克鲁克,J。;卡拉布雷斯,R。;Hamid,M.,用替代数据提高信用评分,专家系统。申请。,163,第113766条pp.(2021)
[19] Fawcett,T.,《ROC图形:研究人员的注意事项和实际考虑》,《机器学习》。,31, 1, 1-38 (2004)
[20] 菲奥雷,美国。;Santis,A.D。;佩拉,F。;Zanetti,P。;Palmieri,F.,《利用生成性对抗网络提高信用卡欺诈检测中的分类有效性》,《信息科学》。,479, 448-455 (2019)
[21] Goodfellow,I.,Pouget-Abadie,J.,Mirza,M.,Xu,B.,Warde-Farley,D.,Ozair,S.,Courville,A.,Bengio,Y.,2014年。生成性对抗网络。《神经信息处理系统进展》,第2672-2680页。
[22] 郭,H。;刘,H。;吴,C。;志,W。;Xiao,Y。;She,W.,基于G均值和F测度的不平衡问题的Logistic判别,J.Intell。模糊系统。,31, 3, 1155-1166 (2016) ·Zbl 1366.62120号
[23] 盖恩,I。;Elisseeff,A.,《变量和特征选择简介》,J.Machine Learn。第3、6、1157-1182号决议(2003年)·兹比尔1102.68556
[24] 何永乐。;Wang,P.-J。;张敏秋。;朱庆霞。;Xu,Y.,一种新的有效的非线性插值虚拟样本生成方法,用于增强小数据问题的能量预测和分析:乙烯工业的案例研究,energy,147,418-427(2018)
[25] 亨利·W·。;Hand,D.J.,用于评估消费者信贷风险的k近邻分类器,统计学家,45,1,77-95(1996)
[26] 新墨西哥州Hijazi。;Faris,H。;Aljarah,I.,基于多核架构的集成特征选择的并行元启发式方法,专家系统。申请。,182,第115290条pp.(2021)
[27] Hira,Z.M.,Gillies,D.F.,2015年。综述了应用于微阵列数据的特征选择和特征提取方法。高级生物信息。2015, 198363. https://doi.org/10.1155/2015/198363。
[28] Hsu,H.H。;谢长廷。;Lu,M.D.,通过组合过滤器和包装器的混合特征选择,专家系统。申请。,38, 7, 8144-8150 (2011)
[29] 黄,C。;陈,M。;Wang,C.,基于支持向量机的数据挖掘方法的信用评分,专家系统。申请。,33, 4, 847-856 (2007)
[30] 黄,Z。;陈,H。;徐长杰。;Chen,W.H。;Wu,S.,《支持向量机和神经网络的信用评级分析:市场比较研究》,Decis。支持系统。,37, 4, 543-558 (2004)
[31] 贾达夫,S。;He,H。;Jenkins,K.,《信用评级的信息增益导向遗传算法包装器特征选择》,应用。软计算。,69, 541-553 (2018)
[32] Junior,L.M。;Nardini,F.M。;Renso,C。;特兰尼,R。;Macedo,J.A.,《在不平衡信用评分问题中定义动态选择技术局部区域的新方法》,专家系统。申请。,152,第113351条pp.(2020)
[33] Kou,G.等人。;Xu,Y。;彭,Y。;沈,F。;陈,Y。;Chang,K。;Kou,S.,利用交易数据和两阶段多目标特征选择进行中小企业破产预测,Decis。支持系统。,140,第113429条pp.(2021)
[34] 库塔奈,F.N。;萨杰迪,H。;Khanbabaei,M.,用于信用评分的特征选择算法和集成学习分类器的混合数据挖掘模型,J.Retail。消费者服务。,27, 11-23 (2015)
[35] Langevin,A。;科迪,T。;亚当斯。;Beling,P.,《信用卡欺诈检测中数据增强和传输的生成性对抗网络》,J.Oper。研究社会学,73,153-180(2022)
[36] 拉帕斯,P.Z。;Yannacopoulos,A.N.,在信贷风险评估的特征选择中结合专家知识和遗传算法的机器学习方法,应用。软计算。,107,第107391条pp.(2021)
[37] 拉帕斯,P.Z。;Yannacopoulos,A.N.,《信用评分:具有进化特征选择的约束优化框架》,(Christiansen,B.;Škrinjarić,T.,《国际商业和营销应用人工智能研究手册》,IGI Global(2021),美国:美利坚合众国宾夕法尼亚州),580-605
[38] 李博士。;Lin,L.S.,用多模态分布生成小数据集的信息,Decis。支持系统。,66, 71-81 (2014)
[39] 李博士。;Wen,I.H.,一种基于遗传算法的虚拟样本生成技术,用于改进小数据集学习,神经计算,143,222-230(2014)
[40] 李博士。;Wu,C.S。;Tsai,T.I。;Lina,Y.S.,使用大趋势扩散和小数据集中的人工样本学习早期柔性制造系统调度知识,计算。操作。研究,34,4,966-982(2007)·Zbl 1102.90324号
[41] 李,H。;潘,C.M。;徐,F。;潘·L。;Zong,R。;高,H。;Lu,H.,一种基于离散人工蜂群的帕金森氏病诊断混合特征选择算法,ACM-Trans。互联网技术。,21, 3, 1-22 (2021)
[42] 林,S.W。;Ying,K.C。;陈S.C。;Lee,Z.J.,支持向量机参数确定和特征选择的粒子群优化,专家系统。申请。,35, 4, 1817-1824 (2008)
[43] 刘伟。;风扇,H。;Xia,M.,信用评分的逐步多粒度增强梯度增强决策树,工程应用。Artif公司。智力。,97,第104036条pp.(2021)
[44] 刘,Y。;周,Y。;刘,X。;Dong,F。;王,C。;Wang,Z.,Wasserstein GAN-based small sample enhancement for new generational artificial intelligence:生物学、工程学中癌症老化数据的案例研究,5,1,156-163(2019)
[45] F.A.Longstaff。;米塔尔,S。;Neis,E.,公司收益率利差:违约风险还是流动性?信用违约掉期市场的新证据,J.Finance,60,5,2213-2253(2005)
[46] 马尔多纳多,S。;López,J.,《处理高维类不平衡数据集:SVM分类的嵌入特征选择》,Appl。软计算。,67, 94-105 (2018)
[47] 马尔多纳多,S。;Weber,R.,《使用支持向量机进行特征选择的包装方法》,《信息科学》。,179, 13, 2208-2217 (2009)
[48] Malekipirbazari,M。;Aksakalli,V.,《通过随机森林进行社会借贷的风险评估》,专家系统。申请。,42, 10, 4621-4631 (2015)
[49] Meng,K。;Wang,H.G。;东,Z。;Wong,K.P.,Quantum-inspired particle swarm optimization for valve point economic load dispatch,IEEE Trans。电力系统。,25, 1, 215-222 (2009)
[50] 莫雷诺-巴里,F.J。;赫雷斯,J.M。;Franco,L.,《利用小数据集上的数据增强提高分类精度》,专家系统。申请。,161,第113696条pp.(2020)
[51] 蒙德拉,P.A。;Rajapakse,J.C.,用于基因选择的带有MRMR过滤器的SVM-RFE,IEEE Trans。纳米生物学。,9, 1, 31-37 (2010)
[52] Oreski,S。;Oreski,G.,《信贷风险评估中基于遗传算法的特征选择启发式算法》,专家系统。申请。,41, 2052-2064 (2014)
[53] Osanaiye,O。;蔡,H。;Choo,K.K.R。;Dehghantanha,A。;徐,Z。;Dlodlo,M.,云计算中用于DDoS检测的基于集成的多过滤器特征选择方法,EURASIP J.无线通信。Network.,2016,1,130(2016)
[54] Quinlan,J.R.,决策树归纳,机器学习。,1, 1, 81-106 (1986)
[55] 罗斯帕尔,R。;Trejo,L.J.,再生核希尔伯特空间中的核偏最小二乘回归,J.机器学习。第297-123号决议(2001年)·Zbl 1021.68075号
[56] Ruiz,R。;里克尔梅,J。;Aguilar-Ruiz,J.,癌症分类微阵列数据中基于包装物的增量基因选择,模式识别。,39, 12, 2383-2392 (2006)
[57] Saeys,Y。;阿贝尔,T。;Van de Peer,Y.,《使用集成特征选择技术的稳健特征选择》,马赫。学习。知识光盘。数据库,313-325(2008)
[58] Seijo-Pardo,B。;I·迪亚兹港。;波隆-卡内多,V。;Alonso Betanzos,A.,集合特征选择:同质和异质方法,Knowl-基于系统。,118, 124-139 (2017)
[59] 沈,F。;X.赵。;寇,G。;Alsaasi,F.,一种新的深度学习集成信用风险评估模型,采用改进的合成少数过度抽样技术,应用。软计算。,2021年第98号第106852条pp.(2021)
[60] 苏伊,M。;加斯米,I。;斯米蒂,S。;Ghédira,K.,使用多目标进化算法的基于规则的信用风险评估模型,专家系统。申请。,126, 144-157 (2019)
[61] Sun,J。;冯,B。;Xu,W.,具有量子行为的粒子群优化,(2004年进化计算大会论文集(2004)),325-331
[62] Sun,S。;彭,Q。;Shakoor,A。;Dalby,A.R.,用于微阵列数据分类的基于核的多元特征选择方法,PLoS ONE,9,7,e102541(2014)
[63] Tang,L。;Yu,L。;He,K.,核能源消耗预测的新型数据-特征驱动建模方法,应用。能源,128,1-14(2014)
[64] Teles,G。;罗德里格斯,J.J.P.C。;萨利姆,K。;Kozlov,S.A.,《应用于抵押品信用评分的分类方法》,IEEE系统。J.,14,3,4557-4566(2020年)
[65] Tiwari,A。;Chaturvedi,A.,基于信息理论和动态蝴蝶优化算法的混合特征选择方法,用于数据分类,专家系统。申请。,196,第116621条pp.(2022)
[66] Tsai,T.I。;Li,D.C.,《在小数据集学习中使用引导程序进行制造系统的试运行建模》,专家系统。申请。,35, 3, 1293-1300 (2008)
[67] 王,A。;安,N。;陈,G。;李,L。;Alterovitz,G.,《使用K近邻加速基于包装器的特征选择》,Knowl-基于系统。,83, 81-91 (2015)
[68] 王,D。;张,Z。;Bai,R。;Mao,Y.,信用评分中特征选择的过滤方法和多种群遗传算法混合系统,J.Compute。申请。数学。,329, 307-321 (2018) ·兹比尔1377.62201
[69] Wang,Y。;姚,Q。;Kwok,J.T.(郭,J.T.)。;Ni,L.M.,从几个例子中归纳:关于少快照学习的调查,ACM Compute。调查。,53, 3, 1-34 (2020)
[70] West,D.,神经网络信用评分模型,计算。操作。研究,27,11-12,1131-1152(2000)·Zbl 0962.90004号
[71] Wiginton,J.C.,关于消费者信贷行为的logit和判别模型的比较的注释,J.Financial Quant。分析。,15, 3, 757-770 (1980)
[72] Xi,M。;Sun,J。;刘,L。;风扇,F。;Wu,X.,使用二进制量子粒子群优化和支持向量机进行癌症特征选择和分类,计算。数学。方法医学,2016,1-9(2016)·Zbl 1359.92055号
[73] 夏,Y。;赵,J。;He,L。;李毅。;Niu,M.,一种新的基于树的动态异构集成信用评分方法,专家系统。申请。,159,第113615条pp.(2020)
[74] Xu,X。;Shan,D。;王,G。;Jiang,X.,利用QPSO算法优化的PCNN进行多模态医学图像融合,应用。软计算。,46, 588-598 (2016)
[75] 严,J。;Duan,S。;黄,T。;Wang,L.,基于混合特征矩阵构建和特征选择优化的电子鼻伤口感染检测多目标QPSO,Sensor Review,36,1,23-33(2016)
[76] 杨,J。;Yu,X。;谢振强。;Zhang,J.-P.,基于高斯分布的新型虚拟样本生成方法,Knowl-基于系统。,24, 6, 740-748 (2011)
[77] 杨伟(Yang,W.)。;高,Y。;Shi,Y。;Cao,L.,MRM-lasso:一种通过低秩分析的稀疏多视图特征选择方法,IEEE Trans。神经网络学习。系统。,26, 11, 2801-2815 (2015)
[78] 姚,G。;胡,X。;Wang,G.,一种新的集成特征选择方法,将多个排名信息与支持向量机集成模型相结合,用于供应链中的企业信用风险预测,专家系统。申请。,200,第117002条pp.(2022)
[79] 你,W。;杨,Z。;Ji,G.,基于PLS的高维小样本递归特征消除,Knowl-基于系统。,55, 15-28 (2014)
[80] Yu,L。;王,S。;Lai,K.K.,用多级神经网络集成学习方法进行信用风险评估,专家系统。申请。,341434-14444(2008年)
[81] Yu,L。;Yu,L。;Yu,K.,《高维信贷分类的高维追踪驱动学习范式》,《金融创新》。,7, 32 (2021)
[82] Yu,L。;Zhang,X.,小样本数据集能否用于有效的互联网贷款信用风险评估?来自在线对等借贷的证据,《金融研究快报》。,38,第101521条pp.(2021)
[83] Yu,L。;张,X。;Yin,H.,一种基于极端学习机的虚拟样本生成方法,用于数据稀缺的信用风险评估,专家系统。申请。,202,第117363条pp.(2022)
[84] Yu,L。;周,R。;Tang,L。;Chen,R.,基于DBN的重采样SVM集成学习范式,用于不平衡数据信用分类,应用。软计算。,69, 192-202 (2018)
[85] 张伟。;He,H。;Zhang,S.,一种新的带有增强型多种群小生境遗传算法的多阶段混合模型:在信用评分中的应用,专家系统。申请。,121, 221-232 (2019)
[86] 周,H。;Lan,Y。;Soh,Y.C。;黄,G.B。;Zhang,R.,使用极端学习机器进行信用风险评估,(IEEE系统、人与控制论国际会议(SMC)(2012)),1064-1069
[87] 朱庆霞。;陈振生。;Zhang,X.H。;Rajabifard,A。;Xu,Y。;Chen,Y.Q.,《使用虚拟样本生成处理流程工业中的小样本问题:基于Kriging的方法》,Soft。计算。,24, 6889-6902 (2020)
[88] 朱庆霞。;侯国荣。;陈振生。;高Z.H。;Xu,Y。;何永乐,使用条件GAN开发小数据软传感器的新型虚拟样本生成,工程应用。Artif公司。智力。,106,第104497条pp.(2021)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。