×

评估神经网络和数据挖掘方法在信用评估任务中的类别不平衡问题。 (英文) Zbl 1160.91368号

摘要:使用非线性分类技术分析的大多数真实世界数据在每个类的可用示例比例方面是不平衡的。不平衡类分布的这个问题会导致算法学习过多数据且相关性很小的过于复杂的模型。我们的研究分析了用于根据支票账户信息预测银行客户信用度的不同分类算法。为了测试不同的技术,进行了一系列实验。其目的是确定一系列可由经理实施的信用评分,以进行风险管理。因此,通过实现等量分类的概念,可以成功地发现隐含知识。随后,提出了一种数据清理策略,用于处理这种分布数据不平衡的实际情况。

MSC公司:

91B30型 风险理论,保险(MSC2010)
68T05型 人工智能中的学习和自适应系统
91B74号 真实系统的经济模型(例如电力市场等)

软件:

SMOTE公司
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] 阿哈·D·。;Kibler,D.,基于实例的学习算法,机器学习。,6, 37-66 (1991)
[2] 贝茨,R.R。;孙,M。;Scheuer,M.L。;Sclabassi,R.J.,通过递归神经网络检测癫痫发作病灶,医学和生物学会工程,(IEEE第22届国际年会论文集,第2卷(2000)),1377-1379
[3] Cendrowska,J.,PRISM:一种用于归纳模块化规则的算法,《国际机器研究》,27,349-370(1987)·Zbl 0638.68110号
[4] 查拉,N.V。;鲍耶,K.W。;洛杉矶霍尔。;Kegelmeyer,W.P.,《SMOTE:合成少数人过采样技术》,《人工智能杂志》。研究(JAIR),16,321-357(2002)·Zbl 0994.68128号
[5] Domingos,P.,《元成本:使分类器具有成本敏感性的一般方法》,(第五届知识发现和数据挖掘国际会议论文集(1999)),155-164
[6] Elkan,C.,《成本敏感学习的基础》(第十七届国际人工智能联合会议(IJCAI'01)(2001)),973-978
[7] 法耶兹,美国。;Piatetsky-Shapiro,G。;Smyth,P.,从大量数据中提取有用知识的KDD过程,美国陆军司令部司令部,39,27-34(1996)
[8] Fletcher,R.,《优化的实用方法》(1987),威利出版社,纽约·Zbl 0905.65002号
[9] 弗伦德,Y。;Schapire,R.E.,使用感知器算法进行大幅度分类,(第十一届计算机学习理论年会论文集(1998),美国计算机学会出版社:美国计算机学会纽约出版社),209-217
[10] R.Gerritsen,《评估贷款风险:数据挖掘案例研究》,IEEE IT Professional(1999)16-21。;R.Gerritsen,《评估贷款风险:数据挖掘案例研究》,IEEE IT Professional(1999)16-21。
[11] Haykin,S.,《神经网络:综合基金会》(1999),普伦蒂斯·霍尔:加拿大安大略省普伦蒂斯霍尔·Zbl 0934.68076号
[12] 赫克曼,D。;盖革,D。;Chickering,D.M.,《学习贝叶斯网络:知识和统计数据的结合》,《机器学习》。,20, 197-243 (1995) ·Zbl 0831.68096号
[13] Hung,C.M。;黄Y.M。;陈铁生,《利用歪斜数据评估支票信用A知识发现案例研究》(国际计算机研讨会人工智能研讨会,国际计算机研讨会,台湾(2002年12月))
[14] 贾普科维奇,N。;斯蒂芬,S.,《阶级不平衡问题:系统研究》,《知识分子》。数据分析。,6, 5, 429-450 (2002) ·Zbl 1085.68628号
[15] 江,M。;朱,X。;袁,B。;唐,X。;Lin,B。;阮,Q。;江明,前馈神经网络全局优化的快速混合算法,(WCCC-ICSP国际信号处理会议,第3卷(2000)),1609-1612
[16] 约翰,G.H。;Langley,P.,估计贝叶斯分类器中的连续分布,(第十一届人工智能不确定性会议论文集(1995)),338-345
[17] 库巴特,M。;Matwin,S.,《解决不平衡训练集的诅咒:单面选择》(第十四届机器学习国际会议论文集(1997)),179-186
[18] Ling,C.X。;Li,C.,直接营销的数据挖掘:问题和解决方案,(第四届ACM SIGKDD知识发现和数据挖掘国际会议论文集(KDD-98)(1998),ACM:ACM纽约,NY),73-79
[19] Powell,M.J.D.,共轭梯度法的重新启动程序,数学。程序。,12, 241-254 (1977) ·Zbl 0396.90072号
[20] Powell,M.J.D.,《多变量插值的径向基函数:综述》,(RMCS,IMA函数和数据近似算法会议(1985)),143-167·兹比尔0638.41001
[21] Pytlak,R.,《全局收敛共轭梯度算法》,(第32届IEEE决策与控制会议论文集,第3卷(1993)),2890-2895
[22] Quinlan,J.R.,C.45:机器学习程序(1993),摩根·考夫曼
[23] Rennie,J.D。;Shih,L。;Teevan,J。;Karger,D.,处理Na¨ve Bayes文本分类器的不良假设,(ICML-2003(2003)),616-623
[24] Rosenblatt,F.,《感知器:大脑中信息存储和组织的概率模型》,《心理学》。Rev.,65,386-407(1958),(转载于麻省理工学院神经计算出版社,1988年)
[25] Rumelhart,D.E。;辛顿,G.E。;Williams,R.J.,《反向传播错误的学习表征》,《自然》(伦敦),323533-536(1986)·Zbl 1369.68284号
[26] O·斯坦。;Kamen,E.W.,使用Levenberg-Marquardt算法的新块递归MLP训练算法,(IJCNN’99国际神经网络联合会议,第3卷(1999)),1672-1677
[27] Witten,I.H。;Frank,E.,《使用Java实现的数据挖掘实用机器学习工具和技术》(1999),Morgan Kaufmann出版社:Morgan Koufmann-Publishers San Francisco,CA
[28] 扎德罗兹尼,B。;Elkan,C.,《成本和概率都未知时的学习和决策》(第七届知识发现和数据挖掘国际会议论文集(2001)),204-213
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。