×

使用支持向量机规则提取的可理解信用评分模型。 (英语) Zbl 1278.91177号

摘要:近年来,支持向量机(SVM)被成功应用于广泛的应用领域。然而,由于分类器被描述为一个复杂的数学函数,它对人类来说相当难以理解。这种不透明性使它们无法用于许多需要准确性和可理解性的实际应用程序中,例如医疗诊断和信用风险评估。为了克服这一局限性,可以从训练好的SVM中提取出人类可以理解的规则,并尽可能保持SVM的准确性。在本文中,我们将概述最近提出的用于支持向量机的规则提取技术,并介绍来自人工神经网络领域的另外两种技术,即Trepan和G-REX。使用公开可用的数据集(例如Ripley的合成数据集和多类虹膜数据集)对所述技术进行了比较。我们还将研究医疗诊断和信用评分,其中可理解性是关键要求,甚至是监管建议。我们的实验表明,与支持向量机相比,支持向量机规则提取技术在性能上只损失了很小的百分比,因此在可理解的分类技术中排名靠前。

MSC公司:

91G40型 信用风险
62H30型 分类和区分;聚类分析(统计方面)

软件:

4.5条
PDF格式BibTeX公司 XML格式引用
全文: 内政部 链接

参考文献:

[1] 安德鲁斯,R。;Diederich,J。;Tickle,A.B.,《从训练好的人工神经网络中提取规则的技术的调查与评论》,基于知识的系统,8,6,373-389(1995)
[2] Baesens,B。;Van Gestel,T。;维亚内,S。;斯蒂芬诺娃,M。;苏肯斯,J。;Vantheinen,J.,《为信用评分建立最先进的分类算法基准》,运筹学学会杂志,54,6,627-635(2003)·Zbl 1097.91516号
[3] Baesens,B。;塞提诺,R。;梅斯,C。;Vantheinen,J.,《使用神经网络规则提取和决策表进行信用风险评估》,《管理科学》,49,3,312-329(2003)·Zbl 1232.91684号
[4] N.Barakat,J.Diederich,《基于学习的支持向量机规则提取》。摘自:第14届国际计算机理论与应用会议ICCTA 2004年会议记录,埃及亚历山大,2004年。;N.Barakat,J.Diederich,《基于学习的支持向量机规则提取》。摘自:第14届国际计算机理论与应用会议ICCTA 2004年会议记录,埃及亚历山大,2004年。
[5] A.Browne。;哈德森,B。;Whitley,D。;Picton,P.,《利用神经网络进行生物数据挖掘:柔性决策树提取算法在基因组问题域中的实现和应用》,神经计算,57275-293(2004)
[6] M.W.克雷文。从训练好的神经网络中提取可理解的模型。温斯康辛大学麦迪逊分校博士论文,1996年。监理——J.W.Shavlik。;M.W.克雷文。从训练好的神经网络中提取可理解的模型。温斯康辛大学麦迪逊分校博士论文,1996年。监理——J.W.Shavlik。
[7] 克拉文,M.W。;Shavlik,J.W.,提取训练神经网络的树结构表示,神经信息处理系统进展,8,24-30(1996)
[8] 北卡罗来纳州克里斯蒂亚尼尼。;Shawe-Taylor,J.,《支持向量机和其他基于内核的学习方法简介》(2000),剑桥大学出版社:美国纽约州剑桥大学出版社
[9] Drucker,H。;Wu,D。;Vapnik,V.,垃圾邮件分类的支持向量机,IEEE-NN,10,5,1048-1054(1999)
[10] D.W.Dwyer、A.E.Kocagil、R.M.Stein,穆迪kmv riskcalc v3.1模型,2004年。;D.W.Dwyer、A.E.Kocagil、R.M.Stein,穆迪kmv riskcalc v3.1模型,2004年。
[11] 冯先生。;桑迪利亚,S。;Bharat Rao,R.,从线性支持向量机中提取规则,(KDD’05:第十一届ACM SIGKDD数据挖掘知识发现国际会议论文集(2005),ACM出版社:美国纽约州纽约市ACM出版社),32-40·Zbl 1148.68433号
[12] Van Gestel,T。;Baesens,B。;苏肯斯,J。;Van den Poel,D。;Baestaens,D.-E。;Willekens,M.,《金融危机检测中基于贝叶斯核的分类》,《欧洲运筹学杂志》,172,3,979-1003(2006)·Zbl 1111.90330号
[13] T.Van Gestel、J.A.K.Suykens、B.Baesens、S.Viaene、J.Vantheenen和G.Dedene、B.De Moor和J.Vandewalle。基准最小二乘支持向量机分类器。CTEO,技术报告0037,K.U.Leuven,比利时,2000年。;T.Van Gestel、J.A.K.Suykens、B.Baesens、S.Viaene、J.Vantheenen和G.Dedene、B.De Moor和J.Vandewalle。基准最小二乘支持向量机分类器。CTEO,技术报告0037,K.U.Leuven,比利时,2000年·Zbl 1078.68737号
[14] Van Gestel,T。;苏肯斯,J.A.K。;Baestaens,D.-E。;兰布雷希茨,A。;柳叶刀,G。;Vandaele,B。;De Moor,B。;Vandewalle,J.,基于证据框架的最小二乘支持向量机的金融时间序列预测,IEEE神经网络汇刊,12,4,809-821(2001)
[15] S.Hettich,S.D.海湾。uci kdd档案,1996年<http://kdd.ics.uci.edu>; S.Hettich,S.D.海湾。uci kdd档案,1996年<http://kdd.ics.uci.edu>
[16] U.Johansson、R.König和L.Niklasson。真相就在这里——使用遗传编程从不透明模型中提取规则。2004年第17届佛罗里达国际人工智能研究研讨会FLAIRS会议记录。;U.Johansson、R.König和L.Niklasson。真相就在这里——使用遗传编程从不透明模型中提取规则。2004年第17届佛罗里达国际人工智能研究研讨会FLAIRS会议记录。
[17] J.T.姚。数据挖掘的敏感性分析。收录于:2003年第22届NAFIPS国际会议记录,第272-277页。;J.T.姚。数据挖掘的敏感性分析。2003年第22届NAFIPS国际会议记录,第272-277页。
[18] Koza,John R.,《遗传编程:论自然选择对计算机的编程》(1992),麻省理工学院出版社:麻省理工学院出版社,马萨诸塞州剑桥·Zbl 0850.68161号
[19] 卢,C。;Van Gestel,T。;苏肯斯,J.A.K。;Van Huffel,S。;弗戈特,I。;Timmerman,D.,使用最小二乘支持向量机对卵巢肿瘤恶性程度的术前预测,医学中的人工智能,28,3,281-306(1999)
[20] M.V.Mannino。;Koushik,M.V.,《成本最小化逆分类问题:遗传算法方法》,决策支持系统,29,3,283-300(2000)
[21] H.Nönez,C.Angulo,A.Catala,从支持向量机中提取规则。摘自:2002年欧洲人工神经网络会议论文集,第107-112页。;H.Nönez,C.Angulo,A.Catala,从支持向量机中提取规则。摘自:《欧洲人工神经网络研讨会论文集》,2002年,第107-112页。
[22] H.Nönez,C.Angulo,A.Catala。基于SVM和RBFNN的规则学习系统。Tendencias de la mineria de datos en espana,Red Espaola de Minera de datos,2004年。;H.Nönez,C.Angulo,A.Catala。基于SVM和RBFNN的规则学习系统。Tendencias de la mineria de datos en espana,Red Espaola de Minera de datos,2004年。
[23] 波切特,N。;De Smet,F。;苏肯斯,J.A.K。;De Moor,B.L.R.,微阵列数据分类的系统基准:评估非线性和降维的作用,生物信息学,20,17,3185-3195(2004)
[24] Quinlan,J.R.,决策树归纳,机器学习,1,1,81-106(1986)
[25] Quinlan,J.R.,《机器学习C4.5程序》(1993),摩根·考夫曼出版社:摩根·考夫曼出版社,美国加利福尼亚州旧金山
[26] Ripley,B.D.,《神经网络和相关分类方法》,《皇家统计学会杂志》B,56,409-456(1994)·Zbl 0815.62037号
[27] Silverman,D.W.,《统计和数据分析密度估计》(1986),查普曼和霍尔·Zbl 0617.62042号
[28] Vapnik,V.N.,《统计学习理论的本质》(1995),Springer-Verlag:Springer-Verlag New York,Inc.,美国纽约州纽约市·Zbl 0934.62009号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。