1.简介
信贷风险管理对于以贷款为核心业务的金融机构至关重要。因此,准确的消费者或公司信用评估至关重要,因为当借款人违约时,金融机构可能会遭受重大损失。因此,为了控制坏账损失,金融机构需要正确评估借款人的信贷风险。因此,他们努力核对借款人数据,并开发了各种统计方法来客观地衡量和分析信贷风险。
安吉利尼、托洛和罗利(Angelini等人,2008年)利用意大利一家银行76家小企业的数据,介绍了人工神经网络在信用风险评估中的应用。他们使用两种神经结构将借款人分为两个不同的类别:无息贷款和违约贷款。一种是前馈神经网络,由一个输入层、两个隐藏层和一个输出层组成。另一种是四层前馈神经网络,具有特殊连接和三个一组的输入神经元。他们的结果表明,神经网络成功识别了借款人的有偿/违约趋势。 科什曼语(2009)使用神经网络开发了一个信用风险评估系统,并将该系统应用于澳大利亚的信用数据(690个案例;307个可信实例和383个非可信实例)。他比较了单隐层神经网络(SHNN)模型和双隐层网络(DHNN)的性能。他的实验结果表明,SHNN系统在信用风险评估方面优于DHNN系统,因此推荐SHNN神经系统用于信贷申请的自动处理。 Yeh和Lien(2009)利用台湾地区客户的违约支付数据,比较了六种数据挖掘方法(特别是K近邻分类器、逻辑回归、判别分析、朴素贝叶斯分类器、人工神经网络和分类树)对违约概率的预测准确性。他们的实验结果表明,只有人工神经网络才能准确估计违约概率。 卡什曼(2010)采用神经网络模型对德国信贷数据进行信用风险评估,包括1000个案例:700个信誉良好的申请人和300个信誉不佳的申请人。1结果表明,训练数据和测试数据的准确率分别为99.25%和73.17%。然而,在这个数据中,如果人们总是预测一个案例是可信的,那么准确率自然收敛到70%。因此,结果表明,使用神经网络模型对测试数据的预测精度只有3.17%的提高。 甘特等人。(2015)还使用了德国信贷数据,并比较了12种神经网络模型来评估信贷风险。他们的结果表明,一个由20个输入神经元、10个隐藏神经元和一个输出神经元组成的神经网络是一个适用于信用风险评估系统的神经网络模型。 凯梅凯姆和布耶尔贝尼亚(2015)对突尼斯一家商业银行的86家突尼斯客户公司进行了三年的神经网络预测和判别分析。他们的结果表明,神经网络在预测信贷风险方面优于判别分析。 正如所指出的Oreski等人。(2012)大多数研究表明,与传统的统计方法相比,神经网络在信用风险评估中具有更高的准确性、灵活性和鲁棒性。 在本研究中,我们使用11种机器学习方法基于客户属性预测违约风险,并比较它们的预测精度。具体来说,我们采用了三种集成学习方法——打包、随机森林和提升,以及八种具有不同激活函数的神经网络方法。使用多个指标(准确性、预测率、结果、受试者操作特征(ROC)曲线、曲线下面积(AUC)和F评分),比较每种方法在预测违约风险方面的性能。2 结果表明,boosting方法的分类能力优于包括神经网络在内的其他机器学习方法。研究还发现,神经网络模型的性能取决于激活函数的选择和中间层的数量。
本文的其余部分组织如下。第2节解释了使用的数据和实验设计。第3节讨论了所得的实证结果。第4节介绍了结束语。 2.数据与实验设计
2.1. 机器学习技术
本研究采用了三种集成学习算法:打包、随机森林和boosting。装袋,由开发布雷曼(1996)是一种机器学习方法,使用引导从给定数据集创建多个训练数据集。对使用数据生成的分类结果进行排列和组合,以提高预测精度。由于引导样本是相互独立的,因此可以并行执行学习。 随机森林,也由提出布雷曼(2001),类似于装袋。它是一种机器学习方法,将多个训练数据集生成的分类结果进行排列和组合,以提高预测精度。然而,虽然装袋使用所有输入变量来创建每个决策树,但随机森林使用变量随机抽样的子集来创建每个决定树。这意味着随机森林比袋装更适合分析高维数据。 神经网络(NN)是由多个连接单元组成的网络结构。它由输入层、中间层和输出层组成。神经网络配置由单元的连接方式决定;不同的配置使网络具有不同的功能和特性。前馈神经网络是最常用的神经网络模型,由多个单元的层次连接构成。当中间层的数量大于或等于两层时,该网络称为深度神经网络(DNN)。
神经网络中的激活函数非常重要,因为它表达了每个单元中输入和输出之间的函数关系。在本研究中,我们使用了两种类型的激活函数:Tanh和校正线性单元(ReLU)。这些功能定义如下: Tanh函数将实数压缩到范围[-1,1]。其激活饱和,输出以零为中心。ReLU函数是神经网络中的一种替代激活函数。三它的主要好处之一是降低了梯度消失的可能性。 尽管DNN是强大的机器学习工具,但它们很容易过度拟合。这是通过一种称为“丢失”的技术来解决的,在这种技术中,单元被随机丢弃(连同它们的传入和传出连接)在网络中。这可以防止单元过度适应(Srivastava等人,2014年). 因此,我们使用以下11种方法来比较性能:
打包。
随机森林。
助推。
神经网络(激活函数为Tanh)。
神经网络(激活函数为ReLU)。
神经网络(激活函数为Tanh with Dropout)。
神经网络(激活函数为ReLU with Dropout)。
深度神经网络(激活函数为Tanh)。
深度神经网络(激活函数为ReLU)。
深度神经网络(激活函数为Tanh with Dropout)。
深度神经网络(激活函数为ReLU with Dropout)。
2.2。数据
台湾使用的支付数据Yeh和Lien(2009)本研究中使用了。这些数据作为UCI机器学习库中默认信用卡客户的数据集提供。在使用的数据集中Yeh和Lien(2009),观察次数为25000次,其中5529次为违约金。然而,UCI机器学习库中的当前数据集共有30000个观察值,其中6636个观察值是默认付款。以下内容Yeh和Lien(2009),我们使用默认付款(否=0,是=1)作为解释变量,使用以下23个变量作为解释变量: 由于无默认观测值的比例很高(77.88%),当所有观测值用于分析时,准确率不可避免地保持在78%。如果我们使用所有数据,很难理解使用机器学习的优点。因此,在本研究中,我们从所有非默认观测值中随机提取了6636个观测值,以确保非默认和默认观测值相等,从而防止失真。关于训练与测试数据集的比率,本研究使用了两个案例,即90%至10%和75%至25%。4 众所周知,数据规范化可以提高性能。分类器需要计算目标函数,即预测值和观测值之间的均方误差。如果某些特征具有广泛的值范围,则均方误差可能由这些特定特征控制,目标函数可能无法正常工作。因此,理想的做法是规范化所有特征的范围,以便每个特征对成本函数的贡献相等(Aksoy和Haralick 2001).索拉和塞维利亚(1997)指出神经网络训练之前的数据规范化可以使研究人员加快计算速度并获得良好的结果。贾亚拉克什米和桑塔库马兰(2011)指出统计归一化技术提高了前馈反向传播神经网络的可靠性和数据分类模型的性能。 以下内容卡什曼(2010),我们根据以下公式对数据进行规范化:哪里是标准化数据,x个我是每个数据集,x个最小值是的最小值x个我、和x个最大值是的最大值x个我.此方法将特征范围重新调整为介于0和1之间。我们分析了归一化数据和原始数据,以评估实验结果的稳健性。 2.3. 绩效评估
我们使用准确性来评估每种机器学习方法的性能。在我们的两类问题中,混淆矩阵(表1)对分类问题的预测结果进行了总结,如下所示: 注意,“真正”表示正确预测事件值的情况;“假阳性”表示错误预测的事件值的情况;“真负数”表示正确预测的无事件值的情况:“假负数”表明错误预测的无事情值的情况。然后,预测准确率定义为, 此外,我们重复实验100次,并计算每个数据集的准确率的平均值和标准偏差。5 接下来,我们通过检测ROC曲线和AUC值来分析每种方法的分类能力。在考虑模型是否合适时,仅仅依靠准确率是不够的。给定类中正确识别实例的比率称为真阳性率。给定类中错误识别实例的比率称为误报率。当在水平轴上绘制假阳性率,在垂直轴上绘制真阳性率时,这两者的组合会产生ROC曲线。一个好的模型是显示高真阳性率值和低假阳性值的模型。AUC是指ROC曲线下的面积。完全随机预测产生的AUC为0.5。换句话说,ROC曲线是一条连接原点(0,0)和点(1,1)的直线。
我们还报告了每个病例的F评分,其定义如下:哪里回忆等于TP/(TP+FN),并且精度等于TP/(TP+FP)。因此,F分数是召回率和准确率的调和平均值。 3.结果
我们使用R具体实现了实验,“ipred”包用于打包,“randomForest”用于随机森林,“ada”包用来提升(adaboost算法),“h2o”包用于NN和DNN。此外,我们分析了每种方法在原始数据和归一化数据两种情况下的预测准确率。然后,我们基于ROC曲线、AUC值和F-score检验了每种方法的分类能力。
表2a、 b报告使用原始数据获得的结果。表格显示,boosting具有最佳性能,平均预测准确率高于70%,训练和测试数据的标准偏差较小。没有一个神经网络模型的测试数据平均准确率超过70%。此外,它们对测试数据的标准偏差相对较大。因此,很明显,boosting比神经网络实现了更高的预测精度。对于袋装林和随机林,试验数据的预测准确率小于60%。此外,训练数据和测试数据之间的比率差异(90%:10%或75%:25%)对我们的分析结果没有明显影响。6 表3a、 b总结了使用归一化数据获得的结果。表中显示boosting对测试数据的准确率最高,与原始数据情况下的结果类似。助推的平均准确率超过70%,训练和测试数据的标准偏差最小。没有一个神经网络模型对测试数据的平均预测准确率超过70%。此外,它们对测试数据的标准偏差相对较大。套袋和随机林对试验数据的预测准确率平均不到60%,与原始数据的情况类似。此外,训练数据和测试数据之间的比率差异(90%:10%或75%:25%)对结果没有重大影响,这与原始数据的情况类似。我们将原始数据的结果和归一化数据的结果进行了比较,发现预测准确率没有显著差异。 图1,图2,图3,图4,图5,图6,图7,图8,图9,图10和图11使用归一化数据显示病例的ROC曲线和AUC和F-score,训练数据和测试数据的比率为75%到25%。在每个图中,敏感性(纵轴)对应于真阳性率,而1-特异性(横轴)对应着假阳性率。这些图表表明,除了Tanh激活函数有缺失的情况外,升压和神经网络模型的ROC曲线具有理想的特性。 还显示了每个图的AUC值和F分数。发现升压时获得的AUC值最高(0.769)。提高也获得了最高的F分数(0.744)。因此,boosting的分类能力优于其他机器学习方法。这可能是因为增强使用了权重的顺序学习。
当Tanh作为激活函数时,神经网络的AUC值和F值都优于DNN。然而,当ReLU用作激活函数时,这种结果并不明显。有趣的是,可以看到神经网络模型在AUC值和F分数方面对辍学影响的结果。当Tanh被用作激活函数时,NN(DNN)的性能优于NN(DNN),但存在缺失。另一方面,当使用ReLU作为激活函数时,具有缺失的NN(DNN)优于NN(DN)。因此,神经网络的性能可能对模型设置很敏感,即中间层的数量、激活函数的类型和是否包含缺失。
4.结论
在本研究中,我们分析了台湾地区的违约支付数据,并比较了三种集成学习方法:bagging、随机森林和boosting与使用两种不同激活函数的各种神经网络方法的预测精度和分类能力。我们的主要结果总结如下:
- (1)
boosting的分类能力优于其他机器学习方法。
- (2)
当以Tanh为激活函数时,神经网络的预测准确率、AUC值和F得分均优于DNN。然而,当ReLU用作激活函数时,这种结果并不明显。
- (3)
当Tanh被用作激活函数时,就AUC值和F-score而言,NN(DNN)优于NN(DNN),但存在缺失。然而,当ReLU被用作激活函数时,在AUC值和F-score方面,具有缺失的NN(DNN)优于NN(DNN)。
深度学习的可用性最近成为人们关注的焦点。Oreski等人。(2012)指出大多数研究表明,神经网络在评估信用风险时比传统统计方法更准确、更灵活、更稳健。然而,我们的结果表明,boosting在预测精度、AUC和F-score方面优于神经网络。众所周知,为神经网络选择合适的超参数并不容易。因此,神经网络并不总是万能药,尤其是对于相对较小的样本。有鉴于此,有效利用其他方法(如增压)是值得的。我们未来的工作将是对不同的数据进行类似的分析,以检查结果的稳健性。