胡林伟;陈杰;乔尔·沃恩;索罗什阿拉米德;杨汉玉;王凯莉;阿古斯·苏吉恩托;维贾扬·N·奈尔。 监督机器学习技术:银行应用概述。 (英语) Zbl 1531.68080号 国际统计版次。 89,编号3,573-604(2021). 摘要:本文概述了监督机器学习(ML),重点介绍了它在银行业中的应用。监测的ML技术包括袋装(随机森林)、增压(梯度增压机)和神经网络。我们首先介绍ML任务和技术。接下来介绍了基于树的集成算法,包括随机森林打包、梯度提升机提升以及前馈神经网络。然后,我们对超参数优化技术进行了广泛的讨论。洗钱结果的可解释性是银行业和其他受监管行业的一个重要主题,也有一些深入的讨论。本文最后比较了不同ML算法的特点,并讨论了它们在实践中的应用。本文通篇使用了银行信贷风险建模的应用程序来说明这些技术并解释算法的结果。{©2021国际统计学会} MSC公司: 68T05型 人工智能中的学习和自适应系统 91G40型 信用风险 91G80型 其他理论的金融应用 关键词:机器学习;合奏;神经网络;模型解释;信用风险模型 软件:青蒿素;第4.5条;达奇;Hyperopt公司;亚当;形状;XGBoost公司;阿达德尔塔;ElemStatLearn(电子状态学习) PDF格式BibTeX公司 XML格式引用 \textit{L.Hu}等人,国际统计版次89,编号3,573--604(2021;Zbl 1531.68080) 全文: 内政部 arXiv公司 参考文献: [1] Apley,D.W.(2016)。可视化黑箱监督学习模型中预测变量的影响。arXiv预打印arXiv:1612.08468。 [2] Arrieta,A.B.、Díaz‐Rodríguez,N.、Del Ser,J.、Bennetot,A.、Tabik,S.、Barbado,A.等人(2020年)。可解释人工智能(XAI):概念、分类、机遇和挑战,面向负责任的AI.Inf.Fusion,58,82-115。 [3] Bastos,L.S.和O'Hagan,A.(2009年)。高斯进程仿真器诊断。凹痕。技术,51,425-438。 [4] Bergstra,J.、Bardenet,R.、Bengio,Y.和Kégl,B.(2011)。超参数优化算法。NIPS’11:第24届神经信息处理系统国际会议记录。西班牙格拉纳达。 [5] Bergstra,J.和Bengio,Y.(2012年)。超参数优化的随机搜索。J.马赫。学习。决议,13·Zbl 1283.68282号 [6] Binder,A.、Montavon,G.、Lapuschkin,S.、Müller,K.‐R.和Samek,W.(2016)。具有局部重整化层的神经网络的逐层相关性传播。国际人工神经网络会议(第63‐71页)。 [7] Breiman,L.(1996)。装袋预测器。雨衣。李尔王。,24, 123-140. ·Zbl 0858.68080号 [8] Breiman,L.(1997)。为边创建弧线。伯克利:加利福尼亚大学统计系。 [9] Breiman,L.(2001a)。随机森林。雨衣。李尔王。,45, 5-32. ·Zbl 1007.68152号 [10] Breiman,L.(2001b)。统计建模:两种文化(作者的评论和反驳)。统计科学。,16, 199-231. ·Zbl 1059.62505号 [11] Breiman,L.、Friedman,J.、Olshen,R.和Stone,C.(1984)。分类和回归树。贝尔蒙特:华兹华斯·Zbl 0541.62042号 [12] Caruana,R.和Niculescu‐Mizil,A.(2005)。使用不同性能指标的监督学习算法的实证比较。ICML06.匹兹堡。 [13] Chen,J.、Hu,L.、Nair,V.和Sudjianto,A.(2018)。制定个人条件期望(ICE)图以及与索波尔指数的联系。富国银行内部报告。 [14] Chen,J.、Vaughan,J.,Nair,V.和Sudjianto,A.(2020年)。自适应可解释神经网络(AxNNs)。arXiv预印arXiv:2004.02353。 [15] Chen,T.&Guestrin,C.(2016)。XGBoost:一个可扩展的树增强系统。第22届ACM SIGKDD知识发现和数据挖掘国际会议论文集。存储区域网络。arXiv公司。 [16] Datta,A.、Sen,S.和Zick,Y.(2016年)。通过定量输入影响实现算法透明度:学习系统的理论和实验。2016年IEEE第二次研讨会(SP),598-617。 [17] Dudeja,R.&Hsu,D.(2018年)。学习高斯空间中的单指数模型。(第1887至1930页)。学习理论会议。 [18] Freund,Y.和Schapire,R.(1995)。在线学习的决策理论概括及其在助推中的应用。第二届欧洲计算学习理论会议,EuroCOLT 1995(第23-37页)。斯普林格·弗拉格。 [19] Friedman,J.(2001)。贪婪函数近似:梯度提升机。Ann.Stat.,第29期,1189-1232页·Zbl 1043.62034号 [20] Friedman,J.(2002)。随机梯度增强。公司。统计数据分析。,38, 367-378. ·Zbl 1072.65502号 [21] Friedman,J.和Popescu,B.(2008)。通过规则集合进行预测学习。附录。《法律总汇》第2916-954页·Zbl 1149.62051号 [22] Friedman,J.H.和Stuetzle,W.(1981年)。投影寻踪回归。《美国统计协会期刊》,76(376),817-823。 [23] Goldstein,A.、Kapelner,A.、Bleich,J.和Pitkin,E.(2013)。窥视黑匣子:用个人条件期望图可视化统计学习。eprint arXiv:1309.6392。 [24] Goldstein,A.、Kapelner,A.、Bleich,J.和Pitkin,E.(2015)。窥视黑匣子:用个人条件期望图可视化统计学习。J.计算。图表。统计,24,44-65。 [25] Goodfellow,I.、Bengio,Y.和Courville,A.(2015)。深度学习。马萨诸塞州剑桥:麻省理工学院出版社。 [26] Gramacy,R.B.(2020年)。替代品:应用科学的高斯过程建模、设计和优化。查普曼和霍尔/CRC。 [27] Hastie,T.、Tibshirani,R.和Friedman,J.(2009年)。《统计学习要素:数据挖掘、推理和预测》(第二版)。纽约:Springer‐Verlag·Zbl 1273.62005年 [28] He,K.,Zhang,X.,Ren,S.&Sun,J.(2015)。用于图像识别的深度残差学习。arXiv,512.03385。 [29] Hinton,G.E.、Osindero,S.和Teh,Y.‐W。(2006). 一种深度信念网的快速学习算法。神经系统。计算。,18(7), 1527-1554. ·Zbl 1106.68094号 [30] Hothorn,T.、Hornik,K.和Zeileis,A.(2006年)。《无偏递归分区:条件推理框架》,J.Compute。图表。统计,15(3),651-674。 [31] Hu,L.,Chen,J.,Nair,V.N.&Sudjianto,A.(2020年)。替代本地可解释模型:2007.14528。 [32] Joseph,V.R.(2016)。计算机实验的空间填充设计:综述。资格。工程师,28(1),28-35。 [33] Kass,G.V.(1980)。用于调查大量分类数据的探索性技术。应用程序。《统计》,29(2),119-127。 [34] Kearns,M.&Valiant,L.(1989)。学习布尔公式和有限自动机的密码学限制。西雅图:第二十一届ACM计算机理论年会论文集。 [35] Kingma,D.P.和Ba,J.(2014)。亚当:一种随机优化方法。arXiv,1412.6980年。 [36] Lei,J.、G'Sell,M.、Rinaldo,A.、Tibshirani,R.J.和Wasserman,L.(2018)。回归的无分布预测推断。《美国统计协会期刊》,113(523),1094-1111·Zbl 1402.62155号 [37] Li,L.,Jamieson,K.,DeSalvo,G.,Rostamizadeh,A.&Talwalkar,A.(2018)。超波段:一种基于强盗的超参数优化新方法。J.Mac。学习。研究,18(1),1-52·Zbl 1468.68204号 [38] Liu,X.、Chen,J.、Nair,V.和Sudjianto,A.(2019年)。A.用基于导数的工具解释监督机器学习算法:案例研究。富国银行内部报告。 [39] Liu,X.,Chen,J.,Vaughan,J.、Nair,V.和Sudjianto,A.(2018)。模型解释:用于非参数回归和监督机器学习的基于导数的统一框架。arXiv预打印arXiv:1808.07216。 [40] Loh,W.Y.(2014)。五十年的分类和回归树。国际统计版次,82(3),329-348·Zbl 1416.62347号 [41] Lundberg,S.M.、Erion,G.G.和Lee,S.‐I。(2018). 树集合的一致个性化特征属性。arXiv预打印arXiv:1802.03888。 [42] Lundberg,S.M.和Lee,S.‐I。(2017). 解释模型预测的统一方法。高级神经信息处理。系统。,4765-4774. [43] Nielsen,M.(2017)。神经网络和深度学习。 [44] Quinlan,R.(1993)。C4.5:机器学习程序。摩根·考夫曼出版社。 [45] Ribeiro,M.T.、Singh,S.和Guestrin,C.(2016)。“我为什么要相信你?”解释任何分类器的预测。第22届ACM SIGKDD知识发现和数据挖掘国际会议记录(第1135-1144页)。 [46] Schapire,R.(1990年)。弱可学性的力量。雨衣。学习。,5, 197-227. [47] Shrikumar,A.、Greenside,P.和Kundaje,A.(2017)。通过传播激活差异来学习重要功能。第34届国际机器学习会议记录——第70卷,(第3145-3153页)。 [48] Simonyan,K.和Zisserman,A.(2014)。用于大规模图像识别的深度卷积网络。arXiv,1409.1556年。 [49] Slack,D.、Hilgard,S.、Jia,E.、Singh,S.和Lakkaraju,H.(2020年)。愚弄LIME和SHAP:对事后解释方法的对抗性攻击。程序AAAI/ACM Conf Arti Intell,ethics,and Soc,180-186。 [50] Snoek,J.、Larochelle,H.和Adams,R.P.(2012)。机器学习算法的实用贝叶斯优化。NIPS’12:第25届神经信息处理系统国际会议论文集。 [51] Sobol,I.(2001)。非线性数学模型的全局敏感性指数及其蒙特卡罗估计。数学。计算。模拟。,55, 271-280. ·Zbl 1005.65004号 [52] Sobol,I.和Kucherenko,S.(2010年)。一种新的基于导数的变量组重要性准则及其与全局敏感性指数的联系。计算。物理学。社区。,181, 1212-1217. ·Zbl 1219.65005号 [53] Song,E.、Nelson,B.L.和Staum,J.(2016)。整体敏感性分析的Shapley效应:理论和计算。J.Uncert公司。数量。,4(1), 1060-1083. ·Zbl 1403.62226号 [54] Sundararajan,M.、Taly,A.和Yan,Q.(2017年)。深层网络的公理属性。第34届国际机器学习会议记录——第70卷,(第3319-3328页)。 [55] Sutton,R.S.和Barto,A.G.(2018年)。强化学习:导论(第二版)。麻省理工学院出版社·Zbl 1407.68009号 [56] Vaughan,J.、Sudjianto,A.、Brahimi,E.、Chen,J.和Nair,V.N.(2018)。基于可加指数模型的可解释神经网络。RMA期刊。。 [57] Zeiler,M.D.(2012年)。ADADELTA:一种自适应学习速率方法。阿西夫,1212.5701。 此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。