×

使用Shapley值和非参数藤蔓连接函数解释预测模型。 (英语) Zbl 1473.62101号

摘要:本文的目标是解释复杂机器学习模型的预测。在过去几年中,Shapley值是一种非常流行的方法。用于预测解释的Shapley值的最初发展依赖于所描述的特征是独立的假设。如果现实中的功能相互依赖,则可能导致错误的解释。因此,最近有人尝试对特征之间的相关性进行适当建模/估计。尽管先前提出的方法明显优于假设独立性的传统方法,但它们也有其弱点。在本文中,我们提出了两种新的方法来建模特征之间的相关性。这两种方法都基于蔓生连接函数,它是建模多元非高斯分布的灵活工具,能够表征广泛的复杂相关性。在模拟数据集和实际数据集上评估了所提方法的性能。实验表明,与竞争对手相比,藤蔓连接函数方法能够更准确地逼近真实的Shapley值。

MSC公司:

62G05型 非参数估计
62小时05 多元概率分布的表征与结构理论;连接线
68T01型 人工智能的一般主题
91A12号机组 合作游戏
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Aas,K.、C.Czado、A.Frigessi和H.Bakken(2009年)。多重依赖的对copula结构。保险数学。经济。44(2), 182-198. ·Zbl 1165.60009号
[2] Aas、K.、M.Jullum和A.Löland(2021年)。当特征相互依赖时解释单个预测:更准确地近似Shapley值。Artif公司。智力。298,文章ID 103502,24页·Zbl 1520.68136号
[3] Bedford,T.和R.M.Cooke(2001年)。用藤蔓建模的条件相关随机变量的概率密度分解。安。数学。Artif公司。智力。32, 245-268. ·Zbl 1314.62040号
[4] Bedford,T.和R.M.Cooke(2002年)。藤蔓-一种新的随机变量图形模型。安。统计师。30(4), 1031-1068. ·Zbl 1101.62339号
[5] Bertin,K.、C.Lacour和V.Rivoirard(2016年)。条件密度函数的自适应逐点估计。亨利·彭加雷·普罗巴布(Henri PoincaréProbab)安·Inst。《美国联邦法律大全》第52(2)卷,第939-980页·Zbl 1342.62090号
[6] Chang,B.和H.Joe(2019年)。基于藤蔓连接词条件分布的预测。计算。统计师。数据分析。139, 45-63. ·Zbl 1507.62025号
[7] Chen,H.、J.D.Janizek、S.Lundberg和S.I.Lee(2020年)。模型真实还是数据真实?《2020年ICML机器学习中人类可解释性研讨会论文集》,第123-129页。
[8] Cook,R.D.和M.E.Johnson(1981年)。用于建模非椭圆对称多元数据的分布族。J.R.统计社会服务。B.统计方法。43(2), 210-218. ·Zbl 0471.62046号
[9] Cooke,R.M.、H.Joe和K.Aas(2010年)。葡萄藤长出来了。D.Kurowicka和H.Joe(编辑),《依赖建模》,第37-71页。世界科学出版社,新加坡。
[10] Cooke,R.M.、D.Kurowicka和K.Wilson(2015)。采样、条件化、计数、合并、搜索常规葡萄藤。《多元分析杂志》。第138页,4-18页·Zbl 1321.62052号
[11] Czado C.(2019)。用藤蔓属植物分析相关数据。查姆施普林格·Zbl 1425.62001号
[12] Fan,J.、Q.Yao和H.Tong(1996年)。非线性动力系统中条件密度和灵敏度测度的估计。《生物特征》83(1),189-206·Zbl 0865.62026号
[13] Grömping,U.(2015)。回归模型中的变量重要性。威利公司(Wiley Interdiscip)。修订版计算。《统计》第7(2)卷,第137-152页。
[14] 霍布·k·哈夫,I.、k.Aas、A.Frigessi和V.Lacal(2016)。贝叶斯网络中使用规则藤的结构学习。计算。统计师。数据分析。101, 186-208. ·Zbl 1466.62097号
[15] Holmes、M.P.、A.G.Gray和C.L.Isbell(2010年)。快速核条件密度估计:一种双树蒙特卡罗方法。计算。统计师。数据分析。54(7), 1707-1718. ·Zbl 1284.65006号
[16] Hyndman,R.J.、D.M.Bashtannyk和G.K.Grunwald(1996年)。估算和可视化条件密度。J.计算。图表。统计师。5(4), 315-336.
[17] Izbicki,R.和A.B.Lee(2017年)。将高维回归转换为高维条件密度估计。电子。J.统计学家。11(2), 2800-2831. ·Zbl 1366.62078号
[18] Joe,H.(1996)。具有给定边距和m(m-1)/2双变量相关参数的m变量分布族。L.Rüschendorf、B.Schweizer和M.D.Taylor(编辑),《带固定边界的分布及相关主题》,第120-141页。加利福尼亚州海沃德数理统计研究所。
[19] Johnson,J.W.(2000)。一种启发式方法,用于估计多元回归中预测变量的相对权重。多元行为。第35(1)号决议,1-19。
[20] Kurowicka,D.和R.M.Cooke(2005年)。无分布连续贝叶斯信念网。A.Wilson、N.Limnios、S.Keller-McNulty和Y.Armijo(编辑),《可靠性中的现代统计和数学方法》,第309-322页。世界科学出版社,新加坡·兹比尔1083.62054
[21] Kurowicka,D.和R.M.Cooke(2006年)。高维依赖模型的不确定性分析。奇切斯特约翰·威利父子公司·Zbl 1096.62073号
[22] Lipovetsky,S.和M.Conklin(2001年)。博弈论方法中的回归分析。申请。斯托克。模型总线。印度17(4),319-330·Zbl 1008.62041号
[23] Lundberg,S.M.和S.-I.Lee(2017年)。解释模型预测的统一方法。I.Guyon、U.V.Luxburg、S.Bengio、H.Wallach、R.Fergus、S.Vishwanathan和R.Garnett(编辑),《神经信息处理系统进展》,第4765-4774页。纽约红钩Curran Associates。
[24] Nagler,T.和C.Czado(2016年)。利用简化的藤连接函数避免非参数密度估计中的维数灾难。《多元分析杂志》。151, 69-89. ·Zbl 1346.62071号
[25] Nagler,T.和T.Vatter(2020年)。用连接函数求解估计方程。可在https://arxiv.org/abs/1801.10576。
[26] Nagler,T.和T.Vatter(2021年)。rvinecopulib:Vine Copula建模的高性能算法。R包版本0.5.5.1.1。CRAN上提供。
[27] Nguyen,M.-L.J.(2018年)。中大尺寸空间条件密度估计的非参数方法。可在https://arxiv.org/abs/1801.06477。
[28] Otneim,H.和D.Tjötheim(2018)。使用局部高斯相关的条件密度估计。统计师。计算。28, 303-321. ·Zbl 1384.62127号
[29] Owen,A.B.和C.Prieur(2017年)。关于Shapley值,用于测量相关输入的重要性。SIAM/ASA J.不确定。量化。5(1), 986-1002. ·Zbl 1386.65064号
[30] Panagiotelis,A.,C.Czado和H.Joe(2012)。多元离散数据的配对copula构造。J.Amer。统计师。协会107(499),1063-1072·兹比尔1395.62114
[31] Rosenblatt,M.(1952年)。关于多元变换的备注。安。数学。统计师。23(3), 470-472. ·Zbl 0047.13104号
[32] Rosenblatt,M.(1956年)。关于密度函数的一些非参数估计的注记。安。数学。统计师。27(3), 832-837. ·Zbl 0073.14602号
[33] Sahin,E.、C.J.Saul、E.Ozsarfati和A.Yilmaz(2018年)。鲍鱼生活阶段分类与深度学习。S.Deb、T.Hanne和K.-C.Wong(编辑),《第五届软计算与机器智能国际会议论文集》,第163-167页。纽约红钩Curran Associates。
[34] Schittenkopf C.、G.Dorffner和E.J.Dockner(2000年)。预测与时间相关的条件密度:半非参数神经网络方法。J.预测。19(4), 355-374. ·Zbl 1079.91555号
[35] Selleriete,N.和M.Jullum(2020年)。shapr:一个R包,用于解释具有依赖感知Shapley值的机器学习模型。J.开源软件。5(46),文章ID 2027,3页。
[36] Shapley,L.S.(1953年)。n人游戏的值。H.W.Kuhn和A.W.Tucker(编辑),《对游戏理论的贡献》,第307-317页。普林斯顿大学出版社·Zbl 0050.14404号
[37] Smith,J.S.,B.Wu和B.M.Wilamowski(2019年)。使用Levenberg-Marquardt和自适应重量压缩进行神经网络训练。IEEE传输。神经网络。学习。系统。30(2), 580-587.
[38] Song,E.、B.L.Nelson和J.Staum(2016年)。整体敏感性分析的Shapley效应:理论和计算。SIAM/ASA J.不确定。量化。4(1), 1060-1083. ·Zbl 1403.62226号
[39] Stöber,J.、H.G.Hong、C.Czado和P.Ghosh(2015)。老年人慢性病的共病性:通过混合反应的copula设计确定的模式。计算。统计师。数据分析。88、28-39中所述·Zbl 1468.62182号
[40] Takahasi,K.(1965年)。关于多元Burr分布的注记。Ann.Inst.统计。数学。17, 257-260. ·Zbl 0134.36703号
[41] Štrumbelj,E.和I.Kononenko(2010年)。使用博弈论对个人分类进行有效解释。J.马赫。学习。决议11(1),1-18·Zbl 1242.68250号
[42] Štrumbelj,E.和I.Kononenko(2014)。用特征贡献解释预测模型和单个预测。知识。信息系统。41, 647-665.
[43] Wright,M.N.和A.Ziegler(2017年)。ranger:在C++和R.J.Stat.Softw中为高维数据快速实现随机森林。77(1), 1-17.
[44] Yari,G.和A.M.D.Jafari(2006年)。多元Pareto(IV)、Burr和相关分布的信息和协方差矩阵。国际工程科学杂志。17(3-4), 61-69.
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。