×

了解具有虚拟变量的复杂预测模型。 (英语) Zbl 1516.62094号

摘要:在可解释机器学习文献的框架下,我们提出了一种新的程序,以在复杂预测模型中为每个解释变量指定相关性度量。我们假设我们有一个训练集来适应模型,有一个测试集来检查其样本外性能。我们建议通过比较测试集中模型的预测与当感兴趣的变量(在测试集中)被其鬼变量取代时获得的预测来衡量每个变量的个体相关性,鬼变量定义为使用其余解释变量对该变量的预测。在线性模型中,结果表明,一方面,所提出的测度给出了与遗漏协方差相似的结果(机车计算成本最低)并优于随机排列,另一方面,它与测量变量显著性的常用(F)统计量密切相关。在非线性预测模型(如神经网络或随机森林)中,所提出的度量以有效的方式显示变量的相关性,如将鬼变量与其他替代方法(包括机车和随机排列,以及模拟变量和估计的条件分布)。最后,我们通过定义相关性矩阵作为使用每个虚变量时预测影响向量的协方差矩阵来研究变量的联合相关性。我们的建议通过模拟示例和对大量实际数据集的分析进行了说明。

MSC公司:

62兰特 大数据和数据科学的统计方面
68T09号 数据分析和大数据的计算方面
62G08号 非参数回归和分位数回归
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] 理发师,RF;Candès,EJ,《通过仿冒品控制虚假发现率》,《Ann Stat》,第43、5、2055-2085页(2015年)·Zbl 1327.62082号 ·doi:10.1214/15-AOS1337
[2] 巴雷多·阿里塔,A。;迪亚斯·罗德里格斯,N。;德尔塞尔,J。;Bennetot,A。;Tabik,S。;Barbado,A。;南卡罗来纳州加西亚。;Gil-López,S。;莫利纳,D。;Benjamins,R.,《可解释人工智能(XAI):面向负责任人工智能的概念、分类、机遇和挑战》,Inform Fus,58,82-115(2020)·doi:10.1016/j.inffus.2019.12.012
[3] 比塞克,P。;Burzykowski,T.,解释模型分析:探索、解释和检验预测模型(2021),伦敦:查普曼和霍尔/CRC,伦敦·doi:10.1201/9780429027192
[4] Bishop,CM,混合物密度网络(1994),伦敦:阿斯顿大学,伦敦
[5] Breiman,L.,《统计建模:两种文化》,《统计科学》,16,199-231(2001)·Zbl 1059.62505号 ·doi:10.1214/ss/1009213726
[6] 坎迪斯,E。;范,Y。;Janson,L。;Lv,J.,《淘金:高维受控变量选择的‘model-x’仿制品》,J R Stat Soc Ser B(Stat Methodol),80,3,551-577(2018)·Zbl 1398.62335号 ·doi:10.1111/rssb.12265
[7] 弗里德曼,J。;哈斯蒂,T。;Tibshirani,R.,通过坐标下降广义线性模型的正则化路径,J Stat Softw,33,1,1-22(2010)·doi:10.18637/jss.v033.i01
[8] 格雷戈鲁蒂,B。;米歇尔,B。;Saint-Pierre,P.,《随机森林的分组变量重要性及其在多功能数据分析中的应用》,《计算统计数据分析》,90,15-35(2015)·兹比尔1468.62069 ·doi:10.1016/j.csda.2015.04.002
[9] 格雷戈鲁蒂,B。;米歇尔,B。;Saint-Pierre,P.,《随机森林中的相关性和变量重要性》,统计计算,27,3,659-678(2017)·Zbl 1505.62167号 ·doi:10.1007/s11222-016-9646-1
[10] 胡克,G。;曼奇,L。;Zhou,S.,《无限制排列力外推:变量重要性至少需要一个以上模型,或者没有自由变量重要性》,Stat Compute,31,82,1120(2021)·Zbl 1477.62008年 ·doi:10.1007/s11222-021-10057-z
[11] 约翰逊,RA;Wichern,DW,应用多元统计分析(2002),伦敦:普伦蒂斯·霍尔,伦敦
[12] Kuhn M(2018)《插入符号:分类和回归训练》。R软件包版本6.0-81。J.Wing、S.Weston、A.Williams、C.Keefer、A.Engelhardt、T.Cooper、Z.Mayer、B.Kenkel、R核心团队、M.Benesty、R.Lescarbeau、A.Ziem、L.Scrucca、Y.Tang、C.Candan和T.Hunt的贡献
[13] Lei,J。;G'Sell,M。;里纳尔多,A。;RJ Tibshirani;Wasserman,L.,回归的无分布预测推断,J Am Stat Assoc,113,523,1094-1111(2018)·Zbl 1402.62155号 ·doi:10.1080/01621459.2017.1307116
[14] Liaw,A。;Wiener,M.,《随机森林分类与回归》,R News,2,3,18-22(2002)
[15] Masís,s.,《用python进行可解释机器学习》(2021),伦敦:Packt Publishing Ltd,伦敦
[16] Molnar C(2019)可解释机器学习。露露。通用域名格式
[17] Patterson E,Sesia M(2022)敲除:受控变量选择的敲除过滤器。R包版本0.3.5
[18] 佩尼亚,D。;Yohai,VJ,使用影响矩阵检测线性回归中的影响子集,J R Stat Soc Ser B(方法学),57145-156(1995)·Zbl 0825.62579号
[19] 佩德雷戈萨,F。;瓦罗佐,G。;Gramfort,A。;米歇尔,V。;蒂里昂,B。;O.格栅。;布隆德尔,M。;普雷滕霍弗,P。;韦斯,R。;杜堡,V。;范德普拉斯,J。;帕索斯,A。;库纳波,D。;布鲁彻,M。;佩罗,M。;Duchesnay,E.,Scikit-learn:蟒蛇中的机器学习,J Mach learn Res,12,2825-2830(2011)·Zbl 1280.68189号
[20] Ribeiro MT、Singh S、Guestrin C(2016a),机器学习的模型认知解释性。在:机器学习中的人类可解释性ICML研讨会(WHI 2016)。纽约、美国、纽约
[21] Ribeiro MT、Singh S、Guestrin C(2016b)我为什么要信任你解释任何分类器的预测。摘自:第22届ACM SIGKDD知识发现和数据挖掘国际会议论文集,第1135-1144页。ACM公司
[22] 佐治亚州塞伯;Lee,AJ,线性回归分析(2003),纽约:威利,纽约·Zbl 1029.62059号 ·doi:10.1002/9780471722199
[23] Tansey,W。;韦奇,V。;张,H。;拉巴丹,R。;Blei,DM,黑箱模型中特征选择的坚持随机化测试,J Comput Graph Stat,31,1,151-162(2022)·Zbl 07546466号 ·doi:10.1080/10618600.2021.1923520
[24] 维纳布尔斯,西北部;Ripley,BD,现代应用统计学与S(2002),纽约:施普林格,纽约·Zbl 1006.62003号 ·doi:10.1007/978-0-387-21706-2
[25] Wood,SN,广义加性模型:R简介(2017),纽约:查普曼和霍尔/CRC出版社,纽约·Zbl 1368.62004号 ·doi:10.1201/9781315370279
[26] 朱,R。;曾博士。;科索罗克,MR,强化学习树,J Am Stat Assoc,110,512,1770-1784(2015)·Zbl 1374.68466号 ·doi:10.1080/01621459.2015.1036994
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。