×

无限制排列强制外推:变量重要性至少需要一个以上的模型,或者没有自由变量重要性。 (英语) Zbl 1477.62008年

摘要:本文回顾并主张反对使用置换和预测(PaP)方法来解释黑箱函数。为随机森林提出的可变重要性测度、部分依赖图和个体条件期望图等方法仍然很受欢迎,因为它们都是模型不可知的,并且只依赖于预先训练的模型输出,使它们在计算上高效,并在软件中广泛可用。然而,许多研究发现,这些工具可以产生高度误导性的诊断,尤其是在特征之间存在强烈依赖性的情况下。我们在这里工作的目的是(i)回顾这一不断增长的文献,(ii)提供这些缺陷的进一步证明,并详细解释其发生的原因,以及(iii)提倡涉及额外建模的替代措施。特别是,我们描述了如何通过强制原始模型外推到数据很少或没有数据的区域,打破保持数据中特征之间的依赖关系,从而过度强调特征空间的稀疏区域。我们探索了不同模型设置的这些影响,并发现文献中先前的观点支持,即PaP度量可以大大过度强调变量重要性度量和部分相关性图中的相关特征。另一种方法是,我们讨论并推荐更直接的方法,这些方法包括在消除被调查特征的影响后测量模型性能的变化。

MSC公司:

62-08 统计学相关问题的计算方法
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] 阿彻,KJ;Kimes,RV,随机森林变量重要性测度的经验表征,计算。统计数据分析。,52, 4, 2249-2260 (2008) ·Zbl 1452.62027 ·doi:10.1016/j.csda.2007.08.015
[2] 理发师,RF;Candès,EJ,《通过仿冒品控制虚假发现率》,《Ann.Stat.》,第43、5、2055-2085页(2015年)·Zbl 1327.62082号 ·doi:10.1214/15-AOS1337
[3] Bénard,C.,Da Veiga,S.,Scornet,E.:随机森林的Mda:不一致性,以及通过sobol-Mda的实用解决方案。arXiv预输入rXiv:2102.13347(2021)
[4] 贝雷特,TB;Wang,Y。;理发师,RF;Samworth,RJ,《控制混杂因素时独立性的条件置换测试》,J.R.Stat.Soc.Ser。B统计方法。,82, 1, 175-197 (2020) ·Zbl 1440.62223号 ·doi:10.1111/rssb.12340
[5] Breiman,L.,《随机森林》,马赫。学习。,45, 5-32 (2001) ·Zbl 1007.68152号 ·doi:10.1023/A:1010933404324
[6] Candes,E.,Fan,Y.,Janson,L.,Lv,J.:淘金:高维控制变量选择的“x型”仿制品。J.R.统计社会服务。B Stat.方法。80(3), 551-577 (2018) ·Zbl 1398.62335号
[7] Chasting,G。;Gamboa,F。;Prieur,C.,相依变量的广义Hoeffding-Sobol分解——在灵敏度分析中的应用,电子。J.Stat.,6,2420-2448(2012)·Zbl 1334.62098号 ·doi:10.1214/12-EJS749
[8] Coleman,T.、Peng,W.、Mentch,L.:随机森林的可扩展有效假设检验。arXiv-printarXiv:1904.07830(2019)
[9] Díaz-Uriarte,R。;De Andres,SA,基因选择和使用随机森林的微阵列数据分类,BMC生物信息。,7, 1, 3 (2006) ·doi:10.1186/1471-2105-7-3
[10] Fanaee-T,H。;Gama,J.,结合集合检测器和背景知识的事件标记,Prog。Artif公司。智力。,1-15, 66 (2013)
[11] Fisher,A.,Rudin,C.,Dominici,F.:所有的模型都是错误的,但很多都是有用的:通过同时研究一整类预测模型来学习变量的重要性。J.马赫。学习。第20(177)号决议,第1-81(2019)号决议·Zbl 1436.62019年
[12] Friedman,JH,《贪婪函数近似:梯度提升机》,《Ann.Stat.》,1189-1232,66(2001)·Zbl 1043.62034号
[13] Goldstein,A。;Kapelner,A。;布莱奇,J。;Pitkin,E.,《窥视黑匣子:用个人条件期望图可视化统计学习》,J.Compute。图表。Stat.,24,1,44-65(2015)·doi:10.1080/10618600.2014.907095
[14] 格雷戈鲁蒂,B。;米歇尔,B。;Saint-Pierre,P.,随机森林的分组变量重要性及其在多功能数据分析中的应用,计算。统计数据分析。,90, 15-35 (2015) ·Zbl 1468.62069号 ·doi:10.1016/j.csda.2015.04.002
[15] 胡克,G.,因变量高维函数的广义泛函Anova诊断,J.Compute。图表。《统计》,第16、3、66页(2007年)·doi:10.1198/106186007X237892
[16] Ishwaran,H。;Lu,M.,《随机森林回归、分类和存活中变量重要性的标准误差和置信区间》,《统计医学》,38,4,558-582(2019)·doi:10.1002/sim.7803
[17] Lehmann,E.L.,Romano,J.P.:检验统计假设。斯普林格(2006)·2018年6月17日
[18] Lei,J.,G'Sell,M.,Rinaldo,A.,Tibshirani,R.J.,Wasserman,L.:回归的无分布预测推断。《美国统计协会期刊》113(523),1094-1111(2018)·Zbl 1402.62155号
[19] Li,X.,Wang,Y.,Basu,S.,Kumbier,K.,Yu,B.:随机森林的衰退mdi特征重要性度量。arXiv预印本arXiv:1906.10845(2019)
[20] Liu,Y.,Zheng,C.:用于fdr控制变量选择的自动编码敲除生成器。arXiv预印arXiv:1809.10765(2018)
[21] Loecher,M.,《随机森林的无偏变量重要性》,Commun。统计理论方法,66,1-13(2020)·Zbl 07533613号 ·doi:10.1080/03610926.2020.1764042
[22] Lou,Y.,Caruana,R.,Gehrke,J.,Hooker,G.:具有成对交互的精确可理解模型。摘自:第19届ACM SIGKDD知识发现和数据挖掘国际会议记录,第623-631页。ACM(2013)
[23] Lundberg,S.M.,Lee,S.-I.:解释模型预测的统一方法。摘自:《第31届神经信息处理系统国际会议论文集》,第4768-4777页(2017年)
[24] 曼奇,L。;胡克,G.,《通过置信区间和假设检验量化随机森林中的不确定性》,J.Mach。学习。研究,17,1,841-881(2016)·Zbl 1360.62095号
[25] 曼奇,L。;Hooker,G.,随机森林中加性结构的形式假设检验,计算。图表。Stat.,26,3,589-597(2017)·doi:10.1080/10618600.2016.256817
[26] Mentch,L.,Zhou,S.:从更坏中变好:强化包装和一个不同重要性的警示故事。arXiv预打印arXiv:2003.03629(2020)
[27] Nelsen,R.B.:Copulas简介。施普林格(2007)·Zbl 1152.62030
[28] 尼科迪默斯,KK;Malley,JD;斯特罗布尔,C。;Ziegler,A.,预测相关下基于随机森林排列的变量重要性度量的行为,BMC Bioninform。,11, 1, 110 (2010) ·数字对象标识代码:10.1186/1471-2105-11-110
[29] A.B.欧文:Sobol指数和shapley值。SIAM/ASA J.不确定性。数量。2(1), 245-251 (2014) ·Zbl 1308.91129号
[30] 里贝罗,M.T.,辛格,S.,盖斯特林,C.:我为什么要信任你?解释任何分类器的预测。摘自:第22届ACM SIGKDD知识发现和数据挖掘国际会议记录,第1135-1144页。ACM(2016)
[31] Roosen,C.B.:使用函数ANOVA分解可视化和探索高维函数。斯坦福大学博士论文(1995年)
[32] Rudin,C.,停止解释高风险决策的黑箱机器学习模型,而使用可解释模型,Nat.Mach。智力。,1, 5, 206-215 (2019) ·数字对象标识代码:10.1038/s42256-019-0048-x
[33] Simonyan,K.,Vedaldi,A.,Zisserman,A.:深层卷积网络:可视化图像分类模型和显著图。arXiv预印arXiv:1312.6034(2013)
[34] Slack,D.、Hilgard,S.、Jia,E.、Singh,S.和Lakkaraju,H.:愚弄石灰和形状:对事后解释方法的对抗性攻击。摘自:《AAAI/ACM人工智能、道德和社会会议记录》,第180-186页(2020年)
[35] Sobol,IM,非线性数学模型的敏感性分析,数学。模型。计算。实验,1407-414(1993)·Zbl 1039.65505号
[36] 斯特罗布尔,C。;布列斯特,A-L;泽利斯,A。;Hothorn,T.,随机森林变量重要性测量中的偏差:插图、来源和解决方案,BMC Bioinform。,8, 1, 25 (2007) ·doi:10.1186/1471-2105-8-25
[37] 斯特罗布尔,C。;布列斯特,A-L;Kneib,T。;奥古斯丁,T。;Zeileis,A.,随机森林条件变量重要性,BMC Bioninform。,9,1307(2008年)·doi:10.1186/1471-2105-9-307
[38] Tan,S.,Caruana,R.,Hooker,G.,Koch,P.,Gordo,A.:使用模型蒸馏学习神经网络的全局加性解释。arXiv预印arXiv:1801.08640(2018)
[39] Tan,S.,Caruana,R.,Hooker,G.,Lou,Y.:提取和比较:使用透明模型提取审核黑盒模型。摘自:2018年AAAI/ACM人工智能、道德和社会会议记录,第303-310页(2018)
[40] 托洛什。;Lengauer,T.,《相关特征分类:特征排名和解决方案的不可靠性》,生物信息学,27,141986-1994(2011)·doi:10.1093/bioinformatics/btr300
[41] Tuv,E。;鲍里索夫,A。;Runger,G。;Torkkola,K.,《用集合、人工变量和冗余消除进行特征选择》,J.Mach。学习。第10号决议,1341-1366(2009年)·Zbl 1235.62003号
[42] Wachter,S。;米特尔斯塔德,B。;Russell,C.,《未打开黑匣子的反事实解释:自动决策和gdpr》,Harv。法律技术杂志。,31, 841 (2017)
[43] Williamson,B.D.,Gilbert,P.B.,Simon,N.R.,Carone,M.:算法认知变量重要性推理的统一方法。arXiv预印本arXiv:2004.03683(2020)
[44] Wood,S.N.:广义加性模型:R.Chapman和Hall/CRC的介绍(2006)·Zbl 1087.62082号
[45] 吴,Y。;Boos,DD;Stefanski,LA,通过添加伪变量控制变量选择,《美国统计协会期刊》,102,477,235-243(2007)·Zbl 1284.62242号 ·doi:10.1198/016214500000843
[46] Zhou,Z.,Hooker,G.:基于树的方法中特征重要性的无偏测量。arXiv预印本arXiv:1903.05179(2019)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。