×

稀疏反事实解释对不利扰动的稳健性。 (英语) Zbl 07697280号

摘要:反事实解释(CE)是理解算法如何改变决策的有力手段。研究人员提出了首席执行官们应该满足的一些迫切需要,以便实际发挥作用,例如需要尽可能少的努力来制定,或者遵守因果模型。在本文中,我们考虑了稳健性(即,即使发生不良事件,制定CE仍然可行且具有成本效益)以及稀疏(即CE只需要更改功能的一个子集)。特别是,我们研究了分别针对建议更改和不建议更改的功能解决健壮性的效果。我们提供了稀疏CE的稳健性定义,这些定义是可行的,因为它们可以作为惩罚项纳入用于发现CE的损失函数中。为了进行我们的实验,我们创建并发布了代码,其中五个数据集(通常用于公平和可解释的机器学习领域)已通过可用于采样有意义扰动的特征特定注释进行了丰富。我们的实验表明,CEs通常不稳健,如果发生不利扰动(即使不是最坏的情况),他们所规定的干预可能需要比预期更大的成本,甚至变得不可能。然而,考虑到搜索过程中的健壮性(这很容易做到),可以系统地发现健壮的CE。鲁棒CE使对比扰动的额外干预比非鲁棒CE成本低得多。我们还发现,健壮性更容易实现,从而改变特征,这为用户选择最适合的反事实解释提供了一个重要的考虑点。我们的代码位于:https://github.com/marcovirgolin/robust-counterfactuals网站.

MSC公司:

68泰克 人工智能
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Friedman,J.H.,《贪婪函数近似:梯度提升机》,《Ann.Stat.》,第29期,第1189-1232页(2001年)·Zbl 1043.62034号
[2] Ke,G.等人。;孟,Q。;Finley,T。;Wang,T。;Chen,W。;马,W。;Ye,Q。;Liu,T.-Y.,LightGBM:高效梯度增强决策树,高级神经信息处理。系统。,30, 3146-3154 (2017)
[3] LeCun,Y。;Y.本吉奥。;Hinton,G.,《深度学习》,《自然》,521,7553,436-444(2015)
[4] 贝尔金,M。;徐,D。;马,S。;Mandal,S.,《协调现代机器学习实践和经典偏差-方差权衡》,Proc。国家。阿卡德。科学。,116, 32, 15849-15854 (2019) ·Zbl 1433.68325号
[5] Nakkiran,P。;卡普伦,G。;班萨尔,Y。;Yang,T。;巴拉克,B。;Sutskever,I.,《深度双重下降:更大的模型和更多数据带来的伤害》,J.Stat.Mech。理论实验,2021,12,第124003条pp.(2021)·Zbl 07451713号
[6] 古德曼,B。;Flaxman,S.,欧盟关于算法决策和“解释权”的规定,AI Mag.,38,3,50-57(2017)
[7] Jobin,A。;英卡,M。;Vayena,E.,《人工智能道德准则的全球景观》,Nat.Mach。智力。,1, 9, 389-399 (2019)
[8] 阿达迪,A。;Berrada,M.,《窥视黑匣子:关于eXplainable人工智能(XAI)的调查》,IEEE Access,652138-52160(2018)
[9] 吉多蒂,R。;Monreale,A。;Ruggieri,S。;图里尼,F。;Giannotti,F。;Pedreschi,D.,黑箱模型解释方法调查,ACM Compute。调查。,51, 5, 1-42 (2018)
[10] Rudin,C.,停止解释高风险决策的黑箱机器学习模型,而使用可解释模型,Nat.Mach。智力。,1, 5, 206-215 (2019)
[11] 里贝罗,M.T。;辛格,S。;Guestrin,C.,“我为什么要相信你?”解释了任何分类器的预测,(第22届ACM SIGKDD知识发现和数据挖掘国际会议(2016)论文集),1135-1144
[12] 伦德伯格,S.M。;Lee,S.-I.,解释模型预测的统一方法,(神经信息处理系统进展(2017)),4768-4777
[13] B.Kim,R.Khanna,O.O.Koyejo,榜样是不够的,学会批评!可解释性批评,见:神经信息处理系统进展,第29卷。
[14] 陈,C。;李欧。;陶,D。;巴内特。;鲁丁,C。;Su,J.K.,这看起来像是:可解释图像识别的深度学习,(Wallach,H.;Larochelle,H.,Beygelzimer,A.;d'Alché-Buc,F.;Fox,E.;Garnett,R.,《神经信息处理系统进展》,第32卷(2019))
[15] Wachter,S。;米特尔斯塔特,B。;Russell,C.,《未打开黑匣子的反事实解释:自动决策和GDPR》,Harv。法律技术杂志。,31, 841 (2017)
[16] 斯蒂芬,I。;阿隆索,J.M。;加泰罗尼亚。;Pereira-Fariña,M.,《可解释人工智能对比和反事实解释生成方法的调查》,IEEE Access,9,11974-12001(2021)
[17] Slack,D。;希尔加德,S。;Lakkaraju,H。;辛格,S.,反事实解释可以被操纵,arXiv预印本
[18] 巴罗卡斯,S。;塞尔布斯特,A.D。;Raghavan,M.,《反事实解释和主要原因背后的隐藏假设》(《2020年公平、问责制和透明度会议记录(2020年)》),第80-89页
[19] Gower,J.C.,《一般相似系数及其某些特性》,《生物计量学》,857-871(1971)
[20] 吉多蒂,R。;Monreale,A。;Ruggieri,S。;佩德莱斯基,D。;图里尼,F。;Giannotti,F.,黑箱决策系统的基于本地规则的解释,arXiv预印本
[21] 夏尔马,S。;亨德森,J。;Ghosh,J.,《CERTIFAI:一个通用框架,用于解释和分析黑盒模型的公平性和稳健性》,(《AAAI/ACM人工智能、道德和社会会议论文集(2020)》),166-172
[22] Mothillal,R.K。;Sharma,A。;Tan,C.,通过不同的反事实解释解释机器学习分类器,(2020年公平、问责和透明度会议记录(2020)),607-617
[23] 劳格尔,T。;Lesot,M.-J。;马萨拉,C。;雷纳德,X。;Detyniecki,M.,机器学习中可解释性的基于比较的逆向分类,(基于知识的系统中信息处理和不确定性管理国际会议(2018),Springer),100-111
[24] 基恩,M.T。;Smyth,B.,《好的反事实以及在哪里找到它们:为可解释的人工智能(XAI)生成反事实的基于案例的技术》,(基于案例推理国际会议(2020),斯普林格),163-178
[25] 霍尼克,K。;Stinchcombe,M。;White,H.,多层前馈网络是通用逼近器,神经网络。,2, 5, 359-366 (1989) ·Zbl 1383.92015年
[26] 福克马,H。;德海德,R。;van Erven,T.,提供追索权的基于归因的解释不可能是可靠的,arXiv预印本
[27] 德国Grömping,U.,《南德信贷数据:修正广泛使用的数据集(2019年)》,2019年4月报告,《数学、物理和化学报告》,柏林应用科学大学第二系
[28] Hofmann,H.,Statlog德国信贷数据(1994年)
[29] Kohavi,R。;Becker,B.,《人口普查收入》(1996年)
[30] Kohavi,R.,《提升朴素贝叶斯分类器的准确性:一种决策树混合方法》(《第二届知识发现和数据挖掘国际会议论文集》,第96卷(1996)),202-207年
[31] 哈里森,D。;Rubinfeld,D.L.,《Hedonic房价与清洁空气需求》,J.Environ。经济。管理。,5, 1, 81-102 (1978) ·Zbl 0375.90023号
[32] 卡莱尔,M.,种族主义数据破坏?(2019)
[33] Imran,A.A。;拉希姆,M.S。;Ahmed,T.,挖掘服装行业的生产力数据,Int.J.Bus。智力。数据最小值,19,3,319-342(2021)
[34] Larson,J。;马图,S。;基什内尔,L。;Angwin,J.,《我们如何分析COMAS累犯算法》(2016年)
[35] 卡恩斯,M。;Neel,S。;Roth,A。;Wu,Z.S.,《防止公平再分配:审计和学习促进分组公平》(机器学习国际会议(2018),PMLR),2564-2572
[36] 劳格尔,T。;Lesot,M.-J。;马萨拉,C。;雷纳德,X。;Detyniecki,M.,《事后解释的危险:不合理的反事实解释》,arXiv预印本
[37] 丁·F。;Hardt,M。;Miller,J。;Schmidt,L.,《退休成年人:公平机器学习的新数据集》(第三十五届神经信息处理系统会议(2021))
[38] 西拉卡瓦。;Moore,J.H.,《学习公平分类器的遗传编程方法》,(《2020年遗传和进化计算会议论文集》。《2020年基因和进化计算大会论文集》,GECCO’20(2020),计算机械协会:美国纽约州纽约市计算机械协会),967-975
[39] 维戈林,M。;De Lorenzo,A。;Randone,F。;Medvet,E。;Wahde,M.,带个性化可解释性估计的模型学习(ml-pie),(《遗传和进化计算会议指南》,《遗传和演化计算会议指南指南》,GECCO’21(2021),计算机械协会:纽约州纽约市计算机械协会,美国),1355-1364
[40] Dominguez-Olmedo,R。;卡里米,A.H。;Schölkopf,B.,《因果算法追索的对抗稳健性》,(第39届机器学习国际会议论文集,第162卷(2022年),PMLR),5324-5342
[41] 佩德雷戈萨,F。;瓦罗佐,G。;Gramfort,A。;米歇尔,V。;蒂里昂,B。;O.格栅。;布隆德尔,M。;普雷滕霍弗,P。;韦斯,R。;Dubourg,V.公司。;范德普拉斯,J。;帕索斯,A。;库纳波,D。;布鲁彻,M。;佩罗,M。;Duchesnay,E.,Scikit-learn:Python中的机器学习,J.Mach。学习。第12号决议,2825-2830(2011年)·Zbl 1280.68189号
[42] 吉多蒂,R。;Monreale,A。;Giannotti,F。;佩德莱斯基,D。;Ruggieri,S。;Turini,F.,《黑箱决策的事实和反事实解释》,IEEE Intell。系统。,34, 6, 14-23 (2019)
[43] Nelder,J.A。;Mead,R.,函数最小化的单纯形方法,计算。J.,7,4,308-313(1965)·Zbl 0229.65053号
[44] 高,F。;Han,L.,用自适应参数实现Nelder-Mead单纯形算法,计算机。最佳方案。申请。,51, 1, 259-277 (2012) ·Zbl 1245.90121号
[45] 维尔塔宁,P。;Gommers,R。;Oliphant,T.E。;哈伯兰,M。;Reddy,T。;库纳波,D。;Burovski,E。;彼得森,P。;Weckesser,W。;Bright,J。;范德沃尔特,S.J。;布雷特,M。;威尔逊,J。;Millman,K.J。;北马约罗夫。;Nelson,A.R.J。;琼斯,E。;科恩,R。;Larson,E。;Carey,C.J。;伊姆兰·波拉特。;Feng,Y。;摩尔,E.W。;范德普拉斯,J。;Laxalde博士。;佩克托尔德,J。;Cimrman,R。;亨利克森,I。;昆特罗,E.A。;哈里斯·C·R。;阿奇博尔德,A.M。;里贝罗,A.H。;佩德雷戈萨,F。;van Mulbregt,P。;SciPy 1.0贡献者,SciPy 1.0:Python中科学计算的基本算法,Nat.Methods,17,261-272(2020)
[46] D’Orazio,M.,混合类型变量的距离,一些修改的Gower系数,arXiv预印本
[47] 卡里米,A.-H。;冯·库格根,J。;Schölkopf,B。;Valera,I.,不完全因果知识下的算法追索:概率方法,arXiv预印本
[48] 卡里米,A.-H。;Schölkopf,B。;Valera,I.,《算法追索:从反事实解释到干预》,(《2021年ACM公平、问责制和透明度会议记录》,《2021年度ACM公平性、问责制和透明会议记录》FAccT’21(2021),计算机械协会:美国纽约州纽约市计算机械协会),353-362
[49] 丹德尔,S。;莫尔纳,C。;粘合剂,M。;Bischl,B.,《多目标反事实解释》,(自然并行问题解决国际会议(2020年),施普林格),448-469
[50] 劳格尔,T。;Lesot,M.-J。;马萨拉,C。;X·雷纳德。;Detyniecki,M.,机器学习中的不合理分类区域和反事实解释,(欧洲机器学习和数据库知识发现联合会议(2019),施普林格),37-54
[51] Pawelczyk,M。;Broelemann,K。;Kasneci,G.,《预测多重性下的反事实解释》,(人工智能不确定性会议(2020),PMLR),809-818
[52] 拉瓦尔,K。;卡马尔,E。;Lakkaraju,H.,《野外算法资源:理解数据和模型变化的影响》,arXiv预印本
[53] Van Looveren,A。;Klaise,J.,原型指导下的可解释反事实解释,arXiv预印本
[54] A.Dhurandhar,P.-Y.Chen,R.Luss,C.-C.Tu,P.Ting,K.Shanmugam,P.Das,《基于缺失的解释:走向与相关否定的对比解释》,载《神经信息处理系统的进展》,第31卷。
[55] Verma,S。;Dickerson,J。;Hines,K.,《机器学习的反事实解释:综述》,arXiv预印本
[56] A.-H.Karimi,G.Barthe,B.Schölkopf,I.Valera,算法资源调查:对比解释和相应建议,ACM计算调查(CSUR)。
[57] Artelt,A。;瓦凯,V。;维洛格鲁,R。;Hinder,F。;布林克罗夫,J。;席林,M。;Hammer,B.,评估反事实解释的稳健性,(IEEE计算智能研讨会系列(2021),IEEE),01-09
[58] Pawelczyk,M。;阿加瓦尔,C。;Joshi,S。;Upadhyay,S。;Lakkaraju,H.,通过对抗性例子探索反事实解释:理论和实证分析,arXiv预印本
[59] 芭蕾舞,V。;X·雷纳德。;艾格林,J。;劳格尔,T。;弗洛萨德,P。;Detyniecki,M.,对表格数据的不可感知的对抗性攻击,arXiv预印本
[60] Freiesleben,T.,《反事实解释与对抗性示例之间的有趣关系》,Minds Mach。,1-33 (2021)
[61] A.Ferrario,M.Loi,《反事实解释随时间推移的稳健性》,IEEE Access。
[62] 费拉里奥,A。;Loi,M.,《一系列不幸的反事实事件:时间在反事实解释中的作用》,arXiv预印本
[63] Mochaourab,R。;辛哈,S。;格林斯坦,S。;Pappetrou,P.,《隐私保护SVM的稳健反事实解释》,(机器学习国际会议(ICML 2021),社会责任机器学习研讨会(2021))
[64] 里贝罗,M.T。;辛格,S。;Guestrin Anchors,C.,高精度模型不可知解释,(AAAI人工智能会议记录,第32卷(2018))
[65] X.Zhang,A.Solar-Lezama,R.Singh,《通过最小、稳定和符号修正解释神经网络判断》,载《神经信息处理系统进展》,第31卷。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。