西蒙·卡顿;马利塞蒂,赛特亚;克里斯蒂安·哈斯 插补策略对机器学习公平性的影响。 (英语) Zbl 07566004号 J.阿蒂夫。智力。研究(JAIR) 74, 1011-1035 (2022). 摘要:机器学习中的公平性和偏差缓解研究通常使用一组参考数据集来设计和评估新的方法或定义。虽然这些数据集结构良好,有助于比较各种方法,但它们并没有反映出实际应用程序中常用的数据集可能缺少值。当遇到这种缺失值时,插补策略的使用很常见。然而,由于插补策略可能会改变数据的分布,因此也可能影响结果预测的性能,并可能影响结果的公平性,这是公平性文献中尚未很好理解的一个主题。在本文中,我们研究了不同的插补策略对分类环境中经典绩效和公平性的影响。我们发现,所选择的插补策略以及包括分类算法类型在内的其他因素可以显著影响性能和公平性结果。实验结果表明,在机器学习中考虑公平性时,插补策略的选择是一个重要因素。我们还为研究人员提供了一些见解和指导,以帮助引导插补方法实现公平。 MSC公司: 68泰克 人工智能 关键词:机器学习;机器学习 软件:Scikit公司;AIF360型 PDF格式BibTeX公司 XML格式引用 \textit{S.Caton}等人,J.Artif。智力。研究(JAIR)74,1011--1035(2022;Zbl 07566004) 全文: 内政部 参考文献: [1] Barenstein,M.(2019)。Propublica的compas数据再次访问。arXiv预印本arXiv:1906.04711。 [2] Barocas,S.、Hardt,M.和Narayanan,A.(2019年)。公平和机器学习。fairmlbook.org。 [3] Bellamy,R.K.、Dey,K.、Hind,M.、Hoffman,S.C.、Houde,S.、Kannan,K.,Lohia,P.、Martino,J.、Mehta,S.和Mojsilovi´C,A.(2019年)。AI Fairness 360:用于检测和缓解算法偏差的可扩展工具包。IBM研究与开发杂志,63(4/5),4-1。 [4] Berk,R.、Heidari,H.、Jabbari,S.、Kearns,M.和Roth,A.(2018年)。刑事司法风险评估的公平性:最新技术。社会学方法与研究,0049124118782533。 [5] Biega,A.J.、Gummadi,K.P.和Weikum,G.(2018年)。关注公平:在排名中摊销个人公平性。第41届国际ACM SIGIR研究会议& [6] Binns,R.(2018)。机器学习中的公平:政治哲学的教训。《公平、问责制和透明度会议》,第149-159页。 [7] Blodgett,S.L.、Barocas,S.、DauméIII,H.和Wallach,H.(2020年)。语言(技术)就是力量:对nlp.arXiv预印本arXiv:2005.14050中“偏见”的批判性调查。 [8] Calmon,F.、Wei,D.、Vinzamuri,B.、Ramamurthy,K.N.和Varshney,K.R.(2017)。优化预处理以防止歧视。神经信息处理系统进展,第3992-4001页。 [9] Caton,S.和Haas,C.(2020年)。机器学习中的公平:一项调查。arXiv预印本arXiv:2010.04053。 [10] Cheema,J.R.(2014)。教育研究中缺失数据处理方法综述。《教育研究评论》,84(4),487-508。出版商:Sage Publications Sage CA:洛杉矶, [11] Chouldechova,A.(2017)。具有不同影响的公平预测:累犯预测工具中偏见的研究。大数据,5(2),153-163。 [12] 欧盟委员会通信网络与技术总干事(2019年)。可信AI的道德准则。出版办公室。 [13] Corbett-Davies,S.和Goel,S.(2018年)。公平的衡量和误判:公平机器学习的批判性评论。arXiv预印本arXiv:1808.00023。 [14] Corbett-Davies,S.、Pierson,E.、Feller,A.、Goel,S.和Huq,A.(2017a)。算法决策和公平成本。第23届ACM SIGKDD知识发现和数据挖掘国际会议论文集,第797-806页。 [15] Corbett-Davies,S.、Pierson,E.、Feller,A.、Goel,S.和Huq,A.(2017b)。算法决策和公平成本。第23届ACM SIGKDD知识发现和数据挖掘国际会议论文集,第797-806页,美国纽约州纽约市, [16] Dignum,V.(2021)。完全AI-Fairness的神话。在医学人工智能国际会议上,第3-8页。斯普林格。 [17] Donders,A.R.T.、Van Der Heijden,G.J.、Stijnen,T.和Moons,K.G.(2006)。介绍缺失值的插补。临床流行病学杂志,59(10),1087-1091。出版商:爱思唯尔。 [18] du Pin Calmon,F.、Wei,D.、Vinzamuri,B.、Ramamurthy,K.N.和Varshney,K.R.(2018)。防止歧视的数据预处理:信息论优化和分析。IEEE信号处理选定主题杂志,12(5),1106-1119。 [19] Dwork,C.、Hardt,M.、Pitassi,T.、Reingold,O.和Zemel,R.(2012年)。通过意识实现公平。《第三届理论计算机科学创新会议论文集》,第214-226页。ACM公司·Zbl 1348.91230号 [20] Edelman,B.、Luca,M.和Svirsky,D.(2017年)。共享经济中的种族歧视:来自实地实验的证据。美国经济杂志:应用经济学,9(2), [21] Farhangfar,A.、Kurgan,L.和Dy,J.(2008)。缺失值插补对离散数据分类误差的影响。模式识别,41(12),3692-3705。出版商:爱思唯尔·Zbl 1173.68479号 [22] Feldman,M.、Friedler,S.A.、Moeller,J.、Scheidegger,C.和Venkatasubramanian,S.(2015)。认证并消除不同的影响。第21届ACM SIGKDD知识发现和数据挖掘国际会议记录,第259-268页。 [23] Fernández-Delgado,M.、Cernadas,E.、Barro,S.和Amorim,D.(2014)。我们需要数百个分类器来解决实际的分类问题吗?。机器学习杂志·Zbl 1319.62005号 [24] Fernando,M.-P.,Cèsar,F.,David,N.,&José,H.-O.(2019年)。公平与缺失价值。arXiv预印本arXiv:1905.12728。 [25] Fernando,M.-P.,Cèsar,F.,David,N.,&José,H.-O.(2021)。错过了缺失的价值观:机器学习中公平的丑小鸭。国际智能系统杂志。 [26] Goodman,B.W.(2016)。(算法)歧视的经济模型。在第29届神经信息处理系统会议上,第6卷。 [27] Haas,C.(2019)。公平性的价格——一个探索算法公平性权衡的框架。第40届国际信息系统会议,ICIS 2019。信息系统协会。 [28] Hardt,M.、Price,E.和Srebro,N.(2016年)。监督学习中的机会均等。《神经信息处理系统进展》,第3315-3323页。 [29] Hardy,S.E.、Allore,H.和Studenski,S.A.(2009年)。缺失数据:老龄化研究中的一个特殊挑战。美国老年医学会杂志,57(4),722-729。出版商:威利在线图书馆。 [30] Hu,L.,&Chen,Y.(2018)。对劳动力市场长期公平的短期干预。《2018年万维网大会论文集》,第1389-1398页。 [31] Hutchinson,B.和Mitchell,M.(2019年)。50年的测试(Un)公平性:机器学习的教训。《公平、问责制和透明度会议记录》,FAT*’19,第49-58页。ACM公司。 [32] Kamishima,T.、Akaho,S.、Asoh,H.和Sakuma,J.(2012)。公平软件分类器与偏见去除正则化。欧洲机器学习和知识联合会议 [33] Kleinberg,J.、Ludwig,J.,Mullainathan,S.和Rambachan,A.(2018年)。算法公平性。InAEA论文与论文集,第108卷,第22-27页。 [34] Lepri,B.、Oliver,N.、Letouzé,E.、Pentland,A.和Vink,P.(2018年)。公平、透明和负责的算法决策过程。哲学与技术,31(4),611-627。 [35] Lepri,B.、Staiano,J.、Sangokoya,D.、Letouzé,E.和Oliver,N.(2017年)。数据的霸权?数据驱动的社会利益决策的光明面和黑暗面。不透明数据 [36] Lipton,Z.、McAuley,J.和Chouldechova,A.(2018年)。缓解ml的影响差异需要治疗差异吗?。神经信息处理系统进展31,第8125-8135页。 [37] Lum,K.和Johndrow,J.(2016)。公平预测算法的统计框架。arXiv:1610.08077。 [38] Mair,P.和Wilcox,R.(2020年)。r中使用wrs2包的稳健统计方法。行为研究方法,52(2),464-488。 [39] Mehrabi,N.、Morstatter,F.、Saxena,N.,Lerman,K.和Galstyan,A.(2021)。机器学习中的偏见和公平性调查。ACM计算调查(CSUR),54(6),1-35。 [40] Mitchell,S.、Potash,E.、Barocas,S.,D'Amour,A.和Lum,K.(2018年)。基于预测的决策和公平:选择、假设和定义目录。arXiv预印本arXiv:1811.07867。 [41] Myrtveit,I.、Stensrud,E.和Olsson,U.H.(2001)。分析缺失数据的数据集:插补方法和基于相似性的方法的实证评估。IEEE软件工程学报,27(11),999-1013。 [42] Noriega Campero,A.、Garcia Bulle,B.、Cantu,L.F.、Bakker,M.A.、Tejerina,L.和Pentland,A.(2020)。社会政策的算法目标:公平、准确和分布式治理。 [43] 佩德雷戈萨(Pedregosa,F.)、瓦罗佐(Varoqueux,G.)、格拉姆福特(Gramfort,A.)、米歇尔(Michel,V.)、提里昂(Thirion,B。Scikit学习:python中的机器学习。·Zbl 1280.68189号 [44] Pedreshi,D.、Ruggieri,S.和Turini,F.(2008)。鉴别软件数据挖掘。第14届ACM SIGKDD知识发现和数据挖掘国际会议论文集,第560-568页。ACM公司。 [45] Pleiss,G.、Raghavan,M.、Wu,F.、Kleinberg,J.和Weinberger,K.Q.(2017年)。关于公平性和校准。《神经信息处理系统进展》,第5680-5689页。 [46] Romei,A.和Ruggieri,S.(2014)。关于歧视分析的多学科调查。《知识工程评论》,29(5),582-638。 [47] Sinharay,S.、Stern,H.S.和Russell,D.(2001)。使用多重插补分析缺失数据。。《心理学方法》,6(4),317-329。 [48] Skirpan,M.和Gorelick,M.(2017年)。机器学习中“公平”的权威。arXiv:1706.09976。 [49] Sokolovska,A.和Kocarev,L.(2018)。整合隐私的技术和法律概念。IEEE接入,626543-26557。 [50] Soley-Bori,M.(2013)。处理缺失数据:应用分析的关键假设和方法。波士顿大学技术代表。 [51] Song,Q.和Shepperd,M.(2007)。缺失数据插补技术。国际商业智能与数据挖掘杂志,2(3),261-291。出版商:Inderscience出版社。 [52] Speicher,T.、Heidari,H.、Grgic-Laca,N.、Gummadi,K.P.、Singla,A.、Weller,A.和Zafar,M.B.(2018年)。量化算法不公平的统一方法:衡量个人和群体 [53] Suresh,H.和Guttag,J.V.(2019年)。理解机器学习意外后果的框架。arXiv预印本arXiv:1901.10002。 [54] Veale,M.和Binns,R.(2017年)。现实世界中更公平的机器学习:在不收集敏感数据的情况下减少歧视。大数据与社会,4(2)。 [55] Veale,M.、Van Kleek,M..和Binns,R.(2018年)。在高风险公共部门决策中,公平性和问责制设计需要算法支持。2018年会议记录 [56] Wang,Y.和Singh,L.(2021)。分析缺失值和选择偏差对公平性的影响。国际数据科学与分析杂志,1-19。 [57] Wayman,J.C.(2003年)。缺失数据的多重插补:它是什么以及我如何使用它。美国教育研究协会年会,伊利诺伊州芝加哥,第2卷,第16页。 [58] Wilcox,R.R.(2017)。稳健估计和假设检验简介。爱思唯尔·Zbl 1362.62003年 [59] Zafar,M.B.、Valera,I.、Rodriguez,M.G.和Gummadi,K.P.(2017)。公平约束:公平分类的机制。arXiv:1507.05259[cs,stat]。arXiv:1507.05259·Zbl 1489.68263号 [60] Zarsky,T.(2016)。算法决策的问题:一个分析路线图,用于检查自动化和不透明决策中的效率和公平性。科学、技术与人类价值,41(1),118-132。 [61] Zemel,R.、Wu,Y.、Swersky,K.、Pitassi,T.和Dwork,C.(2013)。学习公平陈述。在机器学习国际会议上,第325-333页。 [62] Zliobaite,I.(2015)。关于二进制分类中准确性和公平性的关系。arXiv预印本arXiv:1505.05723 此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。