跳到主要内容
10.1145/3461702.3462585acm会议文章/章节视图摘要出版物页面艾伊斯会议记录会议集合
研究论文

机器学习中程序公平特征选择的自动化

出版:2021年7月30日 出版历史
  • 获取引文提醒
  • 摘要

    近年来,机器学习在日常应用中变得越来越普遍。因此,许多研究探讨了在这些申请中针对特定群体或个人的不公平问题。以前关于机器学习中不公平性的许多工作都侧重于结果的公平性,而不是过程的公平性。我们提出了一种基于公平过程(程序公平)和公平结果的特征选择方法。具体来说,我们引入了不公平权重的概念,它表明在测量向模型添加新特征的边际效益时,对不公平与准确性的权重有多大。我们的目标是保持准确性,同时减少六种常见统计定义定义的不公平。我们表明,对于大多数使用的度量和分类器组合,随着不公平权重的增加,这种方法明显减少了不公平性。然而,数据集(4)、不公平度量(6)和分类器(3)的所有组合中的一小部分最初显示出相对较低的不公平性。对于这些特定的组合,不公平性和准确性都不会随着不公平权重的改变而受到影响,这表明除非不公平性也有同等的降低,否则这种方法不会降低准确性。我们还表明,随着不公平权重的增加,该方法为模型选择不公平特征和敏感特征的频率降低。因此,该过程是构建分类器的有效方法,既减少了不公平性,又不太可能在建模过程中包含不公平特征。

    工具书类

    [1]
    安德烈·阿尔特曼(AndréAltmann)、奥利弗·桑德(Oliver Sander)和托马斯·伦高(Thomas Lengauer)。2010.排列重要性:修正的特征重要性度量。生物信息学,第26卷,第10卷(2010年5月),1340--1347。https://doi.org/10.1093/bioinformatics/btq134
    [2]
    Ryan S.J.d Baker和Kalina Yacef。2009年。2009年教育数据挖掘的现状:回顾和未来展望。JEDM文本栏《教育数据挖掘杂志》,第1卷,第1期(2009年10月),第3-17页。https://doi.org/10.5281/zenodo.3554657
    [3]
    Solon Barocas和Andrew D.Selbst。2016年,大数据的不同影响。《加利福尼亚州法律评论》,第104卷,第671页(2016年)。
    [4]
    理查德·伯克(Richard Berk)、霍达·海达里(Hoda Heidari)、沙欣·贾巴里(Shahin Jabbari)、迈克尔·卡恩斯(Michael Kearns)和亚伦·罗斯(Aaron Roth)。2017年,《刑事司法风险评估的公平性:最新进展》,arXiv:1703.09207(2017年5月)。
    [5]
    丹娜·博伊德和凯特·克劳福德。2012.大数据的关键问题。《信息、通信与社会》,第15卷,第5卷(2012年6月),第662--679页。https://doi.org/10.1080/1369118X.2012.678878
    [6]
    利奥·布雷曼(Leo Breiman)。2001年,《随机森林》。机器学习,第45卷,第1期(2001年10月),5-32。https://doi.org/10.1023/A:1010933404324
    [7]
    利奥·布雷曼(Leo Breiman)、杰罗姆·弗里德曼(Jerome Friedman)、查尔斯·斯通(Charles J Stone)和理查德·奥尔森(Richard A Olshen)。1984.分类和回归树。CRC出版社。
    [8]
    Toon Calders和Sicco Verwer。2010年,三种朴素贝叶斯方法用于无差别分类。数据挖掘和知识发现,第21卷,第2卷(2010年9月),277--292。https://doi.org/10.1007/s10618-010-0190-x
    [9]
    弗拉维奥·卡尔蒙(Flavio Calmon)、丹尼斯·韦(Dennis Wei)、巴努基兰·文扎穆里(Bhanukiran Vinzamuri)、卡尔蒂基安·内特桑·拉马穆尔西(Karthikeyan Natesan Ramamurthy)和库什·瓦什尼。2017年,为防止歧视优化预处理。《神经信息处理系统进展》30,I.Guyon、U.V.Luxburg、S.Bengio、H.Wallach、R.Fergus、S.Vishwanathan和R.Garnett(编辑)。柯兰联合公司,3992--4001。
    [10]
    西尔维娅·齐阿帕。2019.路径特定的反事实公平。AAAI人工智能会议记录,第33卷,01(2019年7月),7801-7808。https://doi.org/10.1609/aaai.v33i01.33017801
    [11]
    亚历山大·乔尔德科娃(Alexandra Chouldechova)。2017年,具有不同影响的公平预测:累犯预测工具中的偏见研究。《大数据》,第5卷,第2卷(2017年6月),第153-163页。https://doi.org/10.1089/big.2016.0047
    [12]
    雅各布·科恩。1960年,《名义尺度的一致系数》,雅各布·科恩,1960年。《教育与心理测量》,第20卷,第1期(1960年4月),第37-46页。https://doi.org/10.1177/001316446002000104
    [13]
    Irina Cojuharenco和David Patient。2013.工作场所公平与不公平:考察组织公平各方面的差异显著性。《职业与组织心理学杂志》,第86卷,第3期(2013年),第371-393页。https://doi.org/10.1111/joop.12023
    [14]
    保罗·科尔特斯和爱丽丝·席尔瓦。2008年。使用数据挖掘预测中学生的表现。第五届未来商业技术会议论文集(FUBUTEC 2008)。5--12.
    [15]
    辛西娅·德沃克(Cynthia Dwork)、莫里茨·哈德(Moritz Hardt)、托尼安·皮塔西(Toniann Pitassi)、奥马尔·莱因戈尔德(Omer Reingold)和理查德·泽梅尔。2012.通过意识实现公平。《第三届理论计算机科学创新会议论文集》(ITCS’12)。美国纽约州纽约市计算机协会,214--226。https://doi.org/10.1145/20902236.2090255
    [16]
    克里斯蒂安·菲舍尔(Christian Fischer)、扎卡里·帕尔多斯(Zachary A.Pardos)、瑞安·肖恩·贝克(Ryan Shaun Baker)、约瑟夫·杰伊·威廉姆斯(Joseph Jay Williams)、帕德拉克·史密斯(Padhrac Smyth)、余仁哲(Renzhe Yu)、。2020年,在教育中挖掘大数据:负担和挑战。《教育研究综述》,第44卷,第1期(2020年3月),第130-160页。https://doi.org/10.102/0091732X20903304
    [17]
    本杰明·费什(Benjamin Fish)、杰里米·昆(Jeremy Kun)和阿尔达姆·d·勒克斯(Al dám d.Lelkes)。2016年,平衡公平性和准确性的基于可信度的方法。2016年SIAM数据挖掘国际会议论文集。https://doi.org/10.1137/1.9781611974348.17
    [18]
    Sorelle A.Friedler、Carlos Scheidger、Suresh Venkatasubramanian、Sonam Choudhary、Evan P.Hamilton和Derek Roth。2019.机器学习中公平激励干预的比较研究。《公平、问责制和透明度会议记录》(FAT*’19)。美国纽约州纽约市计算机协会,329--338。https://doi.org/10.1145/3287560.3287589
    [19]
    杰罗姆·弗里德曼(Jerome H.Friedman)。1997.关于偏差、方差、0/1损失和维数的诅咒。《数据挖掘与知识发现》,第1卷,第1期(1997年3月),第55-77页。https://doi.org/10.1023/A:1009778005914
    [20]
    Pratik Gajane和Mykola Pechenizkiy。2018年,关于用机器学习将预测中的公平性形式化。arXiv:1710.03184(2018年5月)。http://arxiv.org/abs/1710.03184arXiv:1710.03184。
    [21]
    乔什·加德纳、克里斯托弗·布鲁克斯和瑞安·贝克。2019.通过切片分析评估预测学生模型的公平性。第九届学习分析与知识国际会议论文集(LAK19)。美国纽约州纽约市计算机协会,225-234。https://doi.org/10.1145/3303772.3303791
    [22]
    穆罕默德·比拉尔·扎法尔(Muhammad Bilal Zafar)、克里希纳·P·古马迪(Krishna P.Gummadi)和阿德里安·韦勒(Adrian Weller)。2018.超越算法决策中的分配公平性:程序公平学习的特征选择。在第三十二届AAAI人工智能会议上。
    [23]
    莫里茨·哈德、埃里克·普莱斯、埃里克普莱斯和纳蒂·斯雷布罗。2016年,监督学习机会均等。NIPS’16:第30届神经信息处理系统国际会议论文集。3323--3331. https://doi.org/10.5555/3157382.3157469
    [24]
    萨迪克·侯赛因(Sadiq Hussain)、尼玛·阿卜杜拉齐兹·达汉(Neama Abdulaziz Dahan)、法德尔·巴·阿尔维(Fadl Ba-Alwib)和里巴塔·纳朱亚(Ribata Najoua)。2018年,利用WEKA对学生的学习成绩进行教育数据挖掘和分析。《印尼电气工程与计算机科学杂志》,第9卷,第2期(2018年2月),447-459。https://doi.org/10.11591/ijeecs.v9.i2.pp447-459
    [25]
    本·哈钦森和玛格丽特·米切尔。2019.50年的测试(un)公平:机器学习的教训。《公平、问责制和透明度会议记录》(FAT*’19)。美国纽约州纽约市计算机协会,49-58。https://doi.org/10.1145/3287560.3287600
    [26]
    拉兹洛·杰尼(LászlóA.Jeni)、杰弗里·科恩(Jeffrey F.Cohn)和费尔南多·德拉托雷(Fernando De La Torre)。2013年,面对不平衡的数据——建议使用绩效指标。2013年Humaine协会情感计算和智能交互会议。245--251. https://doi.org/10.109/ACII.2013.47
    [27]
    Eun Seo Jo和Timnit Gebru。2020.档案的教训:机器学习中收集社会文化数据的策略。《2020年公平、问责制和透明度会议记录》(FAT*'20)。美国纽约州纽约市计算机协会,306--316。https://doi.org/10.1145/3351095.3372829
    [28]
    费萨尔·卡米兰(Faisal Kamiran)和图恩·卡尔德斯(Toon Calders)。2012.无差别分类的数据预处理技术。《知识与信息系统》,第33卷,第1期(2012年10月),1-33。https://doi.org/10.1007/s10115-011-0463-8
    [29]
    Toshihiro Kamishima、Shotaro Akaho、Hideki Asoh和Jun Sakuma。2012年。公平软件分类器与偏见去除正则化。在数据库中的机器学习和知识发现(计算机科学讲义,第7524卷)中,Peter A.Flach、Tijl De Bie和Nello Cristianini(编辑)。施普林格,柏林,海德堡,35-50岁。https://doi.org/10.1007/978-3-642-33486-3_3
    [30]
    Jon Kleinberg、Sendhil Mullainathan和Manish Raghavan。2016年,公平确定风险评分的内在权衡。arXiv:1609.05807(2016年11月)。
    [31]
    罗恩·科哈维。1996年,《提升天真分类器的准确性:决策树的混合》,《第二届知识发现和数据挖掘国际会议论文集》(Proceedings of the Second International Conference on Knowledge Discovery and Data Mining)。AAAI出版社,202-207。
    [32]
    爱德华·伊戈尔·科诺连科?imec和Marko Robnik-?伊科尼亚。1997年。用RELIEFF克服归纳学习算法的短视。《应用情报》,第7卷,第1期(1997年1月),第39-55页。https://doi.org/10.1023/A:1008280620621
    [33]
    Matt J Kusner、Joshua Loftus、Chris Russell和Ricardo Silva。2017.反事实公平。《神经信息处理系统进展》30,I.Guyon、U.V.Luxburg、S.Bengio、H.Wallach、R.Fergus、S.Vishwanathan和R.Garnett(编辑)。Curran Associates公司,4066-4076。
    [34]
    Lydia T.Liu、Sarah Dean、Esther Rolf、Max Simchowitz和Moritz Hardt。2019.公平机器学习的延迟影响。第二十八届国际人工智能联合会议论文集。国际人工智能组织联合会议,中国澳门,6196-6200。https://doi.org/10.24963/ijcai.2019/862
    [35]
    杰林·奥坎波(Jaclyn Ocumpaugh)、瑞恩·贝克(Ryan Baker)、苏吉斯·戈达(Sujith Gowda)、尼尔·赫夫南(Neil Heffernan)和克里斯蒂娜·赫夫南。2014.教育数据挖掘模型的人口有效性:情感检测案例研究。《英国教育技术杂志》,第45卷,第3期(2014年5月),487-501。https://doi.org/10.1111/bjet.12156
    [36]
    凯西·奥尼尔。2016年,《数学毁灭性武器:大数据如何加剧不平等并威胁民主》第1版)。纽约州纽约市皇冠出版社。
    [37]
    杰森·奥斯本(Jason W.Osborne)。2001.测试刻板印象威胁:焦虑能解释种族和性别在成就上的差异吗?《当代教育心理学》,第26卷,第3期(2001年7月),第291-310页。https://doi.org/
    [38]
    费比安·佩德雷戈萨(Fabian Pedregosa)、加尔·瓦洛奎(Gaöl Varoqueux)、亚历山大·格兰福特(Alexandre Gramfort)、文森特·米歇尔(Vincent Michel)、伯特兰·蒂里昂(Bertrand Thirion)、奥利维尔·格里塞尔(Olivier Grisel)、马蒂厄·布隆德尔(Mathieu Blondel)、彼得·普雷滕霍弗(Peter Prettenhofer)、罗恩·维斯(Ron Weiss)、文。2011.Scikit-learn:Python中的机器学习。《机器学习研究杂志》,第12卷,第85卷(2011年),第2825-2830页。
    [39]
    塞巴斯蒂安·拉施卡。2018年MLxtend:提供机器学习和数据科学实用程序以及对Python科学计算堆栈的扩展。《开源软件杂志》,第3卷,第24期(2018年4月),第638页。https://doi.org/10.21105/joss.00638
    [40]
    Payam Refaeilzadeh公司。2007年。关于特征选择算法的比较。在第二十届AAAI人工智能会议(AAAI-07)研讨会计划中。6
    [41]
    黛博帕姆·桑亚尔(Debopam Sanyal)、奈杰尔·博世(Nigel Bosch)和吕克·帕奎特(Luc Paquette)。2020年。特征选择指标:所选模型的相似性、差异性和特征。第十三届国际教育数据挖掘会议(EDM 2020)。212--223.
    [42]
    罗伯特·谢弗(Robert L.Schaefer)。1986.当数据共线时,逻辑回归中的替代估计。统计计算与模拟杂志,第25卷,1-2(1986年8月),75-91。https://doi.org/101080/00949658608810925
    [43]
    Robert Tibshirani。1996.通过套索回归收缩和选择。《皇家统计学会杂志:B辑(方法学)》,第58卷,第1期(1996年),第267-288页。https://doi.org/10.1111/j.2517--6161.1996.tb02080.x
    [44]
    G.V.行李箱。1979.维度问题:一个简单的例子。IEEE模式分析和机器智能汇刊,第PAMI-1卷,第3期(1979年7月),第306-307页。https://doi.org/10.109/TPAMI.1979.4766926会议名称:IEEE模式分析和机器智能汇刊。
    [45]
    伯克·乌斯顿(Berk Ustun)、杨柳(Yang Liu)和大卫·帕克斯(David Parkes)。2019.公平而无害:具有优惠保障的分离分类器。在机器学习国际会议上。PMLR,6373--6382。
    [46]
    Muhammad Bilal Zafar、Isabel Valera、Manuel Gomez Rodriguez和Krishna P.Gummadi。2017年,超越不同对待和不同影响的公平性:学习分类没有不同虐待。第26届万维网国际会议记录(2017年4月),1171-1180。https://doi.org/10.1145/3038912.3052660

    引用人

    查看全部
    • (2024)公平特征选择:因果视角ACM数据知识发现事务10.1145/364389018:7(1-23)在线发布日期:2024年6月19日
    • (2024)课堂环境中的层次依赖影响算法偏差度量第14届学习分析与知识会议记录10.1145/3636555.3636869(210-218)在线发布日期:2024年3月18日
    • (2024)用于公平不公平性研究的合成数据集生成第14届学习分析与知识会议记录10.1145/3636555.3636868(200-209)在线发布日期:2024年3月18日
    • 显示更多引用者

    索引术语

    1. 机器学习中程序公平特征选择的自动化

      建议

      评论

      信息和贡献者

      问询处

      发布于

      封面图片ACM会议
      AIES’21:2021年AAAI/ACM人工智能、道德和社会会议记录
      2021年7月
      1077页
      国际标准图书编号:9781450384735
      DOI(操作界面):10.1145/3461702
      如果复制品不是为了盈利或商业利益而制作或分发的,并且复制品的第一页载有本通知和完整引文,则允许免费制作本作品的全部或部分数字或硬拷贝以供个人或课堂使用。必须尊重ACM以外的其他人对本作品组成部分的版权。允许用信用证进行摘要。要以其他方式复制或重新发布,在服务器上发布或重新发布到列表,需要事先获得特定许可和/或付费。从请求权限[电子邮件保护]

      赞助商

      出版商

      计算机协会

      美国纽约州纽约市

      出版历史

      出版:2021年7月30日

      权限

      请求对此文章的权限。

      检查更新

      作者标记

      1. 偏差
      2. 公平
      3. 特征选择
      4. 机器学习

      限定符

      • 研究文章

      会议

      AIES’21
      赞助商:
      AIES’21:AAAI/ACM人工智能、道德和社会会议
      2021年5月19日至21日
      虚拟活动,美国

      接受率

      162份提交文件中的61份总体接受率为38%

      贡献者

      其他指标

      文献计量学和引文

      文献计量学

      文章指标

      • 下载次数(过去12个月)88
      • 下载量(最近6周)10

      其他指标

      引文

      引用人

      查看全部
      • (2024)公平特征选择:因果视角ACM数据知识发现事务10.1145/364389018:7(1-23)在线发布日期:2024年6月19日
      • (2024)课堂环境中的层次依赖性影响算法偏差度量第14届学习分析与知识会议记录10.1145/3636555.3636869(210-218)在线发布日期:2024年3月18日
      • (2024)用于公平不公平性研究的合成数据集生成第14届学习分析与知识会议记录10.1145/3636555.3636868(200-209)在线发布日期:24年3月18日
      • (2024)通过距离相关最小化学习公平表示IEEE神经网络和学习系统汇刊10.1109/TNNLS.2022.318716535:2(2139-2152)网上发布日期:2024年2月
      • (2023)面向操作管道软件ML公平性:开发实用指南和工具的研究议程第三届ACM算法、机制和优化公平与准入会议记录10.1145/3617694.3623259(1-11)在线发布日期:2023年10月30日
      • (2023)构建类别信息科学与技术协会杂志10.1002/asi.2464374:6(663-668)在线发布日期:2023年5月3日
      • (2022)算法公平数据集:迄今为止的故事数据挖掘与知识发现2007年10月17日/10618-022-00854-z36:6(2074-2152)在线发布日期:2022年11月1日

      视图选项

      获取访问权限

      登录选项

      完全访问权限

      查看选项

      PDF格式

      以PDF文件查看或下载。

      PDF格式

      电子阅读器

      使用联机查看电子阅读器.

      电子阅读器

      媒体

      数字

      其他

      桌子

      分享

      分享

      共享此出版物链接

      在社交媒体上分享