研究论文

基于梯度的表示解释模型去偏

作者:

Caleb Chen先生曹、和

雷陈作者信息和声明

AIES’23：2023年AAAI/ACM人工智能、道德和社会会议记录

2023年8月

页193-204

https://doi.org/10.1145/3600211.3604668

出版:2023年8月29日出版历史

获取访问权限

摘要

机器学习系统对某些人口群体产生了偏见结果，称为公平问题。最近解决这一问题的方法通过分离表征学习学习潜在代码（即表征），然后丢弃与敏感属性（如性别）相关的潜在代码维度。然而，这些方法在处理真实数据（尤其是非结构化数据）时可能会受到不完全分离和忽略代理属性（敏感属性的代理）的影响，从而导致公平性性能下降和下游任务的有用信息丢失。在本文中，我们提出了一种新的公平性框架，该框架对敏感属性和代理属性都执行debiasing，从而提高下游任务模型的预测性能，而不会完全分离。其主要思想是，首先，利用基于梯度的解释来找到两个模型焦点，1）一个焦点用于预测敏感属性，2）另一个焦点用来预测下游任务标签，其次，使用它们来干扰引导下游任务模型训练朝向公平和效用目标的潜在代码。我们的经验表明，我们的框架可以与非纠缠和非纠缠表示学习方法一起工作，并且与以前的先进方法相比，在非结构化和结构化数据集上实现了更好的公平性-准确性权衡。

工具书类

[1]

Toon Calders和Sicco Verwer。2010年，三种朴素贝叶斯方法用于无歧视分类。数据挖掘和知识发现21，2（2010），277-292。

[2]

Ricky TQ Chen、Xuechen Li、Roger Grosse和David Duvenaud。2018.变分自动编码器中分离纠缠源。arXiv预印arXiv:1802.04942（2018）。

[3]

Elliot Creager、David Madras、Jörn-Henrik Jacobsen、Marissa Weis、Kevin Swersky、Toniann Pitassi和Richard Zemel。2019.通过解纠缠实现灵活公平的表征学习。在ICML中。PMLR，1436-1445年。

[4]

崔森、潘伟深、张长水和王飞。2021.朝着平衡排名公平性和算法实用性的模型预测事后调整方向发展。第27届ACM SIGKDD会议记录。207–217.

数字图书馆

[5]

亚历山大·达穆尔（Alexander D'Mour）、汉萨·斯里尼瓦桑（Hansa Srinivasan）、詹姆斯·阿特伍德（James Atwood）、帕拉维·巴尔杰卡尔（Pallavi Baljekar）、德斯卡利（D Sculley）和尤尼·哈尔珀。2020年。公平并非一成不变：通过模拟研究加深对长期公平的理解。《2020年公平、问责制和透明度会议记录》。525–534.

数字图书馆

[6]

Julia Dressel和Hany Farid，2018年。预测累犯的准确性、公平性和限度。科学进展4，1（2018），eaao5580。

[7]

辛西娅·德沃克（Cynthia Dwork）、莫里茨·哈德（Moritz Hardt）、托尼安·皮塔西（Toniann Pitassi）、奥马尔·莱因戈尔德（Omer Reingold）和理查德·泽梅尔（Richard Zemel）。2012.通过意识实现公平。在理论计算机科学会议的第三次创新会议记录中。214–226.

数字图书馆

[8]

雅罗斯拉夫·加宁（Yaroslav Ganin）、叶夫根尼亚·乌斯蒂诺娃（Evgeniya Ustinova）、哈娜·阿贾坎（Hana Ajakan）、帕斯卡·日尔曼（Pascal Germain）、雨果·拉罗谢尔（Hugo Larochelle）、弗朗索瓦·拉维奥莱特（François。2016年，神经网络领域培训。机器学习研究杂志17，1（2016），2096–2030。

[9]

U大吃一惊。2019.南德信贷数据：修正广泛使用的数据集。数学代表。，物理学。化学。，德国柏林，技术代表4（2019），2019。

[10]

莫里茨·哈德（Moritz Hardt）、埃里克·普莱斯（Eric Price）和纳蒂·斯雷布罗（Nati Srebro）。2016年，监督学习机会均等。神经信息处理系统进展29（2016），3315–3323。

[11]

伊琳娜·希金斯（Irina Higgins）、洛伊克·马特（Loic Matthey）、阿卡·帕尔（Arka Pal）、克里斯托弗·伯吉斯（Christopher Burgess）、泽维尔·格洛特（Xavier Glrot）、马修·博特维尼克（Matthew Botvinick）、夏基。2017年，beta-vae：学习基本的视觉概念和约束变分框架。ICLR。

[12]

Byungju Kim、Hyunwoo Kim、Kyungsu Kim、Sungjin Kim和Junmo Kim。2019.学会不学习：用有偏差的数据训练深层神经网络。IEEE/CVF计算机视觉和模式识别会议论文集。9012–9020.

[13]

Hyunjik Kim和Andriy Mnih。2018年，通过保理分离。在ICML中。PMLR，2649–2658。

[14]

Diederik P Kingma和Max Welling。2013.自动编码变分贝叶斯。arXiv预印本arXiv:1312.6114（2013）。

[15]

普雷西·拉霍蒂（Preethi Lahoti）、克里希纳·P·古马迪（Krishna P Gummadi）和格哈德·魏库姆（Gerhard Weikum）。2019.ifair：学习用于算法决策的独立公平数据表示。2019年，第35届ICDE）。IEEE，1334–1345。

[16]

普雷西·拉霍蒂（Preethi Lahoti）、克里希纳·P·古马迪（Krishna P Gummadi）和格哈德·魏库姆（Gerhard Weikum）。2019.利用两两公平表示实现个人公平。arXiv预印本arXiv:1907.01439（2019）。

[17]

李小鹏和舍詹姆士。2017.推荐系统的协作变分自动编码器。第23届ACM SIGKDD知识发现和数据挖掘国际会议论文集。305–314.

数字图书馆

[18]

刘紫薇、罗萍、王晓刚和唐晓鸥。2015年，深度学习在野外的人脸属性。在ICCV诉讼程序中。

数字图书馆

[19]

弗朗西斯科·Locatello、加布里埃尔·阿巴蒂、汤姆·雷诺思、斯特凡·鲍尔、伯恩哈德·舍尔科夫和奥利维尔·巴瑟姆。2019.关于不相干陈述的公平性。arXiv预印本arXiv:1905.13662（2019）。

[20]

弗朗西斯科·罗泰洛、斯特凡·鲍尔、马里奥·卢西奇、冈纳·雷奇、西尔万·盖利、伯恩哈德·舍尔科夫和奥利维尔·巴肯。2019.挑战无监督学习非混淆表征的常见假设。在ICML中。PMLR，4114–4124。

[21]

弗兰克·马辛科夫斯基、基蒙·基斯利奇、克里斯托弗·斯塔克和马可·吕尼奇。2020年。高等教育招生中AI（非）公平的含义：感知AI（不）公平对退出、发言权和组织声誉的影响。2020年ACM FAccT会议记录。122–130.

数字图书馆

[22]

普雷克莎·尼玛（Preksha Nema）、亚历山大·卡拉佐格鲁（Alexandros Karatzoglou）和菲利普·拉德林斯基（Filip Radlinski）。2021.与ß-VAE的建议评判分离偏好表示。第30届ACM CIKM会议记录。1356–1365.

数字图书馆

[23]

阿赫拉夫·乌西迪（Achraf Oussidi）和阿泽丁·埃尔哈桑尼（Azeddine Elhassouny）。2018年，深度生成模型：调查。2018年ISCV。IEEE，1-8。

[24]

Sungho Park、Sunhee Hwang、Dohyung Kim和Hyeran Byun。2021.通过Fairness-aware信息对齐学习公平面部属性分类的分离表示法。《AAAI会议录》，第35卷。2403–2411.

[25]

斯蒂芬·普福尔（Stephen Pfohl）、本·马拉菲诺（Ben Marafino）、阿德里安·库莱（Adrien Coulet）、法蒂玛·罗德里格斯（Fatima Rodriguez）、拉塔·帕拉尼亚潘（Latha Palaniappan）和尼格姆·沙阿（Nigam。2019.创建动脉粥样硬化性心血管疾病风险的公平模型。2019年AAAI/ACM人工智能、道德和社会会议记录。271–278.

数字图书馆

[26]

Ramprasaath R Selvaraju、Michael Cogswell、Abhishek Das、Ramakrishna Vedantam、Devi Parikh和Dhruv Batra。2017.Grad-cam：通过基于梯度的本地化从深层网络中进行可视化解释。IEEE计算机视觉国际会议论文集。618–626.

[27]

凯伦·西蒙扬（Karen Simonyan）、安德烈亚·维达尔迪（Andrea Vedaldi）和安德鲁·齐瑟曼（Andrew Zisserman）。2013.深层卷积网络：可视化图像分类模型和显著性图。arXiv预印本arXiv:1312.6034（2013）。

[28]

Daniel Smilkov、Nikhil Thorat、Been Kim、Fernanda Viégas和Martin Wattenberg，2017年。平滑度：通过添加噪波来消除噪波。arXiv预印arXiv:1706.03825（2017）。

[29]

海伦·史密斯。2020.算法偏见：学生应该为此付出代价吗？Ai与社会35，4（2020），1077–1078。

[30]

苏拉杰·斯里尼瓦斯和弗朗索瓦·弗莱特。2019.神经网络可视化的全粒度表示。arXiv预印本arXiv:1905.00780（2019）。

[31]

Chris Sweeney和Maryam Najafian。2020年。使用对抗性学习减少单词嵌入中人口统计属性的情感极性。《2020年公平、问责制和透明度会议记录》。359–368.

数字图书馆

[32]

Sahil Verma和Julia Rubin，2018年。解释了公平性定义。2018年，ieee/acm国际软件公平研讨会（公平软件）。IEEE，1-7。

数字图书馆

[33]

王玉燕、王学智、亚历克斯·伯特尔、弗拉维恩·普罗斯特、吉林·陈和埃德·H·池。2021.理解并改进多任务学习中的公平-准确权衡。arXiv预印arXiv:2106.02705（2021）。

[34]

安燕和比尔·豪。2021.均衡器：学习异质城市数据的公平整合。在2021年国际数据管理会议记录中。2338–2347.

数字图书馆

[35]

Brian Hu Zhang、Blake Lemoine和Margaret Mitchell。2018年。通过对抗性学习缓解不必要的偏见。2018年AAAI/ACM人工智能、道德和社会会议记录。335–340.

数字图书馆

[36]

张汉田（Hantian Zhang）、徐楚（Xu Chu）、阿伯法兹·阿苏德（Abolfazl Asudeh）和沙姆坎特（Shamkant B Navathe）。2021.OmniFair:机器学习中模型-认知组公平性的声明系统。在2021年国际数据管理会议记录中。2076–2088.

数字图书馆

索引术语

基于梯度的表示解释模型去偏
1. 计算方法
  1. 机器学习
    1. 机器学习方法

建议

多标签分类的监督表示学习
摘要
由于多标签数据的复杂性，表示学习是多标签学习的一个重要方面。目前关于表征学习的研究要么没有考虑标签知识，要么受到标签知识的影响。。。
阅读更多信息
可控的通用公平表示学习
WWW’23:2023年ACM网络会议记录

学习可用于各种下游任务（特别是机器学习模型）的公平和可转移的用户表示在公平软件Web服务中具有巨大潜力。现有的研究主要集中在去除水渍。。。
阅读更多信息
少镜头图像分类的双类表示学习
摘要
很少有射击学习（FSL）模型在具有许多训练示例的基类上进行训练，并在具有很少训练示例的新类上进行评估。由于这些模型无法在新的类上进行适当的微调。。。
集锦
- 提出了双类表示学习（DCRL）用于少镜头图像分类。
阅读更多信息

评论

信息和贡献者

问询处

发布于

封面图片ACM会议

AIES’23：2023年AAAI/ACM人工智能、道德和社会会议记录

2023年8月

1026页

十亿英镑：9798400702310

内政部：10.1145/3600211

编辑：
弗朗西丝卡·罗西
国际商用机器公司
,
Sanmay Das公司
乔治梅森大学
,
珍妮·戴维斯
澳大利亚国立大学
,
凯·菲斯·布特菲尔德
值得信赖的技术中心
,
亚历克斯·约翰
伦敦卡内基梅隆大学

版权所有©2023 ACM。

如果复制品不是为了盈利或商业利益而制作或分发的，并且复制品的第一页载有本通知和完整引文，则允许免费制作本作品的全部或部分数字或硬拷贝以供个人或课堂使用。必须尊重作者以外的其他人对本作品组成部分的版权。允许用信用证进行摘要。要以其他方式复制或重新发布，在服务器上发布或重新发布到列表，需要事先获得特定许可和/或付费。从请求权限[电子邮件保护].

赞助商

SIGAI:ACM人工智能特别兴趣小组

出版商

计算机协会

美国纽约州纽约市

出版历史

出版：2023年8月29日

权限

请求对此文章的权限。

检查更新

作者标记

限定符

研究文章
研究
推荐有限公司

会议

AIES’23年

赞助商：

SIGAI公司

AIES’23:AAAI/ACM人工智能、伦理和社会会议

2023年8月8日至10日

蒙特QC{e} 铝，加拿大

接受率

162份提交文件中的61份总体接受率为38%

贡献者

其他指标

查看文章指标

文献计量学和引文

文献计量学

文章指标

0
引文总数
84
总下载次数

下载次数（过去12个月）84
下载次数（最近6周）4

其他指标

查看作者指标

引文

视图选项

获取访问权限

登录选项

检查您是否可以通过登录凭据或您的机构访问本文。

完全访问权限

获取此出版物

视图选项

PDF格式

以PDF文件查看或下载。

电子阅读器

使用联机查看电子阅读器.

电子阅读器

HTML格式格式

在中查看本文HTML格式格式。

媒体

数字

其他

桌子