跳到主要内容
研究论文
开放式访问

通过微聚合进行公平和私有数据预处理

出版:2023年12月9日 出版历史
  • 获取引文警报
  • 摘要

    个人数据的隐私保护和自动决策的公平性是负责任的机器学习的基本要求。两者都可以通过数据预处理来强制执行,并共享一个共同的目标:数据应该对任务保持有用,同时对敏感信息没有信息。隐私和公平之间的内在联系意味着,为保证其中一个目标而进行的修改可能会对另一个目标产生影响,例如,在分类算法中隐藏敏感属性可能会阻止将此类属性作为标准的有偏见的决策规则。这项工作处于算法公平和隐私的交叉点。我们展示了这两个目标是如何兼容的,并且可以同时实现,同时在预测性能方面有一点损失。我们的结果与最先进的公平性校正算法和混合隐私性方法都具有竞争力。在三个广泛使用的基准数据集上进行了实验:成人收入,COMPAS、,德国信贷.

    1简介及相关工作

    对个人数据的隐私保护和自动化决策的公平性是21世纪社会的两个基本要求。这两种理想都有一个共同的要素:需要隐藏或保护可用数据的某些属性。数据的隐藏对象和隐藏原因符合这两个学科之间的本质区别。虽然隐私旨在保护敏感属性(SA)公平性不是由第三方收集(或推断)的,而是努力防止决策机制学习到与这些属性相关的潜在歧视性偏见。在最基本的公平性中,分类算法被拒绝访问要防止歧视的属性。然而,这并不能保证学习到的决策规则不会受到歧视,因为偏见可能不仅存在于删除的属性中,还存在于与之相关的其他一些特征上。
    Fair ML试图纠正这些偏见,以便分类器产生非歧视性决策。Chouldechova和Roth[12]提出ML公平性工作的路线图。它们提供了一个关于公平的已知事实概要,特别是不可能同时平衡所有人的假阳性率、假阴性率和阳性预测值受保护的属性(PA)也就是说,大多数公平性定义彼此不兼容[11].
    这项工作与负责的ML的不同领域有关,如公平聚类、公平分类和隐私保护数据挖掘,如以下段落所述。

    1.1光洁度校正

    分类器的预测公平性可以通过以下一种或多种方法的组合进行调整:预处理培训数据[26,31],正在处理学习算法[1,8,51,53,54],或后处理分类器的预测[28].
    公平性校正预处理由Friedler等人定义。[24]作为一组预处理技术,可以修改输入数据,以便根据这些数据训练的任何分类器都是公平的。预处理与处理内和处理后校正相比有两个明显的优点:
    (1)
    预处理方法与分类器无关,也就是说,无论选择何种分类器,它们都可以工作。相比之下,大多数处理中的方法包括对现有分类器的修改,例如,公平感知对数几率回归(左后) [51]或Naíve Bayes[7]或者添加一个公平规范化术语,这是一种只适用于某些分类器(如LR)的策略[33].
    (2)
    引入的更正是透明的,可由用户审核:可以量化和报告引入数据的更改。
    据Kamiran和Calders称[32],有四种方法可以对数据进行适当调整以实现公平性:抑制某些功能,也称为无知中的公平[25],重新称重功能[35],重新采样数据实例[26,31,43,47]、和按摩可变值[32]例如,通过数据重新标记。据Berk等人。[5]公平性校正的主要问题之一是此类干预导致预测准确性的损失。我们的方法通过按摩保持低精度损失来纠正公平性。标签信息传递创建了合成数据,因此,当与微聚合相结合时,它为数据匿名化提供了有效的隐私保护。

    1.2公平与隐私

    隐私和某些公平性定义(例如,均衡概率)旨在隐藏敏感信息,同时保留与任务输出相关的数据效用[41]. 虽然隐私旨在保护信息不被披露,但公平旨在防止与PA相关的某些分类行为[14]. Ekstrand等人。[20]支持将公平研究纳入提供隐私保护的社会技术系统。A类k个-Hajian等人使用了匿名方法。[27]以公平保护频繁模式。然而,大多数连接隐私和公平的工作都与差异隐私有关。
    差异隐私可能会对性能和公平性产生不同的影响。Bagdasaryan等人。[]表明深度差异私有模型导致的准确性降低不成比例地影响代表人数不足PA团体,不同的隐私放大了模型对最受欢迎团体的偏见。关于公平性,Cummings等人。[13]表明如果人口均等满足\(\varepsilon\)-差分-私有算法,这是由低精度分类器引起的。它们还表明,不可能以非平凡的精度实现精确的公平性,并给出近似的公平边界。Pujol等人。[40]表明使用小\(\varepsilon\)价值观对不同的PA群体也有不同的影响。他们提出了一种改进的拉普拉斯机制,优先考虑正确的阳性分类。这纠正了这种差异,代价是更多的错误分类。
    Foulds等人。[22]定义多属性公平度量,差异公平性灵感来源于\(\varepsilon\)在不同的隐私中,并扩展了“\(80\%\)规则“[4]:为了满足\(\varepsilon\)-差分公平,任意两个PA子群的商正比率(公共关系)应大于\(e^{-\varepsilon}\)且小于\(e^{\varepsilon}\)Jagielski等人。[30]引入后处理方法,私人平分赔率它与PA之间存在差异私有化,以高错误率为代价实现了均等赔率公平。Dwork等人。[18]讨论分类中的公平意味着隐私的条件,以及差异隐私与公平的关系。Xu等人提供了微分私人和公平LR的模型。[50].

    1.3捐款

    在本文中,我们将介绍公平-MDAV,一种用于分类任务的公平性校正方法t吨-亲密度和k个-匿名保证。它是一个模块化系统,允许单独或同时增强隐私和公平性,而不会有任何妥协,可以通过保护和纠正参数进行调整。
    针对算法公平性和隐私性的三个常用基准进行了基准测试:成人收入、COMPAS和德国信贷,测试了几个性能指标以及三个公平性指标。公平-MDAV在实施人口均等方面具有竞争力,在公平性/准确性权衡方面优于最先进的均衡赔率方法。这篇文章是立场文件的延伸[45]:公平-MDAV现在允许保护SA的隐私,纠正与SA相关的公平性,或者同时执行这两项操作。这个版本现在允许以两种不同的方式执行公平,即,积极的消极的修正,每一个在回忆精度分别是。
    Ntousi等人。[39]强调需要考虑无监督的情况,特别是对于未标记的数据。While期间公平-MDAV不是一种无监督学习就其本身而言,它利用了MDAV聚类算法[16]并借用了导缆孔从公平聚类的角度[10].

    2背景和定义

    本文的范围介于公平和隐私研究的两个社区之间。我们提供了一个广泛的定义列表,以澄清这两个领域之间的相似性和差异。

    2.1公平性

    以下定义有助于理解群体公平,我们关注的公平性指标系列。
    二进制任务的标签通常可以积极的消极的价值观,指的是结果的可取程度,例如大学入学申请是否成功。数据集的PA公司指由于许多可能的因素而容易受到歧视的特征。在我们的例子中,我们将处理单个二进制PA,例如,每个数据点都属于两个可能的组之一。正实例数与组中实例总数的比率将被称为组的PR。具有最高PR的PA值将被称为偏爱的(F类)组,而另一个将是不利的(U型)小组。
    尽管有许多不同的公平定义[34,36],在这项工作中,我们将重点关注其中两项:人口(或统计)均等,旨在实现结果平等跨组,以及均等赔率这是一个更强大的条件,旨在平衡正确分类的个人之间的PR。
    定义2.1(人口均等)。
    分类器满足人口均等(dPar)如果PA子组被归类为阳性的概率相同:
    \(开始{等式*}\mathbb{P}(\,\hat{Y}=1\mid\mbox{PA}=U\,)=\mathbb{P}(\,\ hat{Y}=1\mind\mbax{PA}=F\,)。\结束{方程式*}\)
    定义2.2(均衡概率)。
    分类器满足均等赔率如果PA子组中正确分类的概率相同:
    \(开始{方程式*}\mathbb{P}(\,\hat{Y}=i\midY=i,\,\mbox{PA}=U\,)=\mathbb{P}(\,\ hat{Y}=i\ midY=i,\、\mbox{PA}=F\,)\text{表示\lbrace 0,1\rbrace中的}i\。\结束{方程式*}\)
    由于这些平等很少成立,它们可能被认为是群体之间的差异,对于特定的公平定义来说,较小的差异更可取。因此,在本文中,我们使用以下分数:
    定义2.3(人口均等得分)。
    这个人口均等得分分类器的(dPar)\({Y}\)
    \(开始{等式}\mbox{dPar}(\hat{Y}):=\left|\mathbb{P}(\,\hat{Y}=1\mid\mbox{PA}=U\,)-\mathbb{P}(\,\ hat{Y}=1\mid\mbax{PA}=F\,)\right|。\结束{方程式}\)
    (1)
    定义2.4(均衡奇数得分)。
    这个均等赔率得分分类器的(eOdds)\({Y}\)
    \(开始{等式}\mbox{eOdds}(\hat{Y}):=\sum_{i\in\lbrace 0,1\rbrace}\left|\mathbb{P}(\,\hat}Y}=i\mid Y=i,\,\mbox{PA}=U\,)-\mathbb{P}(\,\ hat{Y}=i\ mid Y=i,\。\结束{方程式}\)
    (2)
    这个导缆孔概念,借用自公平聚类,定义如下:
    定义2.5(Fairlet)。
    给定数据集D类二进制PA取值F类U型,一个\((m,n)\)-导缆孔属于D类定义为的子集D类具有实例,以便\(\mbox{PA}=U\)n个实例,以便\(\mbox{PA}=F\).
    在集群环境中[2,10],球道用于获得公平集群即PA分布与整个数据集相似的集群。在我们的例子中,fairlets的目的是本地纠正公平性并匿名化数据。

    2.2隐私

    以下定义是本文中使用的隐私保护数据发布的基本定义。
    删除所有标识符从一个数据库,如社会保险号码或姓名,并不能保护个人的重新身份。它们可能仍然链接到属性值的唯一组合SA在数据挖掘过程中揭示。隐私保护数据挖掘的两个主要模型是k个-匿名性及其增强功能,例如。,t吨-亲密度和差异隐私。在萨拉斯和多明戈费勒的大数据背景下,讨论了这两个模型之间的差异和相互作用[44].
    机密或SA是包含个人敏感信息的属性,例如工资、医疗条件、宗教信仰等准标识符(合格中介机构)是属性,因此可以使用其值的唯一组合来挑选个人进行重新标识。在我们的设置中,数据特征可以在SA和QI中分开,SA由PA和标签组成。在[49]Latanya Sweeney表示,通过使用性别、出生日期和邮政编码作为QI,可以识别\(87\%\)在美国的个人。
    为了防止再次识别,k个-匿名是在Samarati中定义的[48]斯威尼[49]如下所示。
    定义2.6(k个-匿名)数据集是k个-如果每条记录与至少另一条记录无法区分,则为匿名\(k-1)当考虑其QI值时,数据集中的记录。
    有几种方法可以获得k个-匿名数据集,例如微聚集、概括或抑制;公平-MDAV基于微聚集。
    定义2.7(微聚合)微聚合是用于统计披露控制的一系列掩蔽方法,通过组合记录以形成大小至少为k的组,在具有n个记录的数据集中获取微聚合。对于每个属性,聚合值(通常为平均值)计算每个组的,并用于替换每个原始值。
    定义2.7(微聚集)微聚集是一系列用于统计披露控制的掩蔽方法,用于在具有n个记录,通过组合这些记录来形成大小至少为k个。对于每个属性,将计算每个组的聚合值(通常是平均值),并用于替换每个原始值。
    定义2.8(k个-组)我们定义一个k个-组作为组k个用于微聚集的元素。
    定义2.9(信息损失)我们将数据集D上微聚集过程的信息损失定义为组内平方和平均误差的平方根,即。,。
    定义2.9(信息损失)我们定义了数据集上微聚集过程的信息损失D类作为组内平方和误差平均值的平方根,即。,
    \(begin{equation}\box{Information Loss}=\sqrt{\frac{1}{|D|}\sum_{j=1}^{n_g}\sum_{i=1}^{n_j}D(x_{ij},\bar{x} _j(_j))^2} ,\结束{方程式}\)
    (3)
    哪里d日是欧几里得距离,\(x{ij}\)表示记录组的j个,\(\bar{x} _j(_j)\)是组的平均记录j个,\(n_g\)是数据集中的组数\(n_j\)是组中元素的数量j个.
    最佳k个-微聚集过程的分区是使组内同质性最大化的分区,也就是使信息损失最小化的分区。通过设计,k个-匿名性保证个人记录的链接概率低于\(1/k\)也就是说,一个知道其某些特征的对手无法在一组k个类似记录。但是,如果未经修改k个-组可用于推断个人的SA值,即使无法重新识别。
    例如,如果k个-组是相同的,对手可以使用他们对记录的了解将其与k个-分组并学习记录的SA。防止属性从泄漏到k个-匿名,t吨-紧密度[38]定义如下:
    定义2.10(t吨-紧密度)Ak个-匿名数据集D类满足t吨-亲密度,如果它k个-群体满足t吨-亲密度。数据集的一组记录满足t吨-如果组中个人的SA分布与整个表中SA分布之间的距离不大于阈值,则为接近度t吨.
    背后的理由t吨-亲密度是指通过在k个-与整个数据集上的分布类似的组,即使知道k个-记录所属的组。
    在我们的案例中,我们认为有利和不利属性(SA)在k个-组与它在整个数据集中的比例相似。这与导缆孔的概念一致(定义2.5).
    差异隐私不能用于公平性校正预处理。最广泛使用的隐私保护方法是差异隐私[19]. 它的承诺是,在数据库中包含或排除个人记录不会显著影响学习算法的输出,因此,无论个人的记录属于数据集,都可以对其进行相同的推断。如此强大的隐私保障在准确性上付出了巨大代价,因为在隐私和实用性之间不可避免地存在权衡。
    更重要的是,差异隐私通常用于交互式设置,在该设置中,查询结果将被返回并添加噪音,以提供差异隐私。因此,差异隐私可能不会用于公平性校正预处理。

    3公平MDAV说明

    公平-MDAV,出现在Algorithm中1,包括三种方法:
    (1)
    给定所需的集群大小k个,制作Fairlets(算法2)对训练集进行聚类D类进入之内G公司,一个集合\((m,n)\)-导缆孔,使导缆孔的要素彼此接近,其中\(m/n\)近似于\(\vert U\vert、/\、\vert F\vert)比例D类尽可能接近\(m+n=k\)集群的形成方式如下:\(\bar{r}\)D类的“平均记录”,即。,
    \(开始{方程式*}\bar{r}:=\frac{1}{\vert D\vert}\sum_{r\在D}r.\end{方程式*1}\)
    制作Fairlets第一个定位\(e ^*\),中最远的元素D类\(\bar{r}\)即。,
    \(D}D(e,\bar{r})中的开始{方程式*}e^*={\arg\max}_{e\,结束{方程式}\)
    哪里d日是欧几里得距离。
    取决于\(\text{PA}(e^*)\),我们定义辅助集\(F_{e^*},U_{e*}\)如下:如果\(e ^*\单位:U),然后\(F_{e^*}\)最近的偏爱的记录到\(e ^*\),同时\(U_{e^*}\子集U\)\(n-1\)最近的不利的记录到\(e ^*\)。否则,如果\(e ^*\在F中),然后采取\(m-1)的记录\(F_{e^*}\)n个的记录\(U_{e^*}\).然后,\(g:=\lbrace e^*\rbrace\cup F_{e^*}\cup U_{e*}\)将是一个\((m,n)\)-导缆孔位置\(F_{e^*}\)\(U_{e^*}\)是最近的吗偏爱的不利的的邻居\(e ^*\)分别是。Fairlet公司附加到G公司(D类的fairlet分区)已从中删除D类制作Fairlets迭代中的其余记录D类直到无法形成更多的小孔,丢弃剩余的记录。
    (2)
    微集料(算法)将原始记录的特征值替换为它们所属的fairlet的相应聚合特征值,例如,替换为平均值。唯一例外的是PA和标签,它们保留了原始值。
    (3)
    正确公平性(算法4)通过根据PA值重新标记其记录,本地纠正每个小集市的公平性,以便\(\box{PR}(U)\ge\tau\cdot\box{PR}(F)\),其中\(\套\)调整引入数据的校正量。通过重新标记负片可以进行公平性校正不利的实例为正(正向修正),或通过重新标记为阳性偏爱的实例为负数(负修正).
    总之,算法1由三部分组成:算法2计算训练集导缆器,算法提供隐私保护和算法4引入公平性修正。

    3.1简化示例

    1例证公平-MDAV应用于包含一个连续特征的7项最小数据集(X(X))二进制PA和标签。在这个特定的示例中,公平-MDAV将数据微观聚合为\((2, 1)\)-导缆孔采用以下方式:
    图1。
    图1.由公平-MDAV,橙色和紫色,具有微聚集特征(\(X_{\\it-ma}}\))和标签纠正积极(PC)和消极(NC)。
    (1)
    的平均值X(X)是8,最远的记录X(X)-8中的值为A类.
    (2)
    A类\(\text{PA}=1\),以完成\((2, 1)\)-fairlet必须添加两条记录:一条带有\(\text{PA}=0\)和一个\(\text{PA}=1\).最接近的有效记录A类B类D类因此,第一个导缆器将是\(\lbrace\texttt{A},\texttt{B},\texttt{D}\rbrace\),图中为橙色1.
    (3)
    删除这三条记录后,重复该过程。第二个导缆孔变为\(\lbrace\texttt{C},\texttt{E},\texttt{F}\rbrace\),紫色。
    (4)
    由于构建\((2, 1)\)-导缆器,只剩下一个元件,它被丢弃(G公司).
    (5)
    一旦导缆孔分组,PA可能会得到正修正(PC)或负修正(NC)。对于橙色导流罩,其未修正的PR为0不利的元素和0.5偏爱的元素。使用PC时,请记录\(\texttt{B}\)的标签从0更改为1,将不利记录的PR从0增加到1。相反,当应用NC时,记录\(\texttt{A}\)\(\texttt{C}\)从1重新标记为0,这会将首选记录的PR从1更改为0。另一方面,紫色球道不需要修正,因为不利的PR已经大于有利的PR。
    假设\(τ=1),PC和NC列分别显示正向和负向公平性校正重新标记,这些重新标记是以公平方式执行的。对于PC,条目带有\(\text{PA}=0\)\(\text{label}=0\)重新标记为1,只要\(\text{PA}=1\)具有\(\text{label}=1\)高于\(\text{PA}=0\)具有\(\text{label}=1\)对于NC,它是\(\text{PA}=1\)具有\(\text{label}=1\)只要相同的条件保持不变,这些条目就会重新标记为0。

    4实验

    我们的实验是在隐私和公平文献中常用作基准的三个数据集上进行的:成人收入(收入)[17],COMPAS公司[37]、和德国信贷(信贷)[17],如下和表中所述1.
    表1。
    数据集SA合格中介机构实例
     PA公司标签  
    收入性别收入超过50000美元1248,842
    COMPAS公司比赛重复的86,907
    信用卡性别偿还贷款201,000
    表1.用于我们实验的数据集
    收入是1994年美国人口普查的一个子集,通常分配给它的任务是预测个人收入是否会超过\({\$}\)鉴于其人口统计数据,每年50000人;它对女性有偏见。COMPAS公司(针对替代制裁的惩教罪犯管理档案)是佛罗里达州布劳沃德县关于前重罪犯获释后两年内再次犯罪的犯罪记录子集;它被证明对黑人重罪犯有偏见。信用卡包含财务和人口统计属性,并将每个人划分为良好或不良信贷风险,即他们是否偿还了贷款。它也对女性有偏见。
    考虑到这些数据集之间实例数量的差异,模式更加清晰收入,而我们的手机上有很多噪音信用卡分析。我们对表中所示参数值的公平性和性能指标进行了详尽评估2.
    表2。
    参数描述
    \(米)\(\lfloor 10i\cdot\frac{|U|}{|D|}+0.5\rfloor\)对于\(i在1点10点)\((m,n)\)-导缆孔尺寸[\(n=10i-m)]
    \(k\)\(10i\)对于\(i在1点10点)\(k\)-组大小
    \(\套\)\(0.1i)对于\(以0\ldots 10\为单位)公平性修正水平
    \({\it-ma}\)正确,错误微聚集
    \({\it-nc}\)正确,错误负向修正
    表2.实验参数值
    对于每个参数组合,五倍交叉验证(个人简历)应用公平-MDAV然后训练几个不同的分类器-LR,随机森林(射频),随机梯度下降(新加坡元)铰链损失和高斯朴素贝叶斯(GNB公司)-过度修改的训练集。公平性和性能指标通过相应的测试集进行评估,结果指标用CV分割的平均值表示\(95\%\)置信区间。我们使用科学知识学习的[15]实现学习相应的分类器。
    我们通过信息损失的微观聚集来衡量聚类的质量(),按属性平均,考虑到每个数据集具有不同数量的属性进行比较。我们将信息丢失结果与MDAV进行了比较[16]是一种基于微聚合的算法(没有公平性保证),它进行了一些修改和改进,例如将其用于动态数据[46]或提高其效率[42].
    2表明MDAV引起的信息丢失低于公平-MDAV因为小游艇比k个-组和组大小(\(m+n\)k个)与信息损失有关,但两种方法之间的差异随着导缆孔尺寸的增加几乎保持不变。在下一节中,我们将展示我们的方法如何在提供良好实用性和隐私的同时纠正组公平性。
    图2。
    图2MDAV和公平-MDAV与上的组大小相关收入,COMPAS、,信用卡.

    4.1公平、隐私和准确性权衡

    模块化公平-MDAV使其隐私和公平校正组件相互独立。尽管如此,分析选择某些参数值对校正有效性的影响还是很有趣的。说明了这一点公平-MDAV无论我们在数据上测试的分类器是什么,都是有效的。
    图3。
    图3.考虑到以下因素,获得公平性/准确性权衡\(τ=0)(无修正)和\(τ=1)(完全校正),固定导缆孔尺寸为10收入,COMPAS、,信用卡.
    它还表明\(\套\)可以忽略不计,而差距急剧缩小到零(用dPar和eOdds测量)。公平MDAV在上述分类器中产生了类似的结果。因此,我们将剩下的分析重点放在LR上,这还允许我们进行比较公平-MDAV与Xu等人。[50]的差异收益率和公平收益率。
    在图中4我们展示了公平性和准确性之间的权衡,测试集CV折叠的平均值。它显示了所有小孔尺寸参数值组合在公平性和准确性上的所有可能权衡(\(n+m\))和更正(\(\套\))如表所示2对于收入数据集。的类似图COMPAS公司信用卡-显示类似行为如图所示11,12,13,14 15,16,17、和18在附录中B类.
    图4。
    图4.微集料的公平性/准确性权衡收入穿过公平-MDAV参数。
    图5。
    图5.获得校正参数的公平性/准确性权衡\(\套\)固定导缆孔尺寸为10收入,COMPAS、,信用卡线表示5次折叠的平均值\(95\%\)置信区间。
    图6。
    图6.精确性和召回率vs.微聚集正负修正实验的平均概率收入.
    图7。
    图7非微集料的公平性/准确性权衡收入穿过公平MDAV参数。
    图8。
    图8.平均值和\(95\%\)每个正修正参数在不进行微聚集的情况下获得的准确性和公平性置信区间\(\套\)固定导缆孔尺寸为10收入,COMPAS、,信用卡.
    图9。
    图9精确性和召回率vs.非微聚集正负修正实验的平均概率收入.
    图10。
    图10.公平性/准确性权衡公平-MDAV与基准数据集上的预处理、内处理和后处理方法进行比较。
    4展示了\(\套\)以导缆孔尺寸衡量的纠正和隐私保证。精度损失的稀疏性主要是由微观聚集来解释的,而集群大小是决定其稀疏性的主要因素:小游艇越大,相对于原始数据集,精确度损失越大。另一方面,公平性修正对准确性损失有轻微影响,而对均衡概率和人口均等得分有较大的下降影响。在图中5,我们显示了固定导缆孔尺寸为10的导缆孔作为以下函数的折衷(及其置信区间)\(\套\)收入,COMPAS公司、和信用卡可以观察到,dPar和eOdds的最佳得分都是针对\(\套\)值接近1。
    在图中6,我们可以看到公平-MDAV总是能提高公平性,然而,根据校正情况,它可能会提高分类器的精确度或召回率。我们认为,负面修正在道德上更难证明是合理的,因为它意味着从有利群体中拿走,而不是补偿不利群体,也就是说,公平是在总体幸福感降低的情况下实现的。

    4.2使用公平-仅用于公平性校正的MDAV

    隐私和公平组件公平-MDAV可以独立应用。在本小节中,我们考虑公平-MDAV作为一种公平性校正算法,没有微聚合提供的额外隐私保障。
    如图所示7,当数据不是微聚合的时,公平性校正和准确性损失密切相关,即较高\(\套\)这些值不仅会改善不利群体的结果,而且会导致所学分类器的性能下降。“最公平”的非微聚合分类器的准确度高于\(84\%\),与微团聚的案例。根据校正和群集类型,\(\套\)0.6到0.8之间的值产生最佳eOdds,而\(τ=1)需要达到最佳人口均等。更大的\(\套\)值导致了公平过度修正,即不利群体的PR变得比有利群体的PR好得多,因此不公平只会以相反的方式发生,即有利群体变得不利和不利。这种行为与微聚集情况形成对比,在这种情况下\(τ=1)为每个集群大小和类型实现尽可能最好的公平性。
    需要更大的\(\套\)强制人口均等的值可以用引入的约束的严重性来解释:而eOdds的真阳性和真阴性通常位于决策边界附近,强制PA组的阳性率可能需要对上述决策边界进行更大的更改。
    在图中8,我们展示了在固定小孔尺寸为10(无需应用微聚集)和正修正参数的情况下获得的准确性和公平性之间的折衷\(\套\)收入,COMPAS公司信用卡可以看出,以下值达到了人口均等的最低分数\(\套\)所有三个数据集都在0.5到0.7之间。可以通过优化程序(例如贝叶斯优化)自动获取任何特定数据集的该值[23]. 请注意,增加\(\套\)在达到最小公平分数后,通过过度补偿不利群体,实际上降低了数据集的公平性。
    9显示了在非微聚集实验中得出的精确度和召回率收入可以看出,公平性修正对准确度和召回率的影响方向相反,正面修正和负面修正的影响程度不同:而正面修正的影响更大\(\套\)-值会导致更差的精确度和更好的回忆分数,对于负修正值会更高\(\套\)-值意味着精度更高,但召回率更差。
    精确性/召回权衡是一个众所周知的现象[6],但在我们的案例中,它是按照方式公平-MDAV纠正了公平性:积极纠正将消极记录重新标记为积极记录,放松了数据实例被归类为积极的限制。这反过来又会导致学习的分类器预测更少的假阴性(提高召回率),但代价是标记更多的假阳性(降低精确度)。负面修正的效果正好相反:被归类为正面的约束更强,因此误报更少(精度更好),但误报更多(召回更差)。由于分类任务可能会发现一个性能指标比另一个更为相关(例如,对于欺诈检测,误报率,即召回率,应尽可能小),因此选择正修正与负修正有助于改进相关性能指标,作为纠正公平性的奖励。

    4.3与现有公平性方法的比较

    在本小节中,我们比较公平-MDAV和其他现有的公平方法,这些方法经过优化,以提高人口奇偶性或均衡概率。我们对公平-MDAV、,帕尔德斯[26],公平分类[52]、和FairLearn阈值优化器[28]在我们研究的所有三个数据集上:收入,COMPAS公司、和信用卡。此外,我们比较公平-MDAV,报告值为收入对于以下算法:PFLR*[50],优先抽样[32],学习公平陈述(LFR)[54],自适应敏感重加权(ASR)[35],阿达法尔[29],烟雾增强剂[9]、和参数化校正[26].

    4.3.1人口奇偶性比较。

    我们对预处理的Pareto前沿进行了比较(帕尔德斯),正在处理(公平分类)、和后处理(FairLearn公司)最先进的方法。
    FairLearn阈值优化器(与许多其他处理中的方法一样)返回一个没有可调整参数的分类器,它不能针对不同的公平性/准确性进行调整。公平-MDAV、,公平分类、和帕尔德斯另一方面,提供了不同的权衡,并且是分类器不可知的。
    结果如图所示10是通过测量人口奇偶比得出的,因为这是衡量公平分类优化。对每种方法的相同折叠进行5次CV;这说明了图中显示的置信区间10。对于每一个实例,公平-MDAV被设置为生产尺寸为10的导缆孔,即。,\(u+f=10\)在所有五种测试方法中,选择LR作为分类算法,因为公平分类是基于它的。
    我们观察到公平-MDAV跑赢大市FairLearn公司也就是说,以类似的精度获得更好的公平比,并且与公平分类如果不进行微观聚合,即不增加隐私,则其表现优于帕尔德斯仅超过收入我们还注意到,微团聚公平-MDAV主要由非微聚集的公平-每个测试数据集上的MDAV。这些结果是意料之中的,因为总是要权衡隐私/准确性。还值得一提的是,这些方法的性能排序在不同的数据集中有所不同,这表明不存在通用最佳方法。
    为不同的隐私定义(即,k个-匿名,t吨-亲密度,以及\(\varepsilon\)-差异隐私)。尽管公平-MDAV和PFLR*针对不同的隐私保障,我们将此比较包括在内,因为这两种方法都位于公平性/隐私交叉点内。学习LR分类器公平-MDAV保护的数据在公平性和准确性方面与PFLR*具有竞争力。然而,PFLR*仅为LR提供不同的隐私,并专门针对提高人口均等进行优化,而公平-MDAV可用于任何分类器和任何公平性度量。担保时t吨-亲密度(\(t=0.05\;k=10\)),公平-MDAV对与PFLR相同的dPar具有更好的精确度*[50]带有\(\varepsilon=10\).PFLR*带\(\varepsilon=0.1)以较高的精度损失为代价获得整体最佳dPar。
    表3。
    算法隐私dPar公司Accu公司
    公平-MDAV公司\(t=0.05\;(k=10)\)0.020.79
    公平-中密度平均值\(t=0.19;(k=20)0.040.79
    公平-MDAV公司\(k=100)0.050.78
    PFLR系列*\(\varepsilon=0.1)00.75
    PFLR系列*\(\varepsilon=1\)0.010.76
    PFLR系列*\(\varepsilon=10\)0.020.76
    表3不同隐私保障的公平性和准确性价值
    4比较dPar和准确度(Accu)得分收入对于公平-MDAV仅用于针对现有公平性校正方法的公平性校正。公平-MDAV的dPar得分略低于帕尔德斯,但它们比PREF更好。然而,这样做的准确性损失更高。
    表4。
    方法Clf公司dPar公司Accu公司
    公平-MDAV公司左后0.010.80
    线性调频[54]左后0.200.68
    公平-MDAV公司数据传输时间0.090.76
    预处理[32]数据传输时间0.030.84
    表4人口奇偶性和准确性比较公平-MDAV及其相关公平性校正方法收入
    通过训练不同的分类算法(Clf),即LR和决策树(数据传输时间). 突出显示每个指标的最佳结果。

    4.3.2均衡赔率比较。

    在表中5,我们观察到公平-MDAV和ASR的eOdds得分最高;然而,公平-MDAV提供了比ASR更好的准确性。
    表5。
    方法Clf公司eOdds(电子奇偶校验码)Accu公司
    公平-MDAV公司左后0.050.85
    ASR公司[35]左后0.050.82
    公平-中密度平均值AB公司0.220.85
    阿达法尔[29]AB公司0.080.83
    SMOTEBOOST公司[9]AB公司0.470.81
    表5均衡概率和精度比较公平-MDAV及其相关公平性校正方法收入
    通过训练不同的分类算法(Clf),即LR和AdaBoost公司(AB公司). 突出显示每个指标的最佳结果。

    5限制

    本研究存在两种局限性:技术规范和法律法规。从技术角度来看,我们的研究集中在群公平性定义上,考虑了二进制PA和标签情况,并在公平-MDAV的集群阶段。这些局限性可以在未来的研究中通过扩展公平-MDAV致力于多类和多类PA和标签,试验不同的距离定义,并分析公平-个人公平定义的MDAV。
    在法律方面,也有一个潜在的问题:标签按摩可能与欧盟一般数据保护条例(GDPR)等立法的准确性原则相冲突[21]. 因此公平-用于纯粹公平校正(不使用隐私组件)的MDAV可能不适合某些任务。尽管如此,匿名数据不属于GDPR的范围,因为它不能与特定个人关联,因此不再被视为个人数据。因此,利用公平-MDAV的隐私组件克服了这些限制。

    6结论

    公平-MDAV是一种模块化、参数化的公平性校正预处理方法,具有隐私保证。公平-MDAV对于组公平性定义和分类算法也是不确定的。其模块化允许使用k个-匿名性和t吨-紧密性保证,然后优化公平分类。通过分别选择消极修正或积极修正,可以进一步优先考虑准确性和召回率。
    我们进行了测试公平-MDAV对三个数据集的有效性(收入,COMPAS公司、和信用卡)使用四个分类器(左后,随机森林,支持向量机、和高斯Naíve Bayes)根据三个表现(准确度、准确度和召回率)和两个公平性(人口均等和均等赔率)得分来衡量。
    公平-MDAV优于现有的公平性校正方法,产生了更好的均衡赔率/准确性权衡,并且在人口统计学平价/准确性权衡方面也具有竞争力。它还为PFLR*获得的相同人口均等分数提供了更好的准确性。

    补充材料

    tkdd-2022-07-0274-文件002 (tkdd-2022-07-0274-file002.zip)
    补充材料

    A在线资源

    A.1代码可用性

    公平-MDAV以以下形式提供朱庇特笔记本位于https://github.com/vladoxNCL/fairMDAVplus.

    A.2数据和材料的可用性

    我们进行实验的数据集可从以下网址获得:
    他们都是用数据清理.ipynb项目存储库中可用的笔记本。

    B其他地块

    本节包含与图类似的图4,7,6、和9对应于COMPAS公司信用卡数据集。
    图11。
    图11.微集料的公平性/准确性权衡COMPAS公司穿过公平-MDAV参数。
    图12。
    图12.微集料的公平性/准确性权衡信用卡穿过公平-MDAV参数。
    图13。
    图13非微集料的公平性/准确性权衡COMPAS公司穿过公平-MDAV参数。
    图14。
    图14非微集料的公平性/准确性权衡信用卡穿过公平-MDAV参数。
    图15。
    图15.精确性和召回率vs.微聚集体正负修正实验的平均概率COMPAS公司.
    图16。
    图16.精确性和召回率vs.微聚集体正负修正实验的平均概率信用卡.
    图17。
    图17.非微量聚集物正、负校正实验的准确度和召回率与均衡概率COMPAS公司.
    图18。
    图18.精确性和召回率vs.微聚集体正负修正实验的平均概率信用卡.

    工具书类

    [1]
    阿列克·阿加瓦尔、阿里娜·贝格尔齐默、米罗斯拉夫·杜迪克、约翰·朗福德和汉娜·瓦拉赫。2018年。公平分类的减少方法。arXiv:1803.02453。检索自https://arxiv.org/abs/1803.02453
    [2]
    Arturs Backurs、Piotr Indyk、Krzysztof Onak、Baruch Schieber、Ali Vakilian和Tal Wagner。2019.可扩展公平集群机器学习国际会议论文集. 405–413.
    [3]
    尤金·巴格达萨利安(Eugene Bagdasaryan)、奥米德·普萨伊德(Omid Poursaeed)和维塔利·什马提科夫(Vitaly Shmatikov)。2019.不同隐私对模型准确性有不同的影响。神经信息处理系统进展. 15479–15488.
    [4]
    Solon Barocas和Andrew D.Selbst。2016年,大数据的不同影响。加州法律评论104 (2016), 671.
    [5]
    理查德·伯克(Richard Berk)、霍达·海达里(Hoda Heidari)、沙欣·贾巴里(Shahin Jabbari)、迈克尔·卡恩斯(Michael Kearns)和亚伦·罗斯(Aaron Roth)。2018年,刑事司法风险评估的公平性:最先进。社会学方法与研究(2018).
    [6]
    迈克尔·巴克兰和弗雷德里克·盖伊。1994年,召回和精确性之间的关系。美国信息科学学会杂志45, 1 (1994), 12–19.
    [7]
    Toon Calders和Sicco Verwer。2010年,三种朴素贝叶斯方法用于无歧视分类。数据挖掘与知识发现21, 2 (2010), 277–292.
    [8]
    L.Elisa Celis、Lingxiao Huang、Vijay Keswani和Nisheeth K.Vishnoi。2019.公平约束分类:具有可证明保证的元算法。公平、问责制和透明度会议记录. 319–328.
    [9]
    Nitesh V.Chawla、Aleksandar Lazarevic、Lawrence O.Hall和Kevin W.Bowyer。2003年。SMOTEBoost:提高对助推中少数族裔阶层的预测。欧洲数据挖掘和知识发现原则会议记录施普林格,107–119。
    [10]
    弗拉维奥·切里切蒂(Flavio Chierichetti)、拉维·库马尔(Ravi Kumar)、西尔维奥·拉坦齐(Silvio Lattanzi)和谢尔盖·瓦西尔维茨基(Sergei Vassilvitskii)。2017年,通过展会公平聚集。第31届神经信息处理系统国际会议记录Curran Associates Inc.,5036–5044。
    [11]
    亚历山大·乔尔德科娃(Alexandra Chouldechova)。2017年。具有不同影响的公平预测:累犯预测工具偏差研究。大数据5, 2 (2017), 153–163.
    [12]
    Alexandra Chouldechova和Aaron Roth。2018.机器学习中公平的前沿。arXiv:1810.08810。检索自https://arxiv.org/abs/1810.08810
    [13]
    雷切尔·卡明斯(Rachel Cummings)、瓦伦·古普塔(Varun Gupta)、达玛·金帕拉(Dhamma Kimpara)和杰米·莫根斯坦(Jamie Morgenstern)。2019.关于隐私与公平的兼容性。第27届用户建模、自适应和个性化会议副出版物会议记录. 309–315.
    [14]
    Anupam Datta、Shayak Sen和Michael Carl Tschantz。2018年。隐私和非歧视之间的关系:为什么应该一起研究它们。arXiv:1808.01735。检索自https://arxiv.org/abs/1808.01735
    [15]
    Sci-kit学习开发人员。2019.scikit学习:Python中的机器学习。(2019).
    [16]
    约塞普·多明戈·费勒和维琴·托拉。2005.通过微聚集实现有序、连续和异质的k-匿名性。数据挖掘与知识发现11, 2 (2005), 195–212.
    [17]
    Dheeru Dua和Casey Graff。2017.UCI机器学习库。(2017). 检索自http://archive.ics.uci.edu/ml
    [18]
    辛西娅·德沃克(Cynthia Dwork)、莫里茨·哈德(Moritz Hardt)、托尼安·皮塔西(Toniann Pitassi)、奥马尔·莱因戈尔德(Omer Reingold)和理查德·泽梅尔(Richard Zemel)。2012.通过意识实现公平。理论计算机科学会议(ITCS’12)第三次创新会议记录计算机协会,214-226。
    [19]
    辛西娅·德沃克和亚伦·罗斯。2014.差异隐私的算法基础。理论计算机科学的基础和发展趋势9, 3–4 (2014), 211–407.DOI(操作界面):
    [20]
    Michael D.Ekstrand、Rezvan Joshaghani和Hoda Mehrpouyan。2018.人人享有隐私:确保公平公正的隐私保护。第一届公平、问责制和透明度会议记录。Sorelle A.Friedler和Christo Wilson(编辑),《机器学习研究论文集》,第81卷。PMLR,35–47。
    [21]
    欧洲议会和欧盟理事会。2016.欧洲议会和理事会第2016/679号法规(EU)。(2016). 检索自https://data.europa.eu/eli/reg/2016/679/oj
    [22]
    James R.Foulds、Rashidul Islam、Kamrun Naher Keya和Shimei Pan。2020年。公平的交叉定义。2020年IEEE第36届国际数据工程会议(ICDE)会议记录IEEE,1918年至1921年。
    [23]
    彼得·弗雷泽(Peter I.Frazier)。2018年,贝叶斯优化教程。arXiv:1807.02811。检索自https://arxiv.org/abs/1807.02811
    [24]
    Sorelle A.Friedler、Carlos Scheidger、Suresh Venkatasubramanian、Sonam Choudhary、Evan P.Hamilton和Derek Roth。2019.机器学习中公平激励干预的比较研究。公平、问责制和透明度会议记录ACM,329–338。
    [25]
    Pratik Gajane和Mykola Pechenizkiy。2017年。关于使用机器学习形式化预测中的公平性。arXiv:1710.03184。检索自https://arxiv.org/abs/1710.03184
    [26]
    Vladimiro González Zelaya、Julián Salas、Dennis Prangle和Paolo Missier。2021.通过参数化数据采样优化公平性。EDBT会议记录. 445–450.
    [27]
    萨拉·哈健(Sara Hajian)、约塞普·多明戈·费雷尔(Josep Domingo-Ferrer)、安娜·蒙雷尔(Anna Monreale)、迪诺·佩德雷西(Dino Pedreschi)和福斯卡·吉安诺蒂(Fosca Giannotti)。2015年,歧视和隐私意识模式。数据挖掘与知识发现29, 6 (2015), 1733–1782.
    [28]
    Moritz Hardt、Eric Price、Nati Srebro等人。2016年,监督学习机会均等。神经信息处理系统进展. 3315–3323.
    [29]
    Vasileios Iosifidis和Eirini Ntousi。2019.AdaFair:累积公平适应性提升。第28届ACM信息与知识管理国际会议记录. 781–790.
    [30]
    Matthew Jagielski、Michael Aaron Kearns、Saeed Sharifi Malvajerdi、Mao Jieming、Alina Oprea、Aaron Roth和Jonathan Ullman。2019.不同的私人公平学习。机器学习国际会议论文集PMLR,3000-3008。
    [31]
    费萨尔·卡米兰(Faisal Kamiran)和图恩·卡尔德斯(Toon Calders)。2010年,通过优先抽样进行无歧视分类。比利时和荷兰第19届机器学习大会会议记录. 1–6.
    [32]
    费萨尔·卡米兰(Faisal Kamiran)和图恩·卡尔德斯(Toon Calders)。2012.无差别分类的数据预处理技术。知识和信息系统33, 1 (2012), 1–33.
    [33]
    Toshihiro Kamishima、Shotaro Akaho、Hideki Asoh和Jun Sakuma。2012年。公平软件分类器与偏见去除正则化。欧洲机器学习和数据库知识发现联合会议记录施普林格,35–50岁。
    [34]
    Niki Kilbertus、Mateo Rojas Carulla、Giambattista Parascandolo、Moritz Hardt、Dominik Janzing和Bernhard Schölkopf。2017.通过因果推理避免歧视。神经信息处理系统进展. 656–666.
    [35]
    Emmanouil Krasanakis、Eleftherios Spyromitros-Xioufis、Symeon Papadopoulos和Yiannis Kompatsiaris,2018年。自适应敏感重加权以减轻公平软件分类中的偏差。2018年万维网会议记录国际万维网会议指导委员会,853–862。
    [36]
    马特·库斯纳(Matt J.Kusner)、约书亚·洛夫特斯(Joshua Loftus)、克里斯·罗素(Chris Russell)和里卡多·席尔瓦(Ricardo Silva)。2017.反事实公平。神经信息处理系统进展. 4066–4076.
    [37]
    杰夫·拉尔森(Jeff Larson)、苏里亚·马图(Surya Mattu)、劳伦·基什内尔(Lauren Kirchner)和朱莉娅·安格温(Julia Angwin)。2016年,我们如何分析COMPAS累犯算法。ProPublica公司9 (2016).
    [38]
    李宁辉(Ninghui Li)、李天成(Tiancheng Li)和苏雷什·文卡塔苏布拉曼尼亚(Suresh Venkatasubramanian)。2007.t-Cloness:超越k-匿名和l-diversity的隐私。2007年IEEE第23届国际数据工程会议记录. 106–115.
    [39]
    埃里尼·恩图西(Eirini Ntousi)、帕夫洛斯·法法利奥斯(Pavlos Fafalios)、乌杰瓦尔·加迪拉朱(Ujwal Gadiraju)、瓦西里奥斯·约西菲迪斯(Vasileios Iosifidis)、沃尔夫冈·内德尔(Wolfgang Nejdl)、玛丽亚·埃瑟尔·维达尔(Maria Ether Vidal)、萨尔瓦多·鲁杰里(Salvatore Ruggieri)、佛朗哥·都里尼(Franco Turini)、西蒙·帕帕帕佐普洛斯(Symeon Papadopoulos)、埃马努伊尔·克拉萨,克劳斯·布罗勒曼(Klaus Broelemann)、格杰吉·卡塞基(Gjergji Kasneci)、塔纳西斯·蒂洛帕尼斯(Thanassis Tiropanis)和斯特芬·斯塔布(Steffen Staab)。2020年,数据驱动人工智能系统中的偏差——一项介绍性调查。WIRE数据挖掘和知识发现(2020).
    [40]
    David Pujol、Ryan McKenna、Satya Kuppam、Michael Hay、Ashwin Machanavajjhala和Gerome Miklau。2020年。使用受隐私保护的数据进行公平决策。2020年公平、问责制和透明度会议记录计算机协会,189-199。
    [41]
    博尔贾·罗德里格斯·加尔维斯(Borja Rodríguez-Gálvez)、拉格纳尔·托巴本(Ragnar Thobaben)和米凯尔·斯科格隆德(Mikael Skoglund)。2020年,改变隐私和公平的方法。arXiv公司(2020年),arXiv–2006。
    [42]
    安娜·罗德里格斯·霍约斯(Ana Rodríguez-Hoyos)、何塞·埃斯特拉达·吉梅内斯(JoséEstrada-Jiménez)、大卫·雷波洛·莫内德罗(David Rebollo-Monedero)、艾哈迈德·穆罕默德·梅泽尔(Ahmad Mohamad Mezher)、哈维尔·帕。2020年。快速最大距离平均向量(F-MDAV):大数据中k匿名微聚集的算法。人工智能的工程应用90 (2020).
    [43]
    唐纳德·鲁宾(Donald B.Rubin),1973年。在观察性研究中使用匹配抽样和回归调整来消除偏差。生物计量学(1973), 185–203.
    [44]
    朱利安·萨拉斯和约塞普·多明戈·费勒。2018年。隐私技术、匿名化及其大数据挑战的一些基础知识。计算机科学中的数学12, 3 (2018), 263–274.
    [45]
    朱利安·萨拉斯和弗拉迪米罗·冈萨雷斯-塞拉亚。2020年。Fair-MDAV:通过微聚合实现公平隐私的算法。人工智能建模决策程序VicençTorra、Yasuo Narukawa、Jordi Nin和Nüria Agell(编辑),Springer International Publishing,Cham,286-297。
    [46]
    朱利安·萨拉斯和维琴·托拉。2018.动态数据库上k-匿名的通用算法。数据隐私管理、加密货币和区块链技术会议录施普林格国际出版公司,查姆,407–414。
    [47]
    巴巴克·萨利米(Babak Salimi)、卢克·罗德里格斯(Luke Rodriguez)、比尔·豪(Bill Howe)和丹·苏西乌(Dan Suciu)。2019.Capuchin:针对算法公平性的因果数据库修复。arXiv:1902.08283。检索自https://arxiv.org/abs/1902.08283
    [48]
    皮安吉拉·萨马拉蒂。2001.在微数据发布中保护受访者身份。IEEE知识与数据工程汇刊13, 6 (2001), 1010–1027.
    [49]
    拉塔尼亚·斯威尼。2002.k-匿名:保护隐私的模式。国际不确定性、模糊性和基于知识的系统杂志10, 05 (2002), 557–570.
    [50]
    徐德鹏、袁舒翰和吴新涛。2019.在逻辑回归中实现差异隐私和公平。2019年万维网大会(WWW’19)相关会议记录计算机协会,594–599。
    [51]
    穆罕默德·比拉尔·扎法、伊莎贝尔·瓦莱拉、曼努埃尔·戈麦斯·罗德里格斯和克里希纳·P·古马迪。2017年,超越不同对待和不同影响的公平性:学习分类没有不同虐待。第26届万维网国际会议记录. 1171–1180.
    [52]
    穆罕默德·比拉尔·扎法尔(Muhammad Bilal Zafar)、伊莎贝尔·瓦莱拉(Isabel Valera)、曼努埃尔·戈梅兹·罗德里格斯(Manuel Gomez-Rodriguez)和克里希纳·P·古马迪(Krishna P.Gummadi)。2019.公平约束:公平分类的灵活方法。机器学习研究杂志20, 1 (2019), 2737–2778.
    [53]
    穆罕默德·比拉尔·扎法、伊莎贝尔·瓦莱拉、曼努埃尔·戈麦斯·罗德里格斯和克里希纳·P·古马迪。2015年,公平约束:公平分类机制。arXiv:1507.05259。检索自https://arxiv.org/abs/1507.05259
    [54]
    Rich Zemel、Yu Wu、Kevin Swersky、Toni Pitassi和Cynthia Dwork,2013年。学习公平陈述。机器学习国际会议论文集. 325–333.

    建议

    评论

    信息和贡献者

    问询处

    发布于

    从数据中发现知识的封面图像ACM事务
    ACM数据知识发现事务 第18卷第3期
    2024年4月
    663页
    国际标准编号:1556-4681
    EISSN公司:1556-472倍
    DOI(操作界面):10.1145/3613567
    期刊目录
    本作品根据Creative Commons Attribution International 4.0许可证授权。

    出版商

    计算机协会

    美国纽约州纽约市

    出版历史

    出版:2023年12月9日
    在线AM:2023年8月24日
    认可的:2023年8月18日
    修订过的:2023年8月8日
    收到:2022年7月20日
    在TKDD中发布音量18,问题

    检查更新

    作者标记

    1. 负责任的机器学习
    2. 公平分类
    3. 隐私保护数据挖掘
    4. 算法公平性
    5. 伦理人工智能

    限定符

    • 研究文章

    资金来源

    • 科学与创新部
    • 同意
    • 固定

    贡献者

    其他指标

    文献计量学和引文

    文献计量学

    文章指标

    • 0
      引文总数
    • 970
      总下载次数
    • 下载次数(过去12个月)970
    • 下载次数(最近6周)126

    其他指标

    引文

    视图选项

    查看选项

    PDF格式

    以PDF文件查看或下载。

    PDF格式

    电子阅读器

    使用联机查看电子阅读器.

    电子阅读器

    获取访问权限

    登录选项

    完全访问权限

    媒体

    数字

    其他

    桌子

    分享

    分享

    共享此出版物链接

    在社交媒体上分享