×

歧视和隐私意识模式。 (英语) Zbl 1405.68290号

摘要:由于大量人类数据的可用性不断增加,数据挖掘正在获得社会发展势头,这些数据很容易被各种传感技术收集。因此,我们面临着前所未有的机遇和风险:对人类行为和社会运作方式的更深入理解,因为基于提取模式和特征的隐私侵犯和不公平歧视的可能性更大,而变得更加模糊。考虑这样一种情况:从个人群体的个人数据中提取的一组模式被发布,以便随后用于决策过程,例如授予或拒绝信贷。首先,这组模式可能会泄露培训人群中个人的敏感信息,其次,基于这种模式的决策规则可能会导致不公平的歧视,这取决于培训案例中所代表的内容。尽管文献中提出了独立解决数据挖掘中隐私或歧视问题的方法,但在这种情况下,我们认为应该解决隐私和歧视风险在一起,并且我们提出了一种在发布频繁模式挖掘结果时这样做的方法。我们描述了一套模式净化方法,法律文献中使用的每种歧视措施都有一种,以实现频繁模式的公平发布,并结合两种可能的隐私转换:一种基于\(k)-匿名,另一种基于差异隐私。我们提出的基于匿名性的模式净化方法产生了受隐私和歧视保护的模式,同时引入了合理的(受控的)模式失真。此外,与基于差异隐私的清理方法相比,它们在保护和数据质量之间取得了更好的权衡。最后,通过大量实验评估了我们建议的有效性。

MSC公司:

68T05型 人工智能中的学习和自适应系统
62H30型 分类和区分;聚类分析(统计方面)
68第25页 数据加密(计算机科学方面)
68吨10 模式识别、语音识别
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Aggarwal CC,Yu PS(2008)《隐私保护数据挖掘:模型和算法》。柏林施普林格·doi:10.1007/978-0-387-70992-5
[2] Agrawal R,Srikant R(1994)大型数据库中关联规则挖掘的快速算法。收录:第20届超大数据库国际会议论文集。VLDB第487-499页
[3] Agrawal R,Srikant R(2000)隐私保护数据挖掘。包含:SIGMOD 2000。纽约ACM出版社,第439-450页
[4] Atzori M、Bonchi F、Giannotti F、Pedreschi D(2008)《匿名保护模式发现》。VLDB J 17(4):703-727·数字对象标识代码:10.1007/s00778-006-0034-x
[5] 澳大利亚立法(2014)(a)《维多利亚州现行法案——2010年平等机会法案》(2014年9月17日修订);(b) 昆士兰-《1991年反歧视法》(截至2014年7月1日有效)
[6] Berendt B,Preibusch S(2014)《通过探索性歧视感知数据挖掘实现更好的决策支持:基础和经验证据》。《Artif Intell Law》22(2):175-209·doi:10.1007/s10506-013-9152-0
[7] Bhaskar R、Laxman S、Smith A、Thakurta A(2010)《发现敏感数据中的频繁模式》。在KDD 2010中。纽约ACM出版社,第503-512页
[8] Bonomi L(2013)挖掘具有不同隐私的频繁模式。PVLDB 6(12):1422-1427
[9] Calders T,Goethals B(2007)《非衍生项集挖掘》。DMKD 14(1):171-206
[10] Calders T,Verwer S(2010)无差别分类的三种朴素贝叶斯方法。数据最小知识。发现。21(2):277-292 ·文件编号:10.1007/s10618-010-0190-x
[11] Custer B、Calders T、Schermer B、Zarsky TZ(编辑)信息社会中的歧视和隐私——大型数据库中的数据挖掘和分析。应用哲学、认识论和理性伦理学研究3。柏林施普林格出版社(2013)
[12] Dalenius T(1974)《侵犯隐私问题与统计数据生成——概述》。Statistik Tidskrift 12:213-25统计潮汐变化
[13] Domingo-Ferrer J,Torra V(2005)通过微聚集实现有序、连续和异质的k-匿名性。数据最小已知Discov 11(2):195-212·doi:10.1007/s10618-005-0007-5
[14] Dwork C(2006)《差异隐私》。包含:ICALP 2006 LNCS 4052。柏林施普林格,第112页·Zbl 1133.68330号
[15] Dwork C、Hardt M、Pitassi T、Reingold O、Zemel RS(2012)《通过意识实现公平》。收录于:ITCS 2012。纽约ACM出版社,第214-226页·Zbl 1348.91230号
[16] 欧盟立法(1995)指令95/46/EC
[17] 欧洲联盟立法(2014年)(a)《种族平等指令》,2000/43/EC;(b) 就业平等指令,2000/78/EC;(c) 欧洲议会关于不分宗教或信仰、残疾、年龄或性取向的人与人之间平等待遇的立法决议(A6-0149/2009)
[18] Frank A,Asuncion A(2010)UCI机器学习库。加州大学欧文分校信息与计算机科学学院http://archive.ics.uci.edu/ml/datasets
[19] Friedman A、Wolff R和Schuster A(2008)在数据挖掘中提供“k-匿名性”。VLDB J 17(4):789-804·doi:10.1007/s00778-006-0039-5
[20] Friedman A,Schuster A(2010)《不同隐私的数据挖掘》。收录:KDD 2010。ACM,纽约,第493-502页
[21] Fung BCM,Wang K,Fu AW-C,Yu PS(2010)隐私保护数据发布简介:概念和技术。查普曼和霍尔/CRC,博卡拉顿·doi:10.1201/9781420091502
[22] Gehrke J、Hay M、Lui E、Pass R(2012)《人群融合隐私》。包含:密码第479-496页·Zbl 1296.94116号
[23] Greenwood PE,Nikulin MS(1996)《四方形测试指南》。纽约威利·Zbl 0853.62037号
[24] Hajian S,Domingo Ferrer J,Martínez BallestéA(2011)数据挖掘中间接歧视预防的规则保护。收录于:MDAI 2011计算机科学Lectuer Notes第6820卷。柏林施普林格,第211-222页
[25] Hajian S,Domingo-Ferrer J(2013)数据挖掘中直接和间接防止歧视的方法。IEEE Trans Knowl Data Eng 25(7):1445-1459·doi:10.1109/TKDE.2012.72
[26] Hajian S、Monreale A、Pedreschi D、Domingo-Ferrer J、Giannotti F(2012)将歧视和隐私意识注入模式发现。2012年:IEEE第12届国际数据挖掘会议研讨会。IEEE计算机学会,第360-369页
[27] Hajian S,Domingo-Ferrer J(2012)《数据匿名化对反歧视影响的研究》。2012年IEEE第12届国际数据挖掘研讨会。IEEE计算机学会,第352-359页
[28] Hajian S、Domingo-Ferrer J、FarráS O(2014)数据发布和挖掘中基于概括的隐私保护和歧视预防。数据最小知识发现28(5-6):1158-1188·Zbl 1342.68120号 ·doi:10.1007/s10618-014-0346-1
[29] Hay M、Rastogi V、Miklau G、Suciu D(2010)通过一致性提高差异私有直方图的准确性。VLDB程序3(1):1021-1032·doi:10.14778/1920841.1920970
[30] Hundepol A、Domingo-Ferrer J、Franconi L、Giessing S、Schulte-Nordholt E、Spicer K、de Wolf P-P(2012)《统计披露控制》。纽约威利·doi:10.1002/9781118348239
[31] Kamiran F,Calders T(2011)无差别分类的数据预处理技术。知识信息系统33(1):1-33·doi:10.1007/s10115-011-0463-8
[32] Kamiran F、Calders T、Pechenizkiy M(2010),歧视感知决策树学习。摘自:IEEE国际数据挖掘会议记录,第869-874页
[33] Kamiran F,Karim A,Zhang X(2010),区分感知分类的决策理论。In:ICDM IEEE,第924-929页
[34] Kamiran F、Zliobaite I、Calders T(2013)《量化可解释的歧视并消除自动决策中的非法歧视》。知识信息系统35(3):613-644·doi:10.1007/s10115-012-0584-8
[35] Kamishima T、Akaho S、Asoh H、Sakuma J(2012)《带有偏见去除正则化器的公平软件分类器》。包含:ECML/PKDD。计算机科学课堂讲稿第7524卷。柏林施普林格第35-50页
[36] Kantarcioglu M,Jin J,Clifton C(2004)数据挖掘结果何时侵犯隐私?收信人:KDD。ACM出版社,纽约,第599-604页
[37] Lee J,Clifton C(2012)《微分可识别性》。收录日期:KDD 2012。纽约ACM出版社,第1041-1049页
[38] Li N,Qardaji WH,Su D,Cao J(2012)PrivBasis:具有差异隐私的频繁项集挖掘。VLDB程序5(11):1340-1351·doi:10.14778/2350229.2350251
[39] Li N,Li T,Venkatasubramanian\[S(2007)T\]T-亲密:超越\[k\]k-匿名和\[l\]l-多样性的隐私。附:IEEE第23届国际数据工程会议(ICDE)第106-115页
[40] 李伟,韩杰,裴杰(2001)CMAR:基于多类关联规则的准确高效分类。摘自:2001年IEEE数据挖掘国际会议(ICDM)论文集,第369-376页
[41] Loung BL、Ruggieri S、Turini F(2011)k-NN作为发现和预防歧视的情境测试的实施。参加:ACM知识发现和数据挖掘国际会议(KDD 2011)。纽约ACM出版社,第502-510页
[42] Machanavajjhala A、Kifer D、Gehrke J、Venkitasubramaniam M\[(2007)l\]l-多样性:隐私超越k-匿名。ACM Trans Knowl Discov Data(TKDD)1(1),第3条
[43] McSherry F,Talwar K(2007)《通过差异隐私进行机制设计》。摘自:第48届IEEE计算机科学基础研讨会论文集,第94-103页·兹比尔1232.68047
[44] Pasquier N,Bastide Y,Taouil R,Lakhal L(1999)发现关联规则的频繁闭项集。摘自:第七届数据库理论国际会议论文集·Zbl 0983.68511号
[45] Pedreschi D,Ruggieri S,Turini F(2008)歧视软件数据挖掘。摘自:第14届ACM知识发现和数据挖掘国际会议(KDD)会议记录。纽约ACM出版社,第560-568页
[46] Pedreschi D,Ruggieri S,Turini F(2009)《社会敏感决策记录中的歧视测量》。摘自:SIAM国际数据挖掘会议(SDM)会议记录。SIAM,第581-592页
[47] Pedreschi D,Ruggieri S,Turini F(2009)《综合归纳和演绎以寻找歧视证据》。第十二届ACM国际人工智能与法律会议(ICAIL)。纽约ACM出版社,第157-166页
[48] 佩德莱斯基,D。;Ruggieri,S。;图里尼,F。;Custer,BHM(编辑);Calders,T.(编辑);Schermer,BW(编辑);Zarsky,TZ(编辑),《歧视的发现》,4357(2013),柏林
[49] Ruggieri S、Pedreschi D、Turini F(2010)《歧视发现的数据挖掘》。ACM Trans Knowl Discov Data(TKDD)4(2),第9条
[50] Samarati P(2001)在微数据发布中保护受访者的身份。IEEE Trans Knoll数据工程13(6):1010-1027·数字对象标识代码:10.1109/69.971193
[51] Soria-Comas J、Domingo-Ferrer J(2012)《通过事先知识提炼实现敏感性无关的差异隐私》。国际J不确定模糊知识系统20(6):855-876·Zbl 1320.68066号 ·doi:10.1142/S0218488512400272
[52] Sweeney L(2002)k-匿名:保护隐私的模式。Int J不确定模糊知识系统10(5):557-570·Zbl 1085.68589号 ·doi:10.1142/S0218488502001648
[53] 美国国会,《美国同工同酬法案》(1963年)http://archive.eeoc.gov/epa/annivirary/epa-40.html
[54] Zemel RS、Wu Y、Swersky K、Pitassi T、Dwork C(2013)《学习博览会陈述》。国际资本市场协会3:325-333
[55] 曾C,Naughton JF,Cai J-Y(2012)关于差异私有频繁项集挖掘。PVLDB 6(1):25-36
[56] Zliobaite I,Kamiran F,Calders T(2011)《处理有条件歧视》。收录:第13届IEEE数据挖掘国际会议(ICDM)论文集,第992-1001页
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。