×

统计披露控制的坚实基础。 (英语) Zbl 1466.62440号

摘要:本文回顾了统计学和计算机科学中的数据隐私和机密性理论,以使匿名化理论现代化。这项工作产生了适用于甚至合成数据的身份公开和属性公开的数学定义。此外,还阐明了差异隐私是限制人口推断准确性的一种方法。这个界限是由Hammersley-Chapman-Robbins不等式导出的,它导致了差异隐私的隐私预算(epsilon)的直观选择。

MSC公司:

62第25页 统计学在社会科学中的应用
62A01型 统计学基础和哲学主题
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Abowd,吉咪;维胡贝尔。;多明戈·费勒;赛根,合成数据有多大的保护作用?,统计数据库中的隐私。计算机科学课堂讲稿,239-246(2008),纽约:施普林格,纽约
[2] 阿加瓦尔,CC;余,PS;Bertino,E.,隐私保护数据挖掘的浓缩方法,数据库技术的进展,EDBT,计算机科学讲义,183-199(2004),柏林:施普林格,柏林
[3] 阿加瓦尔,CC;Yu,PS,《隐私保护数据挖掘:模型和算法》(2008),纽约:Springer出版社,纽约
[4] Agrawal,R.和Srikant,R.(2000)。隐私保护数据挖掘。《ACM国际数据管理会议记录》(SIGMOD)(第439-450页)。
[5] MJ安德森;Seltzer,W.,《联邦统计保密性和商业数据:二十世纪的挑战和持续问题》,《隐私与保密杂志》,第1期,第7-52页(2009年)
[6] Baayen,RH,词频分布(2001),多德雷赫特:Kluwer,Dordrecht·Zbl 0989.68146号
[7] Bambauer,J。;穆拉利达尔,K。;Sarathy,R.,《傻瓜的金子:对差异隐私的图解批判》,范德比尔特娱乐与技术法杂志,16701-755(2013)
[8] Barbaro,M.和Zeller,T.(2006年)。《纽约时报》第4417749号AOL搜索者的脸被曝光。
[9] 贝克曼,RJ;巴格利,KA;McKay,MD,创建综合基线人口,运输研究,A部分:政策和实践,30415-429(1996)
[10] Benedetto,G.、Stanley,J.C.和Totty,E.(2018)《SIPP合成Beta v7.0的创建和使用》,美国人口普查局。
[11] 伯利恒,JG;WJ凯勒;Pannekoek,J.,《微观数据的披露控制》,《美国统计协会杂志》,85,38-45(1990)
[12] Birnbaum,A.,《基于统计推断》,《美国统计协会杂志》,第57期,第269-306页(1962年)·Zbl 0107.36505号
[13] 主教,基督教青年会;菲恩伯格,SE;Holland,PW,《离散多元分析:理论与实践》(1975),剑桥:麻省理工学院出版社,剑桥·Zbl 0332.62039号
[14] 博文,CM;刘凤,差异私人数据合成方法的比较研究,统计科学,35,280-307(2020)·Zbl 07292514号
[15] 布兰德,R.(2002)。通过添加噪音保护微数据。多明戈·费勒(编辑),《统计数据库中的推理控制:从理论到实践》,计算机科学课堂讲稿(第2316卷,第97-116页)。柏林:斯普林格·Zbl 0992.68514号
[16] 勃兰特,M。;伦茨(Lenz,R.)。;Rosemann,M。;Domingo-Ferrer,《面板企业微数据匿名化——德国项目调查》,统计数据库中的隐私,计算机科学课堂讲稿,139-151(2008),柏林:施普林格,柏林
[17] 布茨,W。;托里,B.,《社会科学的一些前沿》,《科学》,3121898-1900(2006)
[18] 查普曼,DG;Robbins,H.,《无规律假设的最小方差估计》,《数理统计年鉴》,22,581-586(1951)·兹比尔0044.34302
[19] Chaudhuri,K.和Mishra,N.(2006年)。当随机采样保留隐私时。《第26届国际密码学进展年会论文集》(CRYPTO 2006)(第198-213页)。柏林:斯普林格·Zbl 1161.94438号
[20] 克利夫顿,C。;Tassa,T.,《句法匿名和差异隐私》,《数据隐私交易》,第6期,第161-183页(2013年)
[21] Dalenius,T.,《大海捞针——或识别匿名人口普查记录》,《官方统计杂志》,2329-336(1986)
[22] 丹克,FK;El Eman,K.,《在医疗保健中实践差异隐私:综述》,《数据隐私交易》,2013年第5期,第35-67页
[23] WE戴明;Stephan,FF,当预期边际总数已知时,关于采样频率表的最小二乘调整,《数理统计年鉴》,11427-444(1940)·兹比尔0024.05502
[24] 邓,M。;Wuts,K。;斯堪的纳托,R。;Preneel,B。;Joosen,W.,《隐私威胁分析框架:支持隐私需求的引出和实现》,《需求工程》,第16期,第3-32页(2011年)
[25] Dennis,JC,《健康信息的隐私和保密》(2000年),旧金山:Jossey-Bass,旧金山
[26] Dinur,I.和Nissim,K.(2003年)。泄露信息,同时保护隐私。第二十届ACM SIGMOD-SIGACT-SIGART数据库系统原理研讨会会议记录(第202-210页)。
[27] 多明戈·费勒,J。;Tora,V.,《统计数据库中的隐私》,计算机科学课堂讲稿(2004),柏林:施普林格出版社,柏林
[28] D’Orazio,M。;Di Zio,M。;Scanu,M.,《统计匹配:理论与实践》(2006),奇切斯特:威利·Zbl 1107.62008号
[29] 多伊尔,P。;莱恩,JI;Theeuwes,JJM;Zayatz,LV,《保密、披露和数据访问》(2001年),阿姆斯特丹:爱思唯尔出版社
[30] Drechsler,J.,《统计披露控制的合成数据集:理论与实现》,统计学讲义(2011),纽约:施普林格,纽约·Zbl 1279.62015号
[31] GT邓肯;Elliot,M。;Salazar-González,JJ,《统计保密》(2011),纽约:施普林格,纽约·Zbl 1233.62204号
[32] Dwork,C.(2006)。差异隐私。在第33届国际自动化、语言和编程学术讨论会—2006年国际计算机辅助语言课程第二部分,计算机科学课堂讲稿(第4052卷,第1-12页)中。斯普林格·Zbl 1133.68330号
[33] Dwork,C.,《私人数据分析的坚实基础》,ACM通讯,54,86-95(2011)
[34] 德沃克,C。;肯塔帕迪,K。;McSherry,F。;米罗诺夫,I。;Naor,M。;Vaudenay,S.,《我们的数据,我们自己:通过分布式噪声生成的隐私》,密码学进展-EUROCRYPT 2006,486-503(2006),柏林:施普林格,柏林·Zbl 1140.94336号
[35] Dwork,C.、McSherry,F.、Nissim,K.和Smith,A.(2006b)。校准私人数据分析中的噪声灵敏度。TCC 2006年密码学理论会议(第265-284页)·Zbl 1112.94027号
[36] 德沃克,C。;A.史密斯。;斯坦克,T。;Ullman,J.,曝光!《私人数据攻击调查》,《统计及其应用年鉴》,4,61-84(2017)
[37] Efron,B.,《Bootstrap methods:Another look at the Jackknife》,《统计年鉴》,第7期,第1-26页(1979年)·Zbl 0406.62024号
[38] El Emam,K。;Arbuckle,L.,《匿名健康数据》(2013),塞巴斯托波尔:O'Reilly,塞巴斯托波尔
[39] Erlingsson,U.、Pihur,V.和Korolova,A.(2014年)。RAPPOR:随机化可聚合隐私保护有序反应。在第21届美国计算机学会计算机与通信安全会议记录中,美国计算机学会,亚利桑那州斯科茨代尔。
[40] 伊夫特,I。;杰克逊,G。;JA兰伯特;McCrossan,S.,《证据解释原则对陈述结构和内容的影响》,《科学与司法》,第40期,第233-239页(2000年)
[41] Fienberg,S.E.(1994)。关于提供微观数据样本和保密的激进建议。卡内基梅隆大学统计系技术报告。
[42] 菲恩伯格,SE;Kempf-Leonard,《保密和披露限制》,《社会测量百科全书》,463-469(2005),纽约:爱思唯尔出版社,纽约
[43] 菲恩伯格,SE;Holland,PW,多项单元概率的同时估计,美国统计协会杂志,68683-691(1973)·兹比尔0267.62030
[44] 菲恩伯格,SE;UE马科夫;斯蒂尔,RJ,《使用扰动和相关方法对分类数据进行披露限制》,《官方统计杂志》,第14期,第485-502页(1998年)
[45] 冯,BCM;王凯。;Fu,AWC;Yu,PS,《隐私保护数据发布简介》(2010),博卡拉顿:查普曼和霍尔/CRC,博卡拉通
[46] Ghosh,A。;拉夫加登,T。;Sundararajan,M.,《普遍效用最大化隐私机制》,SIAM计算机杂志,411673-1693(2012)·兹比尔1271.68102
[47] Giessing,S。;多明戈·费勒;Torra,ARGUS表格数据保护方法调查,统计数据库中的隐私,计算机科学课堂讲稿,1-13(2004),柏林:施普林格,柏林
[48] Godambe,VP,《有限总体抽样统一理论》,《皇家统计学会杂志》,B,17,268-278(1955)·Zbl 0067.11406号
[49] Goel,V.(2014)。《纽约时报》,脸书是如何卖给你磷虾油的。
[50] Good,IJ,物种的种群频率和种群参数的估计,《生物统计学》,40,237-264(1953)·Zbl 0051.37103号
[51] Gottschalk,S.,《通过重采样披露微观数据——商业调查数据的实证结果》,Allgemeines Statistisches Archiv,88,279-302(2004)·Zbl 1124.62319号
[52] Hammersley,JM,《关于估计受限参数》,《皇家统计学会杂志》,B辑,12192-240(1950)·Zbl 0040.22202号
[53] Heard,D。;凹痕,G。;Schifeling,T。;Banks,D.,基于代理的模型和微观模拟,《统计及其应用年度回顾》,第2259-272页(2015年)
[54] 霍维茨,DG;DJ Thompson,《有限宇宙中无替换抽样的推广》,美国统计协会杂志,47663-685(1952)·Zbl 0047.38301号
[55] Hoshino,N.,作为披露风险评估工具的准多项式分布,《官方统计杂志》,25,269-291(2009)
[56] Hoshino,N.,《基于证据的匿名化》,《日本统计学会杂志》,J辑,46,1-42(2016)·Zbl 07387533号
[57] Hoshino,N.(2018)。统计推断的控制。在2018年10月24日举行的计算机安全研讨会上发表演讲。(日语)。
[58] 亨德波尔,A。;多明戈·费勒,J。;Franconi,L。;Giessing,S。;诺德霍尔特,ES;Spicer,K。;de Wolf,PP,《统计披露控制》(2012),西萨塞克斯:威利,西萨塞克斯
[59] Inusah,S。;Kozubowski,TJ,《拉普拉斯分布的离散模拟》,《统计规划与推断杂志》,1361090-1102(2006)·Zbl 1081.60011号
[60] Jeffreys,H.,《概率论处理的意义测试》,《剑桥哲学学会数学学报》,31203-222(1935)·Zbl 0011.31601号
[61] Jeffreys,H.,《概率论》(1961),牛津:牛津大学出版社,牛津·Zbl 0116.34904号
[62] Kasivisiwanathan,SP;Smith,A.,《差异隐私的语义:贝叶斯公式》,《隐私与保密杂志》,6,1-16(2014)
[63] 卡斯,RE;Raftery,AE,Bayes factors,《美国统计协会杂志》,90,773-795(1995)·Zbl 0846.62028号
[64] Khmalaze,E.V.(1987年)。对大量罕见事件的统计分析。在CWI数理统计系技术报告MS-R8804中。阿姆斯特丹:数学和计算机科学中心。
[65] Kifer,D.和Machanavajjhala,A.(2011年)。数据隐私中没有免费午餐。2011年ACM SIGMOD国际数据管理会议记录(SIGMOD'11)(第193-204页)。美国纽约州纽约市计算机协会。
[66] Kifer,D.和Machanavajjhala,A.(2014)。Pufferfish:数学隐私定义的框架。ACM数据库系统事务,39,[a3]。doi:10.1145/2514689·Zbl 1321.94067号
[67] 科茨,S。;Kozubowski,T。;Podgórski,K.,拉普拉斯分布和推广:重新审视通信、经济学、工程和金融的应用(2001),波士顿:Birkhäuser,波士顿·Zbl 0977.62003年
[68] Lee,J.和Clifton,C.(2011年)。多少钱就够了?选择\(\epsilon\)作为差异隐私。Lai等人(编辑)ISC 2011,《计算机科学讲义》(第7001卷,第325-340页)。
[69] 莱曼,EL;Casella,G.,点估计理论(1998),纽约:Springer,纽约·Zbl 0916.62017号
[70] Li,N.、Li,T.和Venkatasubramanian,S.(2007)\(t)-亲密度:隐私超越(k)-匿名性和(ell)-多样性。IEEE第23届国际数据工程会议(ICDE)(第106-115页)。
[71] Lindell,Y.和Pinkas,B.(2000年)。隐私保护数据挖掘。Mihir Bellare(Ed.)《第20届国际密码学年会密码学进展会议论文集》(CRYPTO’00)(第36-54页)。伦敦:斯普林格·Zbl 0989.68506号
[72] Little,R.,《蒙面数据的统计分析》,《官方统计杂志》,9407-426(1993)
[73] 刘,C。;何,X。;Chanyaswad,T。;王,S。;Mittal,P.,《从假设检验的角度研究统计隐私框架》,《隐私增强技术学报》,2019年,第3期,第233-254页(2019年)
[74] Lowrance,WW,《隐私、保密和健康研究》(2012),纽约:剑桥大学出版社,纽约
[75] Machanavajjhala,A.、Kifer,D.、Abowd,J.、Gehrke,J.和Vilhuber,L.(2008)。隐私:理论联系实际。2008年IEEE第24届国际数据工程会议论文集,ICDE'08(第277-286页)。
[76] Machanavajjhala,A.、Kifer,D.、Gehrke,J.和Venkitasubramaniam。(2007). \(\ ell\)-多样性:隐私超越\(k\)-匿名。ACM关于从数据中发现知识的交易,1(1),第3条。
[77] 马什,C。;斯金纳,C。;阿伯,S。;彭海尔,P。;Openshaw,S。;霍布克拉夫特,J。;Lievesley,D。;Walford,N.,《1991年人口普查匿名记录样本案例》,《皇家统计学会期刊》,a辑,154305-340(1991)
[78] Meiser,S.,《近似和概率差异隐私定义》,IACR Cryptology ePrint Archive,2018,277(2018)
[79] 门德斯,R。;Vilela,JP,《隐私保护数据挖掘:方法、度量和应用》,IEEE Access,5,10562-10582(2017)
[80] 穆拉利达尔,K。;Saraty,R。;Li,H.,链接微数据的安全属性共享,决策支持系统,81,20-29(2016)
[81] Nakamura,H.,《日本官方统计的微数据访问》,《社会学理论与方法》,32,310-320(2017)
[82] 国家研究委员会,《将人们放在地图上:利用关联的社会空间数据保护机密性》(2007年),华盛顿:国家学院出版社,华盛顿
[83] 内曼,J。;皮尔逊,ES,《关于统计假设的最有效检验问题》,伦敦皇家学会哲学汇刊。A辑,包含数学或物理性质的论文,231289-337(1933)·JFM 59.1163.02号文件
[84] Nin,J。;Herranz,J.,《信息管理系统中的隐私和匿名性》(2010),伦敦:施普林格出版社,伦敦
[85] Nissim,K.、Raskhodnikova,S.和Smith,A.(2007年)。私人数据分析中的平滑灵敏度和采样。ACM计算理论年度研讨会论文集(第75-84页)·Zbl 1232.68039号
[86] 奥基夫,CM;Camenisch,J。;Fischer-Hubner,S。;Hansen,M.,《服务科学和大数据分析中的隐私和保密》,《全球化时代未来互联网的隐私和身份管理,2014年隐私和身份》。IFIP信息和通信技术进展,54-70(2015),Cham:Springer,Cham
[87] Pawitan,Y.,《极有可能》(2001),牛津:克拉伦登出版社,牛津·Zbl 1013.62001号
[88] Pfitzmann,A.和Hansen,M.(2010年)。通过数据最小化谈论隐私的术语:匿名、不可链接、不可检测、不可观察、假名和身份管理。2010年8月0.34版,技术报告,德累斯顿工业大学和基尔ULD。http://dud.inf.tu-dresden.de/Anon_Terminology.shtml
[89] 总统科学技术顾问委员会,《向总统报告:大数据和隐私:技术视角》(2014),华盛顿:总统执行办公室,华盛顿
[90] Quatember,A.,《伪人口》(2015),Cham:Springer,Cham·Zbl 1347.62009年
[91] Raab,总经理;Nowok,B。;Dibben,C.,《大样本实用数据合成》,《隐私与保密杂志》,7,67-97(2017)
[92] Reiter,JP,《差异隐私和联邦数据发布》,《统计及其应用年度回顾》,第685-101页(2019年)
[93] Rinott,Y。;奥基夫,CM;Shlomo,N。;斯金纳,C.,《频率表传播中的保密性和差异隐私》,《统计科学》,33,358-385(2018)·兹比尔1403.62229
[94] Ritchie,F.(2017)。“五大安全”:规划、设计和评估数据访问解决方案的框架。论文发表于英国伦敦《2017年政策数据》。
[95] Ritchie,F.,《保密微数据的安全访问:虚拟微数据实验室四年》,《经济和劳动力市场评论》,第229-34页(2008年)
[96] 罗彻,L。;亨德里克斯,JM;de Montjoye,Y.,使用生成模型估计不完整数据集中重新识别的成功率,《自然通信》,第10期,第3069页(2019年)
[97] Rubin,DB,《调查中无应答的多重插补》(1987年),纽约:威利·2007年6月10日
[98] DB鲁宾,《讨论:统计披露限制》,《官方统计杂志》,第9期,第462-468页(1993年)
[99] Ruggles,S。;惠誉,加利福尼亚州;马格努森,DL;Schroeder,JP,《差异隐私和人口普查数据:对社会和经济研究的影响》,《澳大利亚能源局论文和会议记录》,109403-408(2019)
[100] Shlomo,N。;CJ斯金纳,《调查微观数据中的抽样和扰动隐私保护》,《隐私与保密杂志》,第4期,第155-169页(2012年)
[101] Shlosser,A.,《基于样本估算长文本词典的大小》,《工程控制论》,第19期,第97-102页(1981年)·Zbl 0507.62007号
[102] 辛格,E。;Van Hoewyk,J。;Neugebauer,RJ,《态度和行为:隐私和保密问题对2000年人口普查参与的影响》,《民意季刊》,67,368-384(2003)
[103] 辛格,E。;马蒂奥韦茨,NA;Couper,MP,《隐私和保密问题对调查参与的影响:1990年美国Ceusus案》,《民意季刊》,57465-482(1993)
[104] Smith,A.(2008年)。高效的差异私有点估计器。arXiv:0809.4794。
[105] 斯诺克,J。;Raab,G。;Nowok,B。;迪本,C。;Slavkovic,A.,《合成数据的一般和特定效用度量》,《皇家统计学会期刊》,A辑,181663-688(2018)
[106] DJ Solove,《理解隐私》(2008),剑桥:哈佛大学出版社,剑桥
[107] DJ Solove,《隐私自我管理和同意困境》,《哈佛法律评论》,1261880-1903(2013)
[108] 索里亚·科马斯,J。;多明戈·费勒,J。;桑切斯,D。;Megias,D.,《个人差异隐私:保护效用的差异隐私保障》,《IEEE信息取证与安全交易》,第12期,第1418-1429页(2017年)
[109] 斯图尔特,KA;Segars,AH,《对信息隐私文书关注的实证检验》,《信息系统研究》,第13期,第36-49页(2002年)
[110] Sweeney,L.(2000年)。简单人口学在美国人口中的独特性,LIDAPWP4。卡内基梅隆大学国际数据隐私实验室,匹兹堡。
[111] Sweeney,L.,(k)-匿名:保护隐私的模型,国际不确定性、模糊性和基于知识的系统杂志,10557-570(2002)·Zbl 1085.68589号
[112] Tang,J.、Korolova,A.、Bai,X.、Wang,X.和Wang,X(2017)。苹果在MacOS 10.12上实施差异隐私时的隐私损失。arXiv:1709.02753[cs.CR]
[113] Templ,M.,《微观数据的统计披露控制》(2017年),查姆:斯普林格,查姆·Zbl 1437.62006年
[114] 坦普尔,M。;Meindl,B。;科瓦里克,A。;Dupriez,O.,合成复杂数据的模拟:R包simPop,统计软件杂志,79,1-38(2017)
[115] Tukey,JW,探索性数据分析(1977),波士顿:Addison-Wesley,波士顿·Zbl 0409.62003号
[116] 华纳,SL,《随机反应:消除回避回答偏见的调查技术》,《美国统计协会杂志》,60,63-69(1965)·Zbl 1298.62024号
[117] Warner,SL,线性随机响应模型,美国统计协会杂志,66884-888(1971)
[118] Wasserman,L。;Zhou,S.,《不同隐私的统计框架》,《美国统计协会杂志》,105,375-389(2010)·Zbl 1364.62011年
[119] Wilks,SS,《检验复合假设的似然比的大样本分布》,《数理统计年鉴》,9,60-62(1938)·Zbl 0018.3203号
[120] Willenborg,L。;de Waal,T.,《实践中的统计披露控制》,《统计学课堂讲稿》(1996年),纽约:施普林格出版社,纽约·Zbl 0853.62096号
[121] Willenborg,L.公司。;de Waal,T.,《统计披露控制要素》。统计学课堂讲稿(2000年),纽约:斯普林格,纽约·Zbl 0853.62096号
[122] 朱,T。;李·G。;周,W。;Yu,PS,《差异隐私和应用》(2017),Cham:Springer,Cham
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。