计算机科学››2022,第49卷››问题(7): 350-356.数字对象标识:10.11896/jsjkx.210900229

• 信息安全 • 上一篇   下一篇

基于本地化差分隐私的频率特征提取

黄觉, 周春来  

  1. 中国人民大学信息学院 北京100872
  • 收稿日期:2021-09-27 修回日期:2021-12-20 出版日期:2022-07-15 发布日期:2022-07-12
  • 通讯作者:周春来(czhou@ruc.edu.cn网站)
  • 作者简介:(3287401165@qq.com)
  • 基金资助:
    国家自然科学基金重点项目(61732006);国家自然科学基金(61972404,12071478)

基于局部差异隐私的频率特征提取

黄珏、周春来  

  1. 中国人民大学信息系,北京100872
  • 收到:2021-09-27 修订过的:2021-12-20 在线:2022-07-15 出版:2022-07-12
  • 关于作者:黄珏,1998年生,研究生。他的主要研究兴趣包括人工智能不确定性。
    周春来,博士,副教授,中国计算机联合会会员。他的主要研究兴趣包括人工智能中的不确定性和数据科学中的隐私。
  • 支持单位:
    国家自然科学基金重点项目(61732006)和国家自然科学项目(6197240412071478)。

摘要:大数据时代信息技术不断发展,隐私问题越来越受到人们的关注。尤其是随着移动端的普及,如何在数据发布的同时保护用户个人的隐私信息是当前面临的重大挑战。此前学术界曾提出依赖于可信第三方的中心化差分隐私技术,但在实际应用中可信第三方的条件通常不成立;随后,在中心化差分隐私的基础上进一步提出了本地化差分隐私,它能够防止来自不可信第三方的隐私攻击,并且面对具有任意知识背景的隐私攻击者依然具有很强的防御效果。但是,市场通常不仅要迎合用户的需求,也要满足运营商的要求。为了对两者进行平衡,如何解决运营商的分析任务是亟待解决的问题。RAPPOR(随机化可聚合隐私保护有序响应)算法能够很好地完成这个任务,它通过使用两次随机响应机制对用户数据进行加密,保证了隐私保护的力度,并使用 拉索回归模型对加密数据进行解密,保证了频率特征提取的准确度。文中的贡献在于将RAPPOR公司算法应用于疫情信息采集,在保护受访者隐私信息的同时能获取真实的疫情资料,以美国各地新冠确诊人数的数据集进行实验,实验结果表明,所提方法较高程度地拟合了真实结果,完成了频率特征提取的分析任务。RAPPOR公司算法实现了本地化差分隐私技术从理论走向应用,切实保障了个人的隐私问题。

关键词: 振打器, 本地化差分隐私, 频率特征, 随机响应

摘要:随着信息技术在大数据时代的不断发展,隐私问题越来越受到人们的关注。特别是随着移动终端的日益普及,如何在发布数据的同时保护用户的隐私信息是当前的一大挑战。此前,学术界提出了依赖可信第三平台的中心差异隐私技术,但实际应用中需要可信第三台的条件通常是无效的。在中心差异隐私的基础上,进一步提出了局部差异隐私。它可以防止来自不受信任的第三方平台的隐私攻击,并且对于具有丰富知识背景的隐私攻击者仍然具有强大的防御效果。但市场往往迎合服务提供商和用户的需求。为了平衡两者之间的矛盾,如何完成服务提供商的分析任务是一个必须解决的问题。RAPPOR是完成这些任务的良好机制。它使用两种随机响应机制对用户数据进行加密,以确保隐私保护的强度。采用拉索回归模型对加密数据进行解密,确保频率特征提取的准确性。本文将RAPPOR算法应用于新冠肺炎疫情信息采集,可以在保护受访者隐私的同时获得真实的疫情数据。该数据集包括美国确诊的新型冠状病毒肺炎患者,用于模拟RAPPOR机制,并在很大程度上符合实际结果。RAPPOR算法实现了从理论到应用的局部差异隐私技术,有效保护了个人隐私。

关键词: 频率特性, 本地化的差异隐私, 随机响应, RAPPOR公司

中图分类号: 

  • TP311型
[1] GEORGINA E,GARY K,ADAM D S等人,差异私人调查研究[DB/OL]。(2021-03-21)[2021-06-18].https://j.mp/3jAYXo3。
[2] SAMARATI P,SWEENEY L.在披露信息时提供匿名性的通用数据[C]//第十七届ACM-SIGACT-SIGMOD-SIGART原理系统研讨会论文集。纽约:ACM,1998:98-188。
[3] MACHANAVAJJHALA A,KIFER D,GEHRKE J,et al.l-Di-versity:Privacy Beyond k anonymenty[C]//第22届国际数据工程会议论文集.亚特兰大:IEEE出版社,2006:24-24。
[4] LI N,LI T,VENKATASUBRAMANIAN S.T-亲密度:超越k-匿名性和l-多样性的隐私[C]//第23届IEEE国际数据工程会议(ICDE)论文集。IEEE,2007:106-115。
[5] GEORGINA E、GARY K、MARGARET S等。隐私保护数据的统计有效推断[DB/OL]。https://j.mp/2qkWjfj。
[6] DWORK C.差异隐私[C]//自动机,语言和编程。威尼斯:施普林格,2006:1-12。
[7] WARNER S L.随机反应:消除回避回答偏见的调查技术[J]。美国统计协会杂志,1965,60(309):63-69。
[8] YOSHUA B,REJEAN D,PASCAL V,等.神经概率语言模型[J]。机器学习研究杂志(JMLR),2003,3:1137-1155。
[9] 王恩,肖晓凯,杨毅,等.基于局部差异隐私的多维数据采集与分析[C]//IEEE第35届国际数据工程环(ICDE)会议。中国澳门,2019:638-649。
[10] 王J N,KRASKA T,FRANKLIN M J,et al.CrowdER:众包实体决议[C]//VLDB捐赠会议记录,伊斯坦布尔:VLDB捐赠,2012:1483-1494。
[11] ULFAR E,VASYL P,ALEKSANDRA K.RAPPOR:随机聚合隐私保护有序响应[C]//2014 ACM SIGSAC计算机与通信安全会议论文集。纽约:ACM 2014:1054-1067。
[12] ROBERT T.通过拉索回归收缩和选择[J]。英国皇家统计学会杂志:B辑,1994,58(1):267-288。
[13] JOHN C D,MICHAEL I J.本地隐私和统计微型传真率[C]//IEEE第54届计算机科学基础年度研讨会论文集。纽约:IEEE出版社,2013:1592-1592。
[14] 丁B,温斯莱特M,韩J,等.不同私有数据立方体:优化噪声源和一致性[C]//2011 ACM SIGMOD国际数据管理会议论文集。纽约:ACM,2011:217-228。
[15] HARDT M,ROTHBLUM G N.第51届IEEE计算机科学基础年会的乘权数据分析机制[C]//过程。纽约:IEEE出版社,2010:61-70。
[16] OBERSKI D L,KREUTERM F.差异隐私与社会科学:一个紧迫的难题[EB/OL]。https://doi.org/10.1162/99608f92.63a22079。
[17] HARDT M,LIGETT K,MCSHERRY F.一种简单实用的不同私有数据发布算法[C]//第25届神经信息处理系统国际会议论文集。纽约:Curran Associates Inc,2012:2339-2347。
[18] 叶清清,孟晓峰,朱敏杰,等.地方差异隐私调查[J]。软件杂志,2018,29(7):1981-2005。
[1] 孙林, 平国楼, 叶晓俊.
基于本地化差分隐私的键值数据关联分析
关键值数据与局部差异隐私的相关性分析
计算机科学, 2021, 48(8): 278-283.https://doi.org/10.11896/jsjkx.201200122
[2] 彭春春, 陈燕俐, 荀艳梅.
支持本地化差分隐私保护的k模式
k-modes集群保证本地差异隐私
计算机科学, 2021, 48(2): 105-113.https://doi.org/10.11896/jsjkx.200700172
已查看
全文


摘要

引用

  共享   
  讨论   
找不到建议阅读的文章!