文件Open Access徽标

高效差分私有F₀线性草图

作者 拉斯穆斯·帕赫 , 尼娜·梅辛·斯塔索姆



PDF格式
缩略图PDF

文件

LIPIcs公司。ICDT.2021.18.pdf
  • 文件大小:0.83 MB
  • 19页

文件标识符

作者详细信息

拉斯穆斯·帕赫
  • 丹麦哥本哈根大学
  • BARC,丹麦哥本哈根
尼娜·梅辛·斯塔索姆
  • 丹麦哥本哈根IT大学
  • 丹麦哥本哈根BARC

鸣谢

我们感谢宋爽和阿卜拉迪普·古哈·塔库塔对该手稿前一版本的反馈。我们感谢匿名评论员提出的建设性建议。Rasmus Pagh的部分工作是在哥本哈根IT大学工作期间完成的。

引用为获取BibTex

Rasmus Pagh和Nina Mesing Stausholm。高效的差分私有F₀线性草图。第24届国际数据库理论会议(ICDT 2021)。莱布尼茨国际信息学论文集(LIPIcs),第186卷,第18:1-18:19页,达格斯图尔-莱布尼兹-泽特鲁姆信息学研究所(2021)
https://doi.org/10.4230/LIPIcs.ICDT.2021.18

摘要

线性草图的一个强大功能是,从两个数据向量的草图中,可以计算出向量之间差异的草图。这使我们能够回答关于两个数据集之间差异的细粒度问题。在这项工作中,我们考虑如何构建加权F₀的草图,即数据集中元素的总权重,这些元素较小,具有差异私有性,并且计算效率高。设权向量w∈(0,1]^u。对于x∈{0,1}^u,我们感兴趣的是估计||x∘w||∈,其中∘是Hadamard乘积(入口乘积)。基于Kushilevitz等人(STOC 1998)的一种技术,我们引入了一个在GF(2)上线性的草图(取决于w),将向量x∈{0,1}^u映射到从适当分布ℋ中采样的矩阵H的Hx∈[0,1}^τ。通过使用随机响应,以概率p<1/2翻转Hx的每一位,实现差异隐私。也就是说,对于向量φ∈{0,1}^τ,其中Pr[(φ)_j=1]=p独立于每个条目j,我们考虑噪声草图Hx+φ,其中噪声的添加发生在GF(2)上。我们证明,对于0<β<1和ε=O(1)的每一个选择,都存在p<1/2和τ=O的线性草图的分布(log²(u)ε^{-2}β^{-2{),如下所示:1) 对于随机H~ℋ和噪声向量φ,给定Hx+φ,我们可以计算||x∘w||₁的估计值,该估计值在因子1±β内是准确的,加上加性误差O(log(u)ε^{-2}β^{-2{),w.p.1-u^{-1},以及2) 对于每个H~ℋ,Hx+φ在φ中的随机性上是ε-微分私有的。特殊情况w=(1,…,1)是未加权F₀。此前,Mir等人(PODS 2011)和Kenthapadi等人(J.Priv.Confidentiality 2013)描述了一种不同的绘制未加权F,但校准草图噪声的算法计算效率不高,无论是在草图尺寸中使用准多项式时间,还是在宇宙尺寸u中使用超线性时间。对于固定ε,我们的草图的大小与Jayram&Woodruff(Trans.Algorithms 2013)提出的Ω(log(u)β^{-2})比特的下限多项式相关。加性误差与Hardt&Talwar(STOC 2010)的Ω(1/ε)界限相当。我们的草图的一个应用是,可以添加两个草图,以形成形式H(x₁+x⁄)+(φ\8321»+φ⁄)的杂乱草图,这允许我们估计||(x⑩+x⁄)∘w|| \8321]。由于加法超过GF(2),这是向量x \8321;和x⁄的对称差的权重。最近的工作表明,如何使用(非线性)草图(如FM草图和Bloom Filters)私下有效地计算两个集合的对称差异大小的估计,但这些方法的误差范围不比O(√{̄{m}})好,其中̄{m}是||xõ||₀和||xõ||₀的上界。当β=o(1/√{{m}})和log(u)/ε={m}^{o(1)}时,这改进了以前的工作。总之,我们的结果提高了现有无权F₀估计方法的效率,并扩展到加权推广。我们还提供了一个分布式流实现,用于估计两个输入流之间的并集大小。

主题分类

ACM科目分类
  • 安全和隐私→安全的形式方法和理论
关键词
  • 差异隐私
  • 线性草图
  • 加权F0估计

韵律学

工具书类

  1. 穆罕默德·阿拉甘(Mohammad Alaggan)、塞巴斯蒂安·甘姆斯(Sébastien Gambs)和安妮·马里·科尔马雷克(Anne-Marie Kermarrec)。BLIP:bloom过滤器上的非交互式差分-私有相似性计算。分布式系统的稳定、安全和安保——第14届国际研讨会,SSS,第202-216页,2012年。网址:https://doi.org/10.1007/978-3-642-33536-5_20.
  2. 穆罕默德·阿拉甘、塞巴斯蒂安·甘姆斯、斯坦·马特温和穆罕默德·图欣。通过不同的私有bloom过滤器对呼叫详细记录进行清理。数据和应用程序安全与隐私XXIX-第29届IFIP工作组11.3年度工作会议,DBSec 2015,第223-230页,2015。网址:https://doi.org/10.1007/978-3-319-20810-7_15.
  3. 诺加·阿隆、菲利普·吉本斯、尤西·马蒂亚斯和马里奥·塞格迪。跟踪有限存储中的连接和自连接大小。计算机与系统科学杂志,64(3):719-7472002。谷歌学者
  4. 诺加·阿隆、尤西·马蒂亚斯和马里奥·塞格迪。近似频率矩的空间复杂性。在1996年计算机理论研讨会上,第20-29页。网址:https://doi.org/10.1145/237814.237823.
  5. Pranjal Awasthi、Maria Florina Balcan、Nika Haghtalab和Hongyang Zhang。非对称噪声下的学习和1位压缩感知。《学习理论会议》,第152-192页,2016年。谷歌学者
  6. Ziv Bar Yossef、TS Jayram、Ravi Kumar、D Sivakumar和Luca Trevisan。计算数据流中不同元素的数量。2002年计算机科学中随机和近似技术国际研讨会,第1-10页。谷歌学者
  7. Valerio Bioglio、Tiziano Bianchi和Enrico Magli。在有限范围内确保压缩传感。信息取证与安全国际研讨会(WIFS),第191-196页,2014年。谷歌学者
  8. Jeremiah Blocki、Avrim Blum、Anupam Datta和Or Sheffet。约翰逊-林德斯特劳斯变换本身保留了不同的隐私。2012年FOCS计算机科学基础研讨会,第410-419页。网址:https://doi.org/10.1109/FOCS.2012.67.
  9. 安德烈·布罗德(Andrei Z.Broder)和迈克尔·米赞马赫(Michael Mitzenmacher)。调查:布隆过滤器的网络应用:一项调查。网络数学,1(4):485-5092003。网址:https://doi.org/10.1080/15427951.2004.10129096.
  10. Clément Canonne、Gautam Kamath和Thomas Steinke。离散高斯用于区分隐私。arXiv预印arXiv:2004.000102020。谷歌学者
  11. Seung Geol Choi、Dana Dachman-Soled、Mukul Kulkarni和Arkady Yerukhimovich。针对大规模统计的不同私营多方素描。IACR加密。电子打印架构。,2020:29, 2020. 网址:https://eprint.iacr.org/2020/029.
  12. 鲁文·科恩(Reuven Cohen)、利兰·卡齐尔(Liran Katzir)和阿维夫·叶赫兹克尔(Aviv Yehezkel)。将基数估计推广到和聚合的统一方案。信息处理快报,115(2):336-3422015。谷歌学者
  13. Graham Cormode、Minos N.Garofalakis、Peter J.Haas和Chris Jermaine。海量数据概要:样本、直方图、小波、草图。数据库基础与趋势,4(1-3):1-2942012。网址:https://doi.org/10.1561/1900000004.
  14. Damien Desfontaines、Andreas Lochbihler和David A.Basin。基数估计器不保护隐私。PoPET,2019(2):2019年26-46日。网址:https://doi.org/10.2478/popets-2019-0018.
  15. 辛西娅·德沃克(Cynthia Dwork)、弗兰克·麦克谢里(Frank McSherry)、科比·尼西姆(Kobbi Nissim)和亚当·史密斯(Adam D.Smith)。校准私人数据分析中的噪声灵敏度。第三届密码学理论会议,TCC,第265-284页,2006年。网址:https://doi.org/10.1007/11681878_14.
  16. 辛西娅·德沃克(Cynthia Dwork)、莫妮·纳尔(Moni Naor)、托尼安·皮塔西(Toniann Pitassi)、盖伊·罗斯布卢姆(Guy N Rothblum)和谢尔盖·叶卡宁(Sergey Yekhanin)。泛私有流媒体算法。在ICS中,第66-80页,2010年。谷歌学者
  17. 辛西娅·德沃克和亚伦·罗斯。差异隐私的算法基础。理论计算机科学基础与趋势,9(3-4):211-4072014。网址:https://doi.org/10.1561/040000042.
  18. 乌尔法尔·埃尔林森、瓦西尔·皮赫尔和阿列克桑德拉·科洛洛娃。RAPPOR:随机化可聚合隐私保护有序反应。2014年计算机和通信安全会议记录,第1054-1067页,2014年。网址:https://doi.org/10.1145/2660267.2660348.
  19. 菲利普·弗拉乔莱特(Philippe Flajolet)、埃里克·福西(Eric Fusy)、奥利维尔·甘杜埃(Olivier Gandouet)和弗雷德里克·梅尼尔(Frédéric Meunier)。HyperLogLog:近最优基数估计算法的分析。在AofA:算法分析,第137-1562007页。谷歌学者
  20. 菲利普·弗拉乔莱特和G.奈杰尔·马丁。数据库应用的概率计数算法。J.计算。系统。科学。,31(2):182-209, 1985. 网址:https://doi.org/10.1016/0022-0000(85)90041-8.
  21. Slawomir Goryczka、Li Xiong和Vaidy S.Sunderam。具有不同隐私的安全多方聚合:一项比较研究。2013年EDBT/ICDT联合会议,EDBT/ICTT’13,第155-163页,2013年。网址:https://doi.org/10.1145/2457317.2457343.
  22. Peter J Haas、Jeffrey F Naughton、S Seshadri和Lynne Stokes。基于抽样的属性不同值数量的估计。在VLDB中,第95卷,第311-3221995页。谷歌学者
  23. 莫里茨·哈德(Moritz Hardt)和库纳尔·塔瓦尔(Kunal Talwar)。关于不同隐私的几何学。2010年STOC计算机理论研讨会,第705-714页。网址:https://doi.org/10.1145/1806689.1806786.
  24. T.S.Jayram和David P.Woodruff。Johnson-Lindenstraus变换的最优界和具有次恒误差的流问题。算法学报,9(3):26:1-26:17,2013。网址:https://doi.org/10.1145/2483699.2483706.
  25. 丹尼尔·凯恩(Daniel M Kane)、杰拉尼·纳尔逊(Jelani Nelson)和大卫·伍德拉夫(David P Woodruff)。离散元问题的优化算法。2010年第29届ACM数据库系统原理研讨会(PODS)会议记录,第41-52页。谷歌学者
  26. Krishnaram Kenthapadi、Aleksandra Korolova、Ilya Mironov和Nina Mishra。通过Johnson-Lindenstraus转换实现隐私保护。《私人机密》,第5(1)期,2013年。网址:https://doi.org/10.29012/jpc.v5i1.625.
  27. Daniel Kifer、Shai Ben-David和Johannes Gehrke。检测数据流中的变化。在VLDB中,第4卷,第180-191页。加拿大多伦多,2004年。谷歌学者
  28. Daniel Kifer和Ashwin Machanavajhala。数据隐私中没有免费午餐。2011年《ACM国际数据管理会议记录》(SIGMOD)第193-204页。谷歌学者
  29. Eyal Kushilevitz、Rafail Ostrovsky和Yuval Rabani。高效搜索高维空间中的近似最近邻。在1998年计算机理论研讨会上,第614-623页。网址:https://doi.org/10.1145/276698.276877.
  30. Andrew McGregor、Ilya Mironov、Toniann Pitassi、Omer Reingold、Kunal Talwar和Salil Vadhan。两方差异隐私的限制。2010年第51届计算机科学基础年会,第81-90页。谷歌学者
  31. Frank McSherry和Kunal Talwar。通过差异隐私进行机制设计。在FOCS中,第7卷,第94-103页,2007年。谷歌学者
  32. 弗兰克·D·麦克谢里(Frank D McSherry)。隐私集成查询:用于隐私保护数据分析的可扩展平台。《ACM国际数据管理会议记录》(SIGMOD),第19-30页,2009年。谷歌学者
  33. Luca Melis、George Danezis和Emiliano De Cristofaro。高效的私人统计数据和简洁的草图。在2016年第23届网络和分布式系统安全研讨会上,NDSS。网址:https://doi.org/10.14722/ndss.2016.23175.
  34. Darakhshan Mir、S Muthukrishnan、Aleksandar Nikolov和Rebecca N Wright。泛私有算法:当内存没有帮助时。arXiv预印arXiv:1009.15442010。谷歌学者
  35. Darakhshan Mir、Shan Muthukrishnan、Aleksandar Nikolov和Rebecca N Wright。通过草图统计的泛私有算法。2011年第30届数据库系统原理研讨会(PODS)论文集,第37-48页。谷歌学者
  36. 伊利亚·米罗诺夫。最低有效位对差异隐私的重要性。在Ting Yu、George Danezis和Virgil D.Gligor,CCS计算机和通信安全会议编辑,第650-661页,2012年。网址:https://doi.org/10.1145/2382196.2382264.
  37. 伊利亚·米罗诺夫(Ilya Mironov)、奥姆坎特·潘迪(Omkant Pandey)、奥马尔·莱因戈尔德(Omer Reingold)和萨利尔·瓦丹(Salil P.Vadhan)。计算差异隐私。谢·哈列维(Shai Halevi),编辑,《密码学进展-密码》(Advances In Cryptology-CRYPTO),计算机科学讲义第5677卷,第126-142页,2009年。网址:https://doi.org/10.1007/978-3-642-03356-8_8.
  38. Michael Mitzenmacher、Rasmus Pagh和Ninh Pham。使用奇数草图对高度相似性进行有效估计。2014年第23届万维网国际会议论文集,第109-118页。谷歌学者
  39. 阿列克桑达·尼科洛夫(Aleksandar Nikolov)。个人沟通。澄清,2020年。谷歌学者
  40. Hagen Sparka、Florian Tschorsch和Björn Scheuermann。P2KMV:一个保持隐私的计数草图,用于高效准确的集合交集基数估计。IACR加密电子打印档案,2018:2342018。网址:http://eprint.iacr.org/2018/234.
  41. Rade Stanojevic、Mohamed Nabeel和Ting Yu。具有差异隐私的集合操作的分布式基数估计。在IEEE隐私意识计算研讨会上,PAC,第37-48页,2017。网址:https://doi.org/10.109/PAC.2017.43.
  42. Florian Tschorsch和Björn Scheuermann。一种用于保护隐私的分布式用户统计信息的算法。计算机网络,57(14):2775-27872013。网址:https://doi.org/10.1016/j.comnet.2013.05.011.
  43. 萨利尔·瓦丹。差异隐私的复杂性。在《密码学基础教程》中,第347-450页。施普林格,2017年。网址:https://doi.org/10.1007/978-3-319-57048-8_7.
  44. Saskia Nuñez von Voigt和Florian Tschorsch。Rrtxfm:差异私人统计的概率计数。2019年,在智能信息环境(TPSIE)的信任和隐私问题研讨会上。谷歌学者
  45. 斯坦利·华纳。随机反应:一种消除回避回答偏见的调查技术。美国统计协会杂志,60(309):63-691965。网址:http://www.jstor.org/stable/2283137.
  46. 罗伊斯·威尔逊(Royce J Wilson)、西莉亚·尤欣(Celia Yuxin Zhang)、威廉·林(William Lam)、达米安·德斯方丹(Damien Desfontaines)、丹尼尔·西蒙斯·马伦戈(Daniel Simmons-Marengo)和布莱恩特·吉。具有有限用户贡献的不同私有SQL。隐私增强技术会议记录,2020(2):230-25020。谷歌学者
  47. 大卫·P·伍德拉夫。计算机科学中的数据流和应用。EATCS公报,1142014年。网址:http://eatcs.org/beatcs/index.php/beatcs/article/view/304.
问题/备注/反馈
X(X)

Dagstuhl出版社反馈


感谢您的反馈!

已提交反馈

无法发送消息

请稍后再试或发送电子邮件