Efficient Differentially Private F₀ Linear Sketching

Pagh, Rasmus; Stausholm, Nina Mesing

doi:10.4230/LIPIcs.ICDT.2021.18

摘要

线性草图的一个强大功能是，从两个数据向量的草图中，可以计算出向量之间差异的草图。这使我们能够回答关于两个数据集之间差异的细粒度问题。在这项工作中，我们考虑如何构建加权F₀的草图，即数据集中元素的总权重，这些元素较小，具有差异私有性，并且计算效率高。设权向量w∈（0,1]^u。对于x∈{0,1}^u，我们感兴趣的是估计||x∘w||∈，其中∘是Hadamard乘积（入口乘积）。基于Kushilevitz等人（STOC 1998）的一种技术，我们引入了一个在GF（2）上线性的草图（取决于w），将向量x∈{0,1}^u映射到从适当分布ℋ中采样的矩阵H的Hx∈[0,1}^τ。通过使用随机响应，以概率p<1/2翻转Hx的每一位，实现差异隐私。也就是说，对于向量φ∈{0,1}^τ，其中Pr[（φ）_j=1]=p独立于每个条目j，我们考虑噪声草图Hx+φ，其中噪声的添加发生在GF（2）上。我们证明，对于0<β<1和ε=O（1）的每一个选择，都存在p<1/2和τ=O的线性草图的分布（log²（u）ε^{-2}β^{-2{），如下所示：1）对于随机H～ℋ和噪声向量φ，给定Hx+φ，我们可以计算||x∘w||₁的估计值，该估计值在因子1±β内是准确的，加上加性误差O（log（u）ε^{-2}β^{-2{），w.p.1-u^{-1}，以及2）对于每个H～ℋ，Hx+φ在φ中的随机性上是ε-微分私有的。特殊情况w=（1，…，1）是未加权F₀。此前，Mir等人（PODS 2011）和Kenthapadi等人（J.Priv.Confidentiality 2013）描述了一种不同的绘制未加权F，但校准草图噪声的算法计算效率不高，无论是在草图尺寸中使用准多项式时间，还是在宇宙尺寸u中使用超线性时间。对于固定ε，我们的草图的大小与Jayram&Woodruff（Trans.Algorithms 2013）提出的Ω（log（u）β^{-2}）比特的下限多项式相关。加性误差与Hardt&Talwar（STOC 2010）的Ω（1/ε）界限相当。我们的草图的一个应用是，可以添加两个草图，以形成形式H（x₁+x⁄）+（φ\8321»+φ⁄）的杂乱草图，这允许我们估计||（x⑩+x⁄）∘w|| \8321]。由于加法超过GF（2），这是向量x \8321；和x⁄的对称差的权重。最近的工作表明，如何使用（非线性）草图（如FM草图和Bloom Filters）私下有效地计算两个集合的对称差异大小的估计，但这些方法的误差范围不比O（√｛̄｛m｝｝）好，其中̄｛m｝是||xõ||₀和||xõ||₀的上界。当β=o（1/√{{m}}）和log（u）/ε={m}^{o（1）}时，这改进了以前的工作。总之，我们的结果提高了现有无权F₀估计方法的效率，并扩展到加权推广。我们还提供了一个分布式流实现，用于估计两个输入流之间的并集大小。

穆罕默德·阿拉甘（Mohammad Alaggan）、塞巴斯蒂安·甘姆斯（Sébastien Gambs）和安妮·马里·科尔马雷克（Anne-Marie Kermarrec）。BLIP：bloom过滤器上的非交互式差分-私有相似性计算。分布式系统的稳定、安全和安保——第14届国际研讨会，SSS，第202-216页，2012年。网址：https://doi.org/10.1007/978-3-642-33536-5_20.
穆罕默德·阿拉甘、塞巴斯蒂安·甘姆斯、斯坦·马特温和穆罕默德·图欣。通过不同的私有bloom过滤器对呼叫详细记录进行清理。数据和应用程序安全与隐私XXIX-第29届IFIP工作组11.3年度工作会议，DBSec 2015，第223-230页，2015。网址：https://doi.org/10.1007/978-3-319-20810-7_15.
诺加·阿隆、菲利普·吉本斯、尤西·马蒂亚斯和马里奥·塞格迪。跟踪有限存储中的连接和自连接大小。计算机与系统科学杂志，64（3）：719-7472002。
诺加·阿隆、尤西·马蒂亚斯和马里奥·塞格迪。近似频率矩的空间复杂性。在1996年计算机理论研讨会上，第20-29页。网址：https://doi.org/10.1145/237814.237823.
Pranjal Awasthi、Maria Florina Balcan、Nika Haghtalab和Hongyang Zhang。非对称噪声下的学习和1位压缩感知。《学习理论会议》，第152-192页，2016年。
Ziv Bar Yossef、TS Jayram、Ravi Kumar、D Sivakumar和Luca Trevisan。计算数据流中不同元素的数量。2002年计算机科学中随机和近似技术国际研讨会，第1-10页。
Valerio Bioglio、Tiziano Bianchi和Enrico Magli。在有限范围内确保压缩传感。信息取证与安全国际研讨会（WIFS），第191-196页，2014年。
Jeremiah Blocki、Avrim Blum、Anupam Datta和Or Sheffet。约翰逊-林德斯特劳斯变换本身保留了不同的隐私。2012年FOCS计算机科学基础研讨会，第410-419页。网址：https://doi.org/10.1109/FOCS.2012.67.
安德烈·布罗德（Andrei Z.Broder）和迈克尔·米赞马赫（Michael Mitzenmacher）。调查：布隆过滤器的网络应用：一项调查。网络数学，1（4）：485-5092003。网址：https://doi.org/10.1080/15427951.2004.10129096.
Clément Canonne、Gautam Kamath和Thomas Steinke。离散高斯用于区分隐私。arXiv预印arXiv:2004.000102020。
Seung Geol Choi、Dana Dachman-Soled、Mukul Kulkarni和Arkady Yerukhimovich。针对大规模统计的不同私营多方素描。IACR加密。电子打印架构。，2020:29, 2020. 网址：https://eprint.iacr.org/2020/029.
鲁文·科恩（Reuven Cohen）、利兰·卡齐尔（Liran Katzir）和阿维夫·叶赫兹克尔（Aviv Yehezkel）。将基数估计推广到和聚合的统一方案。信息处理快报，115（2）：336-3422015。
Graham Cormode、Minos N.Garofalakis、Peter J.Haas和Chris Jermaine。海量数据概要：样本、直方图、小波、草图。数据库基础与趋势，4（1-3）：1-2942012。网址：https://doi.org/10.1561/1900000004.
Damien Desfontaines、Andreas Lochbihler和David A.Basin。基数估计器不保护隐私。PoPET，2019（2）：2019年26-46日。网址：https://doi.org/10.2478/popets-2019-0018.
辛西娅·德沃克（Cynthia Dwork）、弗兰克·麦克谢里（Frank McSherry）、科比·尼西姆（Kobbi Nissim）和亚当·史密斯（Adam D.Smith）。校准私人数据分析中的噪声灵敏度。第三届密码学理论会议，TCC，第265-284页，2006年。网址：https://doi.org/10.1007/11681878_14.
辛西娅·德沃克（Cynthia Dwork）、莫妮·纳尔（Moni Naor）、托尼安·皮塔西（Toniann Pitassi）、盖伊·罗斯布卢姆（Guy N Rothblum）和谢尔盖·叶卡宁（Sergey Yekhanin）。泛私有流媒体算法。在ICS中，第66-80页，2010年。
辛西娅·德沃克和亚伦·罗斯。差异隐私的算法基础。理论计算机科学基础与趋势，9（3-4）：211-4072014。网址：https://doi.org/10.1561/040000042.
乌尔法尔·埃尔林森、瓦西尔·皮赫尔和阿列克桑德拉·科洛洛娃。RAPPOR：随机化可聚合隐私保护有序反应。2014年计算机和通信安全会议记录，第1054-1067页，2014年。网址：https://doi.org/10.1145/2660267.2660348.
菲利普·弗拉乔莱特（Philippe Flajolet）、埃里克·福西（Eric Fusy）、奥利维尔·甘杜埃（Olivier Gandouet）和弗雷德里克·梅尼尔（Frédéric Meunier）。HyperLogLog：近最优基数估计算法的分析。在AofA:算法分析，第137-1562007页。
菲利普·弗拉乔莱特和G.奈杰尔·马丁。数据库应用的概率计数算法。J.计算。系统。科学。，31(2):182-209, 1985. 网址：https://doi.org/10.1016/0022-0000(85)90041-8.
Slawomir Goryczka、Li Xiong和Vaidy S.Sunderam。具有不同隐私的安全多方聚合：一项比较研究。2013年EDBT/ICDT联合会议，EDBT/ICTT’13，第155-163页，2013年。网址：https://doi.org/10.1145/2457317.2457343.
Peter J Haas、Jeffrey F Naughton、S Seshadri和Lynne Stokes。基于抽样的属性不同值数量的估计。在VLDB中，第95卷，第311-3221995页。
莫里茨·哈德（Moritz Hardt）和库纳尔·塔瓦尔（Kunal Talwar）。关于不同隐私的几何学。2010年STOC计算机理论研讨会，第705-714页。网址：https://doi.org/10.1145/1806689.1806786.
T.S.Jayram和David P.Woodruff。Johnson-Lindenstraus变换的最优界和具有次恒误差的流问题。算法学报，9（3）：26:1-26:17，2013。网址：https://doi.org/10.1145/2483699.2483706.
丹尼尔·凯恩（Daniel M Kane）、杰拉尼·纳尔逊（Jelani Nelson）和大卫·伍德拉夫（David P Woodruff）。离散元问题的优化算法。2010年第29届ACM数据库系统原理研讨会（PODS）会议记录，第41-52页。
Krishnaram Kenthapadi、Aleksandra Korolova、Ilya Mironov和Nina Mishra。通过Johnson-Lindenstraus转换实现隐私保护。《私人机密》，第5（1）期，2013年。网址：https://doi.org/10.29012/jpc.v5i1.625.
Daniel Kifer、Shai Ben-David和Johannes Gehrke。检测数据流中的变化。在VLDB中，第4卷，第180-191页。加拿大多伦多，2004年。
Daniel Kifer和Ashwin Machanavajhala。数据隐私中没有免费午餐。2011年《ACM国际数据管理会议记录》（SIGMOD）第193-204页。
Eyal Kushilevitz、Rafail Ostrovsky和Yuval Rabani。高效搜索高维空间中的近似最近邻。在1998年计算机理论研讨会上，第614-623页。网址：https://doi.org/10.1145/276698.276877.
Andrew McGregor、Ilya Mironov、Toniann Pitassi、Omer Reingold、Kunal Talwar和Salil Vadhan。两方差异隐私的限制。2010年第51届计算机科学基础年会，第81-90页。
Frank McSherry和Kunal Talwar。通过差异隐私进行机制设计。在FOCS中，第7卷，第94-103页，2007年。
弗兰克·D·麦克谢里（Frank D McSherry）。隐私集成查询：用于隐私保护数据分析的可扩展平台。《ACM国际数据管理会议记录》（SIGMOD），第19-30页，2009年。
Luca Melis、George Danezis和Emiliano De Cristofaro。高效的私人统计数据和简洁的草图。在2016年第23届网络和分布式系统安全研讨会上，NDSS。网址：https://doi.org/10.14722/ndss.2016.23175.
Darakhshan Mir、S Muthukrishnan、Aleksandar Nikolov和Rebecca N Wright。泛私有算法：当内存没有帮助时。arXiv预印arXiv:1009.15442010。
Darakhshan Mir、Shan Muthukrishnan、Aleksandar Nikolov和Rebecca N Wright。通过草图统计的泛私有算法。2011年第30届数据库系统原理研讨会（PODS）论文集，第37-48页。
伊利亚·米罗诺夫。最低有效位对差异隐私的重要性。在Ting Yu、George Danezis和Virgil D.Gligor，CCS计算机和通信安全会议编辑，第650-661页，2012年。网址：https://doi.org/10.1145/2382196.2382264.
伊利亚·米罗诺夫（Ilya Mironov）、奥姆坎特·潘迪（Omkant Pandey）、奥马尔·莱因戈尔德（Omer Reingold）和萨利尔·瓦丹（Salil P.Vadhan）。计算差异隐私。谢·哈列维（Shai Halevi），编辑，《密码学进展-密码》（Advances In Cryptology-CRYPTO），计算机科学讲义第5677卷，第126-142页，2009年。网址：https://doi.org/10.1007/978-3-642-03356-8_8.
Michael Mitzenmacher、Rasmus Pagh和Ninh Pham。使用奇数草图对高度相似性进行有效估计。2014年第23届万维网国际会议论文集，第109-118页。
阿列克桑达·尼科洛夫（Aleksandar Nikolov）。个人沟通。澄清，2020年。
Hagen Sparka、Florian Tschorsch和Björn Scheuermann。P2KMV：一个保持隐私的计数草图，用于高效准确的集合交集基数估计。IACR加密电子打印档案，2018:2342018。网址：http://eprint.iacr.org/2018/234.
Rade Stanojevic、Mohamed Nabeel和Ting Yu。具有差异隐私的集合操作的分布式基数估计。在IEEE隐私意识计算研讨会上，PAC，第37-48页，2017。网址：https://doi.org/10.109/PAC.2017.43.
Florian Tschorsch和Björn Scheuermann。一种用于保护隐私的分布式用户统计信息的算法。计算机网络，57（14）：2775-27872013。网址：https://doi.org/10.1016/j.comnet.2013.05.011.
萨利尔·瓦丹。差异隐私的复杂性。在《密码学基础教程》中，第347-450页。施普林格，2017年。网址：https://doi.org/10.1007/978-3-319-57048-8_7.
Saskia Nuñez von Voigt和Florian Tschorsch。Rrtxfm：差异私人统计的概率计数。2019年，在智能信息环境（TPSIE）的信任和隐私问题研讨会上。
斯坦利·华纳。随机反应：一种消除回避回答偏见的调查技术。美国统计协会杂志，60（309）：63-691965。网址：http://www.jstor.org/stable/2283137.
罗伊斯·威尔逊（Royce J Wilson）、西莉亚·尤欣（Celia Yuxin Zhang）、威廉·林（William Lam）、达米安·德斯方丹（Damien Desfontaines）、丹尼尔·西蒙斯·马伦戈（Daniel Simmons-Marengo）和布莱恩特·吉。具有有限用户贡献的不同私有SQL。隐私增强技术会议记录，2020（2）：230-25020。
大卫·P·伍德拉夫。计算机科学中的数据流和应用。EATCS公报，1142014年。网址：http://eatcs.org/beatcs/index.php/beatcs/article/view/304.

高效差分私有F₀线性草图

作者拉斯穆斯·帕赫 , 尼娜·梅辛·斯塔索姆

文件

文件标识符

作者详细信息

鸣谢

引用为获取BibTex

摘要

主题分类

ACM科目分类

关键词

韵律学

工具书类

感谢您的反馈！

无法发送消息