×

实用的当地私人重击手。 (英语) Zbl 1498.68099号

摘要:我们提出了新的实用的局部差异私有重击数算法,以实现最佳或接近最佳的最坏情况错误和运行时间–TreeHist和Bitstogram。在这两种算法中,服务器运行时间为(tilde O(n)),用户运行时间为[R.巴西里A.史密斯,摘自:第47届ACM计算理论年会论文集,STOC’15。纽约州纽约市:计算机协会(ACM)。127–135 (2015;Zbl 1321.94037号)]需要\(O(n^{5/2})\)服务器时间和\(O。由于本地算法中通常有大量参与者(以百万计),这种时间复杂性的降低,尤其是在用户端,对于使本地私有重击算法在实践中可用至关重要。我们实现了Algorithm TreeHist来验证我们的理论分析,并将其性能与谷歌RAPPOR代码的性能进行了比较。

MSC公司:

68第27页 数据隐私
62E17型 统计分布的近似值(非共鸣)

软件:

RAPPOR公司
PDF格式BibTeX公司 XML格式引用
全文: arXiv公司 链接

参考文献:

[1] Nltk-brown公司。www.Nltk.org。
[2] 苹果试图在不侵犯隐私的情况下查看用户习惯。《华尔街日报》,2016年。
[3] 诺加·阿龙和乔尔·斯宾塞。概率方法。约翰·威利,1992年。国际标准图书编号0-47153588-5·Zbl 1333.05001号
[4] Raef Bassily和Adam Smith。用于简洁直方图的本地、私有、高效协议。第47届ACM计算机理论研讨会论文集,第127-135页。ACM,2015年·Zbl 1321.94037号
[5] 阿莫斯·贝梅尔(Amos Beimel)、科比·尼西姆(Kobbi Nissim)和乌里·斯特默(Uri Stemmer)。私人学习和净化:纯粹隐私与近似差异隐私。计算理论,12(1):1-612016。doi:10.4086/toc.2016.v012a001。统一资源定位地址http://dx.doi.org/10.4086/toc.2016.v012a001。 ·Zbl 1362.68096号
[6] M.Bellare和J.Rompel。随机有效的不经意采样。第35届计算机科学基础年度研讨会论文集,SFCS’94,第276-287页,美国华盛顿特区,1994年。IEEE计算机学会。国际标准图书编号0-8186-6580-7。doi:10.1109/SFCS.1994.365687。统一资源定位地址http://dx.doi.org/10.109/SFCS.1994.365687。
[7] Mark Bun、Kobbi Nissim、Uri Stemmer和Salil P.Vadhan。阈值函数的不同私有发布和学习。In Venkatesan Guruswami,编辑,IEEE第56届计算机科学基础年度研讨会,FOCS 2015,美国加利福尼亚州伯克利,17-20·Zbl 1334.68179号
[8] Mark Bun、Jelani Nelson和Uri Stemmer。重量级人物和当地隐私结构。第37届ACM SIGMOD-SIGACT-SIGAI数据库系统原理研讨会论文集,美国德克萨斯州休斯顿,2018年6月10日至15日,第435-447页。doi:10.1145/3196959.3196981。统一资源定位地址https://doi.org/10.1145/3196959.3196981。 ·Zbl 1454.68042号
[9] T.-H.Hubert Chan、Elaine Shi和Dawn Song。差异私有多方聚合的最佳下界。2012年9月10日,斯洛文尼亚卢布尔雅那,《算法——2012年欧洲航天局——第20届欧洲年会》编辑Leah Epstein和Paolo Ferragina。《计算机科学讲义》第7501卷,第277-288页。施普林格,2012年。国际标准图书编号978-3-642-33089-6。doi:10.1007/978-3642-33090-25。统一资源定位地址http://dx.doi.org/10.1007/978-3642-33090-2_25。 ·Zbl 1365.68064号
[10] Moses Charikar、Kevin Chen和Martin Farach-Colton。在数据流中查找频繁项。InICALP,2002年·Zbl 1057.68600号
[11] 辛西娅·德沃克、弗兰克·麦克谢里、科比·尼西姆和亚当·史密斯。校准私人数据分析中的噪声灵敏度。《密码学理论会议》,第265-284页。斯普林格,2006年·Zbl 1112.94027号
[12] 乌尔法尔·埃尔林森(Ulfar Erlingsson)、瓦西尔·皮赫尔(Vasyl Pihur)和阿列克桑德拉·科洛洛娃(Aleksandra Korolova)。Rappor:随机化可聚合“隐私保护有序反应”。InCCS,2014年。
[13] 亚历山大·埃夫菲米耶夫斯基(Alexandre Evfimievski)、约翰·盖尔克(Johannes Gehrke)和拉马克里什南·斯里坎特(Ramakrishnan Srikant)。限制隐私保护数据挖掘中的隐私泄露。InPODS,第211-222页。ACM,2003年。国际标准图书编号1-58113-670-6。
[14] 朱利娅·范蒂、瓦西尔·皮赫尔和乌尔法尔·埃尔林森。用未知构建说唱歌手:协会和数据字典的隐私保护学习。arXiv预印本arXiv:1503.012142015。
[15] 文卡特桑·古鲁斯瓦米。列出纠错代码的解码。麻省理工学院博士论文,2001年。苏丹马杜·穆杜尔(Madhu Sudan)监事·Zbl 1002.94041号
[16] 徐震霆(Justin Hsu)、桑吉夫·坎纳(Sanjeev Khanna)和亚伦·罗斯(Aaron Roth)。分散的私人重量级人物。《自动机、语言和程序设计国际学术讨论会》,第461-472页。施普林格,2012年·Zbl 1272.68125号
[17] Shiva Prasad Kasiviswanathan、Homin K Lee、Kobbi Nissim、Sofya Raskhodnikova和Adam Smith。我们可以私下学到什么?SIAM计算机杂志,40(3):793-8262011·Zbl 1235.68093号
[18] 尼娜·米什拉和马克·桑德勒。通过伪随机草图进行隐私保护。第二十五届ACM SIGMOD-SIGACT-SIGART数据库系统原理研讨会论文集,第143-152页。ACM,2006年。
[19] 迈克尔·米赞马赫(Michael Mitzenmacher)和埃利·厄普法尔(Eli Upfal)。概率与计算:随机算法与概率分析。剑桥大学出版社,纽约,纽约,美国。国际标准书号0521835402·Zbl 1092.60001号
[20] A.G.Thakurta、A.H.Vyrros、U.S.Vaishampayan、G.Kapoor、J.Freudiger、V.R.Sridhar和D.Davidson。学习新单词。美国专利95947412017。
[21] 萨利尔·瓦丹。伪随机性。理论计算机科学基础与趋势,7(13):1-3362012。ISSN 1551-305X。doi:10.1561/0400000010。网址:http://dx.doi.org/10.1561/0400000010。
[22] A.第5节缺少证据
[23] A.1、。定理证明5.1
[24] 很容易看出,自
[25] 以i,ji,ri的任何实现为条件,对于任何一对可能的输入项svi,vi0∈Vto
[26] LocalR和在算法1的步骤7中生成的任何输出比特,我们有P[yi=b|vi]≤e/2Pyi=b| vi0
[27] TreeHist的扫描/修剪阶段)和final=1时的另一个时间(
[28] TreeHist)。因此,它遵循协议TreeHistis-differential-private。
[29] A.2、。定理证明5.2
[30] 设β∈(0,1)和η如定理中所定义。考虑的修剪阶段
[31] TreeHist,即算法3中的步骤1到11。设γ为步骤2中设定的值。在该阶段中,
[32] TreeHistinvokesFreqOracle在外循环的每次迭代中执行一次(在
[33] 树),标志Final=0。考虑任何这样的迭代”。假设现在
[34] 在该迭代中传递给FreqOracle的ChildSet(前缀)的大小最多为2n/η。(我们
[35] 将表明概率至少为1-β时,该条件在所有水平上都满足
[36] 树,即它是循环不变量)。通过使用Vb=ChildSet(前缀)调用引理5.3
[37] 概率至少为1-β/log(d),对于每个ˆv∈ChildSet(前缀):f(\710»v)>3η,FreqOracle
[38] 给出了f(ˆv)≥2η的估计,对于每个\710»v∈ChildSet(前缀):f(ڮv)≤η,FreqOracle
[39] 给出了f(v)<2η的估计值。因此,第9步意味着,概率至少为1-β/logd,
[40] 真频率为(v)≥3η的所有ˆv∈ChildSet(前缀)将进行下一次迭代
[41] '+1和所有具有真频率(v∈v)<η的ˆv∈ChildSet(前缀)将被删除。
[42] 由于真频率f(ˆv)≥η的节点数\710»v不能大于n/η,那么
[43] 下一次迭代'+1中幸存节点的数量不能超过2n/η。因此,
[44] 这个条件将在下一次迭代中得到满足,我们可以以同样的方式进行。
[45] 注意,当'=1时,条件基本满足,因为只有2<2n/η节点
[46] 在这个层面上。这个归纳论证表明,概率至少为1-β
[47] level’∈[logd],level上幸存的节点对应于其真实频率的前缀
[48] 不低于η,包括真实频率高于3η的所有前缀。特别是39
[49] 在概率至少为1-β的情况下,SuccHist中的所有项都满足这些属性。这包括
[50] 定理5.2第1项和第2项的证明。现在,考虑TreeHist的最后阶段,即步骤12到14算法3。让γ
[51] 如步骤12所示。在这个阶段中,TreeHistinvokesFreqOracle将保留节点
[52] 在树的最后一级(Prefixes的最后一次更新),输入标志final=1。
[53] 现在,通过使用Vb=前缀调用引理5.3,Iáj:j∈[t]=Ij:j≈[t],以及
[54] γ=t=110 log(n/β),我们得到概率至少为1-β/log(d),每√√
[55] v∈前缀,|fˆ(v)−f(v)|≤14nt/=Onlog(n/β)。这证明了
[56] 定理。
[57] B.第6节缺少校对
[58] B.1、。引理的证明6.5
[59] 考虑以下良好事件:
[60] 事件E1(过采样1,··,hR):
[61] 对于每个查询v∗∈V,对于每个
[62] r*∈Rv1*认为|{v∈S:v6=v*和hr*(v)=hr*(v*)}|≤16Tn。EventE1指出,对于至少7R/8的散列函数,我们已经映射了v*
[63] 不与不同的输入元素发生太多冲突。非正式地,每
[64] 单个散列函数hr,algorithmHashH测试hr(v∗)的出现次数
[65] 英寸。因此,如果事件E1发生,那么大多数估计都会得到准确的答案。
[66] 我们首先说明事件E1发生的概率很高。为此,fixv∗∈V
[67] 和修正值*∈[R]。我们得到了Ehr*[|{x∈S:v6=v*和hr*(v)=hr*(v*)}|]=XEhr*1hr*。
[68] 因此,根据马尔可夫不等式,我们得到Pr|{v∈s:v6=v*和hr*(v)=hr*(v*)}|≥16n≤1。
[69] 由于散列函数相互独立,对于R≥48 ln(dβ0),由Chernoff
[70] 我们得到概率至少为1-β/d0(在抽样1,…,hR上)存在的界限
[71] 一个子集Rv1*⊆[R]的大小为|Rv1*|≥78Rs.t。对于每一年*∈Rv1**,它认为|{v∈S:v6=v*和hr*(v)=hr*(v*)}|≤16n。
[72] 使用并界,我们得到事件E1发生的概率至少为1-β。我们
[73] 假设事件E1发生,继续分析。40
[74] s.t.j∈Ir。对于v∈Vandr∈[R],表示|Sr,v∗|,|{v∈S:hr(v)=hr(v∗)}|。那就是,
[75] |Sr,v∗|是用户数js.t.hr(vj)=hr(v∗)。此外,forv∗∈Vandr∈[R]
[76] 表示|Irv∗|,|{v∈Sr:hr(v)=hr(v∗)}|。也就是说,|Irv*|是用户数js.t.j∈Ir
[77] andhr(vj)=hr(v*)。观察|Sr,v*|≥fS(v**)和|Irv*|≥fSr(v*)。Fixv∗∈V。根据Chernoff界,概率至少为1-β/d0(过度分割
[78] [n] 第11小节,IR),对于每个∈[R],我们有
[79] 使用并界,这对每一个*∈Vandr∈[R]同时成立
[80] 概率至少为1-β。此外,假设n≥8Rlog(2R/β),通过Chernoff结合,
[81] 概率至少为1-β(将[n]过度划分为子集I1,…,IR),对于每个R∈[R]
[82] 我们有2nR≤|Ir|≤2Rn。我们继续进行分析,假设情况确实如此,并且
[83] 不平等(4)成立。
[84] 事件E2(通过抽样和当地随机化者的硬币):
[85] 对于每个查询v∗∈V,对于每个
[86] r*∈Rv2*它认为r·ar*(hr*(v*))−r·|Irv**|≤ee+1−1·11nR。Forv∗∈Vandr∈[R]表示cr(v∗)=Pj∈Iyj·Z[hr(v*),j],并回忆一下该算法
[87] Hashtogram用a(v*)=R·ee+1−1·Medianr∈[R]{cr(v**)}回答查询v*。固定值*∈V
[88] and∈[R]。我们现在分析了cr(v*):E[c(v*
[89] 期望值为−+11的变量,以及期望值为0的(|Ir|−|Irv*|)变量(回想一下2Rr|≤2Rn)。使用Hoeffing界,概率至少为43/44
[90] Fixv∗∈V,并观察到上述总和对于不同的ofr值是独立的。
[91] 因此,使用Chernoff界并断言R≥132 ln(d0/β),对于固定dv∗∈V,
[92] 概率至少为1-β/d0时,不等式(5)适用于至少7R/8个选择
[93] r∈[r]。使用并界,概率至少为1-β,这对每个V∈V都是正确的
[94] 同时。也就是说,事件E2发生的概率至少为1-β。我们继续
[95] 假设事件E2发生的分析。对于每一个*∈Vwe表示Rv3*=Rv1*∈Rv2*。结合eventE2和不等式(4),我们得到了everyr∈Rv2∗
[96] 此外,对于每v*∈Vand everyr∈Rv1*,我们得到|Sr,v*|≤fS(v*)+16Tn。因此,对于
[97] everyv∗∈Vand everyr∈Rv3∗我们得到|R·ar(hr(v∗))−fS(v*)|≤e+1·√11nR+s3R·f16n2Rd016n
[98] 也就是说,对于everyr∈Rv3∗,我们得出R·ar(hr(v∗))在误差范围内是准确的。作为
[99] |Rv3*|≥3R,作为算法Hashtogramanswersv*,a(v*)被选为4的中间值
此参考列表基于出版商或数字数学图书馆提供的信息。它的项目与zbMATH标识符启发式匹配,并且可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。