文件Zbl 1498.68099-zbMATH Open

实用的当地私人重击手。（英语） Zbl 1498.68099号

J.马赫。学习。物件。 21，第16号论文，42页（2020年）.

摘要：我们提出了新的实用的局部差异私有重击数算法，以实现最佳或接近最佳的最坏情况错误和运行时间–TreeHist和Bitstogram。在这两种算法中，服务器运行时间为（tilde O（n）），用户运行时间为[R.巴西里和A.史密斯，摘自：第47届ACM计算理论年会论文集，STOC’15。纽约州纽约市：计算机协会（ACM）。127–135 (2015;Zbl 1321.94037号)]需要\（O（n^{5/2}）\）服务器时间和\（O。由于本地算法中通常有大量参与者（以百万计），这种时间复杂性的降低，尤其是在用户端，对于使本地私有重击算法在实践中可用至关重要。我们实现了Algorithm TreeHist来验证我们的理论分析，并将其性能与谷歌RAPPOR代码的性能进行了比较。

引用于三文件

MSC公司：

68第27页	数据隐私
62E17型	统计分布的近似值（非共鸣）

PDF格式 BibTeX公司 XML格式引用

全文： arXiv公司链接

参考文献：

[1]	Nltk-brown公司。www.Nltk.org。
[2]	苹果试图在不侵犯隐私的情况下查看用户习惯。《华尔街日报》，2016年。
[3]	诺加·阿龙和乔尔·斯宾塞。概率方法。约翰·威利，1992年。国际标准图书编号0-47153588-5·Zbl 1333.05001号
[4]	Raef Bassily和Adam Smith。用于简洁直方图的本地、私有、高效协议。第47届ACM计算机理论研讨会论文集，第127-135页。ACM，2015年·Zbl 1321.94037号
[5]	阿莫斯·贝梅尔（Amos Beimel）、科比·尼西姆（Kobbi Nissim）和乌里·斯特默（Uri Stemmer）。私人学习和净化：纯粹隐私与近似差异隐私。计算理论，12（1）：1-612016。doi:10.4086/toc.2016.v012a001。统一资源定位地址http://dx.doi.org/10.4086/toc.2016.v012a001。 ·Zbl 1362.68096号
[6]	M.Bellare和J.Rompel。随机有效的不经意采样。第35届计算机科学基础年度研讨会论文集，SFCS’94，第276-287页，美国华盛顿特区，1994年。IEEE计算机学会。国际标准图书编号0-8186-6580-7。doi:10.1109/SFCS.1994.365687。统一资源定位地址http://dx.doi.org/10.109/SFCS.1994.365687。
[7]	Mark Bun、Kobbi Nissim、Uri Stemmer和Salil P.Vadhan。阈值函数的不同私有发布和学习。In Venkatesan Guruswami，编辑，IEEE第56届计算机科学基础年度研讨会，FOCS 2015，美国加利福尼亚州伯克利，17-20·Zbl 1334.68179号
[8]	Mark Bun、Jelani Nelson和Uri Stemmer。重量级人物和当地隐私结构。第37届ACM SIGMOD-SIGACT-SIGAI数据库系统原理研讨会论文集，美国德克萨斯州休斯顿，2018年6月10日至15日，第435-447页。doi:10.1145/3196959.3196981。统一资源定位地址https://doi.org/10.1145/3196959.3196981。 ·Zbl 1454.68042号
[9]	T.-H.Hubert Chan、Elaine Shi和Dawn Song。差异私有多方聚合的最佳下界。2012年9月10日，斯洛文尼亚卢布尔雅那，《算法——2012年欧洲航天局——第20届欧洲年会》编辑Leah Epstein和Paolo Ferragina。《计算机科学讲义》第7501卷，第277-288页。施普林格，2012年。国际标准图书编号978-3-642-33089-6。doi:10.1007/978-3642-33090-25。统一资源定位地址http://dx.doi.org/10.1007/978-3642-33090-2_25。 ·Zbl 1365.68064号
[10]	Moses Charikar、Kevin Chen和Martin Farach-Colton。在数据流中查找频繁项。InICALP，2002年·Zbl 1057.68600号
[11]	辛西娅·德沃克、弗兰克·麦克谢里、科比·尼西姆和亚当·史密斯。校准私人数据分析中的噪声灵敏度。《密码学理论会议》，第265-284页。斯普林格，2006年·Zbl 1112.94027号
[12]	乌尔法尔·埃尔林森（Ulfar Erlingsson）、瓦西尔·皮赫尔（Vasyl Pihur）和阿列克桑德拉·科洛洛娃（Aleksandra Korolova）。Rappor：随机化可聚合“隐私保护有序反应”。InCCS，2014年。
[13]	亚历山大·埃夫菲米耶夫斯基（Alexandre Evfimievski）、约翰·盖尔克（Johannes Gehrke）和拉马克里什南·斯里坎特（Ramakrishnan Srikant）。限制隐私保护数据挖掘中的隐私泄露。InPODS，第211-222页。ACM，2003年。国际标准图书编号1-58113-670-6。
[14]	朱利娅·范蒂、瓦西尔·皮赫尔和乌尔法尔·埃尔林森。用未知构建说唱歌手：协会和数据字典的隐私保护学习。arXiv预印本arXiv：1503.012142015。
[15]	文卡特桑·古鲁斯瓦米。列出纠错代码的解码。麻省理工学院博士论文，2001年。苏丹马杜·穆杜尔（Madhu Sudan）监事·Zbl 1002.94041号
[16]	徐震霆（Justin Hsu）、桑吉夫·坎纳（Sanjeev Khanna）和亚伦·罗斯（Aaron Roth）。分散的私人重量级人物。《自动机、语言和程序设计国际学术讨论会》，第461-472页。施普林格，2012年·Zbl 1272.68125号
[17]	Shiva Prasad Kasiviswanathan、Homin K Lee、Kobbi Nissim、Sofya Raskhodnikova和Adam Smith。我们可以私下学到什么？SIAM计算机杂志，40（3）：793-8262011·Zbl 1235.68093号
[18]	尼娜·米什拉和马克·桑德勒。通过伪随机草图进行隐私保护。第二十五届ACM SIGMOD-SIGACT-SIGART数据库系统原理研讨会论文集，第143-152页。ACM，2006年。
[19]	迈克尔·米赞马赫（Michael Mitzenmacher）和埃利·厄普法尔（Eli Upfal）。概率与计算：随机算法与概率分析。剑桥大学出版社，纽约，纽约，美国。国际标准书号0521835402·Zbl 1092.60001号
[20]	A.G.Thakurta、A.H.Vyrros、U.S.Vaishampayan、G.Kapoor、J.Freudiger、V.R.Sridhar和D.Davidson。学习新单词。美国专利95947412017。
[21]	萨利尔·瓦丹。伪随机性。理论计算机科学基础与趋势，7（13）：1-3362012。ISSN 1551-305X。doi:10.1561/0400000010。网址：http://dx.doi.org/10.1561/0400000010。
[22]	A.第5节缺少证据
[23]	A.1、。定理证明5.1
[24]	很容易看出，自
[25]	以i，ji，ri的任何实现为条件，对于任何一对可能的输入项svi，vi0∈Vto
[26]	LocalR和在算法1的步骤7中生成的任何输出比特，我们有P[yi=b\|vi]≤e/2Pyi=b\| vi0
[27]	TreeHist的扫描/修剪阶段）和final=1时的另一个时间（
[28]	TreeHist）。因此，它遵循协议TreeHistis-differential-private。
[29]	A.2、。定理证明5.2
[30]	设β∈（0,1）和η如定理中所定义。考虑的修剪阶段
[31]	TreeHist，即算法3中的步骤1到11。设γ为步骤2中设定的值。在该阶段中，
[32]	TreeHistinvokesFreqOracle在外循环的每次迭代中执行一次（在
[33]	树），标志Final=0。考虑任何这样的迭代”。假设现在
[34]	在该迭代中传递给FreqOracle的ChildSet（前缀）的大小最多为2n/η。（我们
[35]	将表明概率至少为1-β时，该条件在所有水平上都满足
[36]	树，即它是循环不变量）。通过使用Vb=ChildSet（前缀）调用引理5.3
[37]	概率至少为1-β/log（d），对于每个ˆv∈ChildSet（前缀）：f（\710»v）>3η，FreqOracle
[38]	给出了f（ˆv）≥2η的估计，对于每个\710»v∈ChildSet（前缀）：f（ڮv）≤η，FreqOracle
[39]	给出了f（v）<2η的估计值。因此，第9步意味着，概率至少为1-β/logd，
[40]	真频率为（v）≥3η的所有ˆv∈ChildSet（前缀）将进行下一次迭代
[41]	'+1和所有具有真频率（v∈v）<η的ˆv∈ChildSet（前缀）将被删除。
[42]	由于真频率f（ˆv）≥η的节点数\710»v不能大于n/η，那么
[43]	下一次迭代'+1中幸存节点的数量不能超过2n/η。因此，
[44]	这个条件将在下一次迭代中得到满足，我们可以以同样的方式进行。
[45]	注意，当'=1时，条件基本满足，因为只有2<2n/η节点
[46]	在这个层面上。这个归纳论证表明，概率至少为1-β
[47]	level’∈[logd]，level上幸存的节点对应于其真实频率的前缀
[48]	不低于η，包括真实频率高于3η的所有前缀。特别是39
[49]	在概率至少为1-β的情况下，SuccHist中的所有项都满足这些属性。这包括
[50]	定理5.2第1项和第2项的证明。现在，考虑TreeHist的最后阶段，即步骤12到14算法3。让γ
[51]	如步骤12所示。在这个阶段中，TreeHistinvokesFreqOracle将保留节点
[52]	在树的最后一级（Prefixes的最后一次更新），输入标志final=1。
[53]	现在，通过使用Vb=前缀调用引理5.3，Iáj:j∈[t]=Ij:j≈[t]，以及
[54]	γ=t=110 log（n/β），我们得到概率至少为1-β/log（d），每√√
[55]	v∈前缀，\|fˆ（v）−f（v）\|≤14nt/=Onlog（n/β）。这证明了
[56]	定理。
[57]	B.第6节缺少校对
[58]	B.1、。引理的证明6.5
[59]	考虑以下良好事件：
[60]	事件E1（过采样1，··，hR）：
[61]	对于每个查询v∗∈V，对于每个
[62]	r∈Rv1认为\|{v∈S:v6=v和hr（v）=hr（v）}\|≤16Tn。EventE1指出，对于至少7R/8的散列函数，我们已经映射了v*
[63]	不与不同的输入元素发生太多冲突。非正式地，每
[64]	单个散列函数hr，algorithmHashH测试hr（v∗）的出现次数
[65]	英寸。因此，如果事件E1发生，那么大多数估计都会得到准确的答案。
[66]	我们首先说明事件E1发生的概率很高。为此，fixv∗∈V
[67]	和修正值∈[R]。我们得到了Ehr[\|{x∈S:v6=v和hr（v）=hr（v）}\|]=XEhr1hr。
[68]	因此，根据马尔可夫不等式，我们得到Pr\|{v∈s:v6=v和hr（v）=hr（v）}\|≥16n≤1。
[69]	由于散列函数相互独立，对于R≥48 ln（dβ0），由Chernoff
[70]	我们得到概率至少为1-β/d0（在抽样1，…，hR上）存在的界限
[71]	一个子集Rv1⊆[R]的大小为\|Rv1\|≥78Rs.t。对于每一年∈Rv1，它认为\|{v∈S:v6=v和hr（v）=hr（v*）}\|≤16n。
[72]	使用并界，我们得到事件E1发生的概率至少为1-β。我们
[73]	假设事件E1发生，继续分析。40
[74]	s.t.j∈Ir。对于v∈Vandr∈[R]，表示\|Sr，v∗\|，\|{v∈S:hr（v）=hr（v∗）}\|。那就是，
[75]	\|Sr，v∗\|是用户数js.t.hr（vj）=hr（v∗）。此外，forv∗∈Vandr∈[R]
[76]	表示\|Irv∗\|，\|{v∈Sr:hr（v）=hr（v∗）}\|。也就是说，\|Irv*\|是用户数js.t.j∈Ir
[77]	andhr（vj）=hr（v）。观察\|Sr，v\|≥fS（v*）和\|Irv\|≥fSr（v*）。Fixv∗∈V。根据Chernoff界，概率至少为1-β/d0（过度分割
[78]	[n] 第11小节，IR），对于每个∈[R]，我们有
[79]	使用并界，这对每一个*∈Vandr∈[R]同时成立
[80]	概率至少为1-β。此外，假设n≥8Rlog（2R/β），通过Chernoff结合，
[81]	概率至少为1-β（将[n]过度划分为子集I1，…，IR），对于每个R∈[R]
[82]	我们有2nR≤\|Ir\|≤2Rn。我们继续进行分析，假设情况确实如此，并且
[83]	不平等（4）成立。
[84]	事件E2（通过抽样和当地随机化者的硬币）：
[85]	对于每个查询v∗∈V，对于每个
[86]	r∈Rv2它认为r·ar（hr（v））−r·\|Irv*\|≤ee+1−1·11nR。Forv∗∈Vandr∈[R]表示cr（v∗）=Pj∈Iyj·Z[hr（v＊），j]，并回忆一下该算法
[87]	Hashtogram用a（v）=R·ee+1−1·Medianr∈[R]{cr（v）}回答查询v。固定值*∈V
[88]	and∈[R]。我们现在分析了cr（v）：E[c（v
[89]	期望值为−+11的变量，以及期望值为0的（\|Ir\|−\|Irv*\|）变量（回想一下2Rr\|≤2Rn）。使用Hoeffing界，概率至少为43/44
[90]	Fixv∗∈V，并观察到上述总和对于不同的ofr值是独立的。
[91]	因此，使用Chernoff界并断言R≥132 ln（d0/β），对于固定dv∗∈V，
[92]	概率至少为1-β/d0时，不等式（5）适用于至少7R/8个选择
[93]	r∈[r]。使用并界，概率至少为1-β，这对每个V∈V都是正确的
[94]	同时。也就是说，事件E2发生的概率至少为1-β。我们继续
[95]	假设事件E2发生的分析。对于每一个∈Vwe表示Rv3=Rv1∈Rv2。结合eventE2和不等式（4），我们得到了everyr∈Rv2∗
[96]	此外，对于每v∈Vand everyr∈Rv1，我们得到\|Sr，v\|≤fS（v）+16Tn。因此，对于
[97]	everyv∗∈Vand everyr∈Rv3∗我们得到\|R·ar（hr（v∗））−fS（v＊）\|≤e+1·√11nR+s3R·f16n2Rd016n
[98]	也就是说，对于everyr∈Rv3∗，我们得出R·ar（hr（v∗））在误差范围内是准确的。作为
[99]	\|Rv3\|≥3R，作为算法Hashtogramanswersv，a（v*）被选为4的中间值

此参考列表基于出版商或数字数学图书馆提供的信息。它的项目与zbMATH标识符启发式匹配，并且可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
拉	语言
所以	来源
ab公司	综述，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文档类型(j个：期刊文章；b条：book；一：图书文章）

一&b条	逻辑和
一\|b条	逻辑或
!ab公司	逻辑不
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

领域

操作员

实用的当地私人重击手。（英语） Zbl 1498.68099号

MSC公司：

关键词：

引文：

软件：

参考文献：

示例

领域

操作员

实用的当地私人重击手。 （英语） Zbl 1498.68099号

MSC公司：

关键词：

引文：

软件：

参考文献：

实用的当地私人重击手。（英语） Zbl 1498.68099号