研究论文

公共访问

稳定性是稳定的：可复制性、隐私性和适应性泛化之间的联系

作者:

作记号小甜面包,

马尔科加博阿尔迪,

马克斯霍普金斯大学,

罗素因帕利亚佐,

托尼安皮塔西,

萨奇西瓦库马,

杰西卡索雷尔作者信息和声明

STOC 2023：第55届ACM计算理论年会论文集

页520-527

https://doi.org/10.1145/3564246.3585246

出版:2023年6月2日出版历史

PDF格式电子阅读器

摘要

Impagliazzo、Lei、Pitassi和Sorrell（STOC’22）引入了可复制算法的概念，以描述在输入重采样下稳定的随机算法。更准确地说，当随机性固定且在从相同分布中提取的新身份证样本上运行时，可复制算法以高概率提供相同的输出。使用可复制的算法进行数据分析可以通过确保分析结果具有高概率的一致性，从而有助于验证已发布的结果，即使在对新数据集进行分析时也是如此。

在这项工作中，我们在可复制性和算法稳定性的标准概念之间建立了新的联系和分离。特别是，对于一类广泛的统计问题，我们给出了完美泛化、近似差异隐私和可复制性之间的样本效率算法约简。相反，我们表明任何这样的等价性都必须在计算上被打破：存在在差异隐私下很容易解决的统计问题，但如果不破坏公钥密码，则无法复制解决这些问题。此外，这些结果很严密：我们的约简在统计上是最优的，并且我们表明，DP和可复制性之间的任何计算分离都意味着单向函数的存在。

我们的统计约简给出了一个新的算法框架，用于在稳定性概念之间进行转换，我们将其实例化，以回答可复制性和隐私性方面的几个公开问题。这包括为各种PAC学习、分布估计和分布测试问题提供样本高效的可复制算法，近似DP中δ的算法放大，从项目级到用户级隐私的转换，以及在结构化分布下存在私有不可知到可实现的学习约简。

工具书类

[1]

诺加·阿龙（Noga Alon）、阿莫斯·贝梅尔（Amos Beimel）、谢·莫兰（Shay Moran）和乌里·斯特默（Uri Stemmer）。2020年。私人分类和在线预测的封闭属性。在学习理论会议上。119–152.

[2]

诺加·阿隆、罗伊·利夫尼、玛丽安·马利亚利斯和谢·莫兰。2019.私人PAC学习意味着Littlestone维度有限。第51届ACM SIGACT计算机理论年会论文集。852–860.

数字图书馆

[3]

奥马尔·安吉尔和伊农·斯宾卡。2019.多个随机变量的两两最优耦合。https://doi.org/10.48550/ARXIV.1903.00632

[4]

Raef Bassily和Yoav Freund。2016.基于典型性的稳定性和隐私。CoRR，abs/1604.03336（2016），arXiv:1604.03336。arxiv:1604.03336

[5]

Raef Bassily、Shay Moran、Ido Nachum、Jonathan Shafer和Amir Yehudayoff。2018.使用少量信息的学习者。《算法学习理论》，ALT 2018，2018年4月7日至9日，西班牙加那利群岛Lanzarote，Firdaus Janoos，Mehryar Mohri和Karthik Sridharan（编辑）（机器学习研究论文集，第83卷）。PMLR，25–55。http://proceedings.mlr.press/v83/bassily18a.html

[6]

Raef Bassily、Kobbi Nissim、Adam D.Smith、Thomas Steinke、Uri Stemmer和Jonathan R.Ullman。2016年，自适应数据分析的算法稳定性。在2016年6月18日至21日于美国马萨诸塞州剑桥举行的第48届ACM SIGACT年度计算理论研讨会的会议记录中，Daniel Wichs和Yishay Mansour（编辑）。ACM，1046–1059。https://doi.org/10.1145/2897518.2897566

数字图书馆

[7]

阿莫斯·贝梅尔（Amos Beimel）、科比·尼西姆（Kobbi Nissim）和乌里·斯特默（Uri Stemmer）。2016.私人学习和卫生：纯粹与近似差异隐私。理论计算。，12, 1 (2016), 1–61. https://doi.org/10.4086/toc.2016.v012a001

[8]

奥利维尔·布斯克特和安德烈·埃利塞夫。2002年，稳定性和一般性。机器学习研究杂志，2（2002），499–526。

数字图书馆

[9]

马克·布恩（Mark Bun）、罗伊·利夫尼（Roi Livni）和谢·莫兰（Shay Moran）。2020年。私人分类和在线预测之间的等价性。2020年，IEEE第61届计算机科学基础年会（FOCS）。389–402.

[10]

马克·布恩（Mark Bun）、托马斯·斯坦克（Thomas Steinke）和乔纳森·乌尔曼（Jonathan R.Ullman）。2019.下定决心：差异隐私中在线查询的代价。J.《私人机密性》，第9卷，第1期（2019年），https://doi.org/10.29012/jpc.655

[11]

Mark Bun、Jonathan R.Ullman和Salil P.Vadhan。2018年。指纹代码和近似差别隐私的价格。SIAM J.计算。，47, 5 (2018), 1888–1938. https://doi.org/10.1137/15M1033587

数字图书馆

[12]

雷切尔·卡明斯（Rachel Cummings）、卡特里娜·利吉特（Katrina Ligett）、科比·尼西姆（Kobbi Nissim）、亚伦·罗斯（Aaron Roth）和吴志伟（Zhiwei Steven Wu）。2016.具有稳健泛化保证的自适应学习。《第29届学习理论会议论文集》，2016年6月23日至26日，美国纽约COLT，Vitaly Feldman、Alexander Rakhlin和Ohad Shamir（编辑）（JMLR研讨会和会议论文集，第49卷）。JMLR.org，772–814。http://proceedings.mlr.press/v49/cummings16.html

[13]

L.Devroye和T.Wagner。1979.潜在函数规则的无分布性能界限。IEEE信息理论汇刊，25，5（1979），601–604。https://doi.org/10.109/TIT.1979.1056087

数字图书馆

[14]

辛西娅·德沃克（Cynthia Dwork）、维塔利·费尔德曼（Vitaly Feldman）、莫里茨·哈德（Moritz Hardt）、托尼安·皮塔西（Toniann Pitassi）、奥马尔·莱因戈尔德（Omer Reingold）和亚伦·罗斯（Aaron Roth）。2015.自适应数据分析和暂存重用的推广。《神经信息处理系统进展》第28期：2015年12月7日至12日，加拿大魁北克蒙特利尔，科琳娜·科尔特斯，尼尔·D·劳伦斯，丹尼尔·李，Masashi Sugiyama和罗曼·加内特（编辑）。2350–2358. https://proceedings.neurips.cc/paper/2015/hash/bad5f33780c42f2588878a9d07405083-Abstract.html

[15]

辛西娅·德沃克（Cynthia Dwork）、维塔利·费尔德曼（Vitaly Feldman）、莫里茨·哈德（Moritz Hardt）、托尼安·皮塔西（Toniann Pitassi）、奥马尔·莱因戈尔德（Omer Reingold）和亚伦·莱昂·罗斯（Aaron Leon Roth）。2015年，在自适应数据分析中保持统计有效性。2015年6月14日至17日，美国俄勒冈州波特兰市STOC 2015第四十七届年度ACM计算机理论研讨会论文集，Rocco A.Servedio和Ronitt Rubinfeld（编辑）。美国医学会，117-126。https://doi.org/10.1145/2746539.2746580

数字图书馆

[16]

辛西娅·德沃克（Cynthia Dwork）、弗兰克·麦克谢里（Frank McSherry）、科比·尼西姆（Kobbi Nissim）和亚当·史密斯（Adam D.Smith）。2016年，在私人数据分析中校准噪音敏感性。《私人机密性杂志》，第7期，第3期（2016年），第17–51页。https://doi.org/10.29012/jpc.v7i3.405

[17]

辛西娅·德沃克、盖伊·N·罗斯布卢姆和萨利·P·瓦丹。2010.增强和差异隐私。在2010年10月23日至26日于美国内华达州拉斯维加斯举行的第51届IEEE计算机科学基础年会上，IEEE计算机学会，51-60。https://doi.org/10.109/FOCS.2010.12

数字图书馆

[18]

辛西娅·德沃克（Cynthia Dwork）、亚当·史密斯（Adam D.Smith）、托马斯·斯坦克（Thomas Steinke）、乔纳森·乌尔曼（Jonathan R.Ullman）和萨利尔·巴丹（Salil P.Vadhan）。2015年，痕量的可靠可追溯性。在IEEE第56届计算机科学基础年度研讨会上，FOCS 2015，美国加利福尼亚州伯克利，2015年10月17-20日，Venkatesan Guruswami（Ed.）。IEEE计算机学会，650-669。https://doi.org/10.109/FOCS.2015.46

数字图书馆

[19]

巴迪赫·加齐（Badih Ghazi）、诺亚·戈洛维奇（Noah Golowich）、拉维·库马尔（Ravi Kumar）和帕辛·马努兰西（Pasin Manurangsi）。2021.具有近似差分隐私的高效适当PAC学习样本。第53届ACM SIGACT计算理论年会论文集。183–196.

数字图书馆

[20]

Badih Ghazi、Ravi Kumar和Pasin Manurangsi。2021.通过相关抽样进行用户级差异私人学习。《神经信息处理系统进展》第34期：2021年神经信息处理体系年度会议，2021年12月6日至14日，NeurIPS 2021年，虚拟版，Marc’Aurelio Ranzato、Alina Beygelzimer、Yann N.Dauphin、Percy Liang和Jennifer Wortman Vaughan（编辑）。20172–20184. https://proceedings.neurips.cc/paper/2021/hash/a89cf525e1d9f04d16ce31165e139a4b-Abstract.html

[21]

诺亚·戈洛维奇（Noah Golowich）。2021.增长条件下的差异私人非参数回归。在学习理论会议上，COLT 2021，2021年8月15-19日，美国科罗拉多州博尔德，米哈伊尔·贝尔金和萨默里·科波图夫（编辑）（机器学习研究论文集，第134卷）。PMLR，2149–2192。http://proceedings.mlr.press/v134/glowich21a.html

[22]

Max Hopkins、Daniel M.Kane、Shachar Lovett和Gaurav Mahajan。2022.真正的学习是你所需要的。在2022年7月2日至5日于英国伦敦举行的学习理论会议上，Po-Ling Loh和Maxim Raginsky（编辑）（机器学习研究论文集，第178卷）。PMLR，3015–3069。https://proceedings.mlr.press/v178/hopkins22a.html

[23]

罗素·英帕利亚佐（Russell Impagliazzo）、雷克斯·雷（Rex Lei）、托尼安·皮塔西（Toniann Pitassi）和杰西卡·索雷尔（Jessica Sorrell）。2022.学习中的再现性。2022年6月20日至24日，在STOC’22:第54届ACM SIGACT计算理论年度研讨会上，Stefano Leonardi和Anupam Gupta（编辑）。美国医学会，818–831。https://doi.org/10.1145/3519935.3519973

数字图书馆

[24]

克里斯托弗·荣格（Christopher Jung）、卡特里娜·利吉特（Katrina Ligett）、塞思·内尔（Seth Neel）、亚伦·罗斯（Aaron Roth）、赛义德·谢里菲·马尔瓦杰迪（Saeed Sharifi-Malvajerdi）和莫西·申菲尔德。2020年，差异隐私的一般化保障新分析。第11届理论计算机科学创新会议，ITCS 2020，2020年1月12日至14日，美国华盛顿州西雅图，托马斯·维迪克（编辑）（LIPIcs，第151卷）。达格斯图尔-莱布尼兹·泽特鲁姆宫（Schloss Dagstuhl-Leibniz-Zentrum für Informatik），31:1–31:17。https://doi.org/10.4230/LIPIcs.ITCS2020.31

[25]

Young Hun Jung、Baekjin Kim和Ambuj Tewari，2020年。在线学习和非二进制分类的私人学习的等价性。第34届神经信息处理系统国际会议论文集（NIPS'20）。Curran Associates Inc.，美国纽约州Red Hook，第1401条，共10页。国际标准编号：9781713829546

数字图书馆

[26]

Alkis Kalavasis、Amin Karbasi、Shay Moran和Grigoris Velegkas。2023.学习算法的统计不可区分性。个人沟通。

[27]

卡特里娜·利吉特（Katrina Ligett）和莫西·申菲尔德（Moshe Shenfeld）。2019.自适应泛化的一个必要且充分的稳定性概念。《神经信息处理系统进展32：2019年神经信息处理系统年会》，NeurIPS 2019，2019年12月8日至14日，加拿大不列颠哥伦比亚省温哥华，Hanna M.Wallach、Hugo Larochelle、Alina Beygelzimer、Florence d‘Alché-Buc、Emily B.Fox和Roman Garnett（编辑）。11481–11490. https://proceedings.neurips.cc/paper/2019/hash/c5df4f4eabf1cbcfeb50fbf97c5289f-Abstract.html

[28]

Frank McSherry和Kunal Talwar。2007.通过差异隐私进行机制设计。第48届IEEE计算机科学基础年会（FOCS’07）论文集。IEEE计算机学会，美国94–103。编号：0769530109https://doi.org/10.109/FOCS.2007.41

数字图书馆

[29]

科比·尼西姆、亚当·史密斯、乌里·斯特默、托马斯·斯坦克和乔纳森·厄尔曼。2018.选拔后概括的限制。神经信息处理系统进展，31（2018）。

[30]

Maxim Raginsky、Alexander Rakhlin、Matthew Tsao、Yihong Wu和Aolin Xu。2016年，学习算法稳定性和偏差的信息论分析。2016年9月11日至14日，英国剑桥，2016年ITW，2016年IEEE信息理论研讨会。IEEE，26–30。https://doi.org/10.109/ITW.2016.7606789

数字图书馆

[31]

瑞安·罗杰斯（Ryan Rogers）、亚伦·罗斯（Aaron Roth）、亚当·史密斯（Adam D.Smith）、内森·斯雷布罗（Nathan Srebro）、奥姆·塔卡尔（Om Thakkar）和布莱克·伍德沃思。2020年，自适应数据分析实证方法的保证有效性。第23届国际人工智能与统计会议，AISTATS 2020，2020年8月26日至28日，在线[意大利西西里岛巴勒莫]，Silvia Chiappa和Roberto Calandra（编辑）（机器学习研究论文集，第108卷）。PMLR，2830–2840。http://proceedings.mlr.press/v108/rogers20a.html

[32]

Ryan M.Rogers、Aaron Roth、Adam D.Smith和Om Thakkar。2016年，最大信息、差异隐私和选择后假设测试。在2016年10月9日至11日于美国新泽西州新不伦瑞克凯悦酒店举行的IEEE第57届计算机科学基础年度研讨会上，Irit Dinur（编辑）。IEEE计算机学会，487-494。https://doi.org/10.109/FOCS.2016.59

[33]

W·H·罗杰斯和T·J·瓦格纳。1978.局部判别规则的有限样本分布自由性能约束。《统计年鉴》，6，3（1978），506–514。https://doi.org/10.1214/aos/1176344196

[34]

丹尼尔·拉索和詹姆斯·邹。2016年，利用信息理论控制自适应数据分析中的偏差。《第19届国际人工智能与统计会议论文集》，AISTATS 2016，西班牙加的斯，2016年5月9日至11日，Arthur Gretton和Christian C.Robert（编辑）（JMLR研讨会和会议论文集，第51卷）。JMLR.org，1232-1240。http://proceedings.mlr.press/v51/russo16.html

[35]

Shai Shalev-Shwartz、Ohad Shamir、Nathan Srebro和Karthik Sridharan。2010.可学习性、稳定性和一致收敛性。《机器学习研究杂志》，11（2010），2635–2670。

数字图书馆

[36]

托马斯·斯坦克和莉迪亚·扎金蒂诺。2020年。通过有条件相互信息推断泛化。在学习理论会议上，COLT 2020，2020年7月9日至12日，虚拟事件[Graz，奥地利]，Jacob D.Abernethy和Shivani Agarwal（编辑）（机器学习研究论文集，第125卷）。PMLR，3437–3452。http://proceedings.mlr.press/v125/steinke20a.html

[37]

徐敖林和马克西姆·拉金斯基。2017.学习算法泛化能力的信息论分析。《神经信息处理系统进展》第30期：2017年12月4日至9日，美国加利福尼亚州长滩，伊莎贝·盖恩，乌里克·冯·卢克斯堡，萨米·本吉奥，汉纳·M·瓦拉赫，罗伯·弗格斯，S.V.N.维什瓦纳森和罗曼·加内特（编辑）。2524–2533. https://proceedings.neurips.cc/paper/2017/hash/ad71c82b22f4f65b9398f76d8be4c615-Abstract.html

[38]

Tijana Zrnic和Moritz Hardt。2019.自适应数据分析中的自然分析师。2019年6月9日至15日在美国加利福尼亚州长滩举行的第36届国际机器学习会议论文集，Kamalika Chaudhuri和Ruslan Salakhutdinov（编辑）（机器学习研究论文集，第97卷）。PMLR，7703–7711。http://proceedings.mlr.press/v97/zrnic19a.html

引用人

索引术语

稳定性是稳定的：可复制性、隐私性和适应性泛化之间的联系
1. 计算理论
  1. 算法的设计和分析
    1. 算法设计技术
  2. 应用领域的理论和算法
    1. 机器学习理论

建议

自适应数据分析的算法稳定性
STOC’16：第四十八届ACM计算理论年会论文集
适应性是数据分析的一个重要特征——关于数据集的问题的选择通常取决于之前与同一数据集的交互。然而，统计有效性通常是在非自适应模型中研究的，其中所有。。。
自适应数据分析的算法稳定性

适应性是数据分析的一个重要特征——关于数据集的问题的选择通常取决于之前与同一数据集的交互。然而，统计有效性通常在非适应性模型中进行研究，其中所有。。。
KheOps：边到云实验的成本效益重复性、再现性和可复制性
ACM REP’23：2023年ACM再生性和可复制性会议记录

用于计算和分析的分布式基础设施现在正在向互联生态系统发展，允许复杂的科学工作流跨从物联网边缘设备到云的混合系统执行，有时甚至。。。

评论

信息和贡献者

问询处

发布于

封面图片ACM会议

STOC 2023：第55届ACM计算理论年会论文集

2023年6月

1926页

国际标准图书编号：9781450399135

内政部：10.1145/3564246

总主席：
巴纳·萨哈
美国加州大学圣地亚哥分校
,
项目主席：
洛科·A·塞韦迪奥
美国哥伦比亚大学

版权所有©2023 ACM。

如果复制品不是为了盈利或商业利益而制作或分发的，并且复制品的第一页载有本通知和完整引文，则允许免费制作本作品的全部或部分数字或硬拷贝以供个人或课堂使用。必须尊重作者以外的其他人对本作品组成部分的版权。允许用信用证进行摘要。要以其他方式复制或重新发布，在服务器上发布或重新发布到列表，需要事先获得特定许可和/或付费。从请求权限[电子邮件保护].

发起人

SIGACT:ACM算法和计算理论特别兴趣小组

出版商

计算机协会

美国纽约州纽约市

出版历史

出版：2023年6月2日

权限

请求对此文章的权限。

检查更新

作者标记

限定符

研究文章

资金来源

会议

STOC’23号

赞助商：

SIGACT公司

STOC’23：第55届ACM计算理论年会

2023年6月20日至23日

佛罗里达州，奥兰多，美国

接受率

4586份提交文件的总体接受率为1469份，占32%

贡献者

其他指标

查看文章指标

文献计量学和引文

文献计量学

文章指标

0
引文总数
287
总下载次数

下载次数（过去12个月）246
下载次数（最近6周）41

反映截至2024年9月20日的下载量

其他指标

查看作者指标

引文

引用人

视图选项

查看选项

PDF格式

以PDF文件查看或下载。

电子阅读器

使用联机查看电子阅读器.

电子阅读器

获取访问权限

登录选项

检查您是否可以通过登录凭据或您的机构访问本文。

完全访问权限

获取此出版物

媒体

数字

其他

桌子