Approximate, Adapt, Anonymize (3A): a Framework for Privacy Preserving Training Data Release for Machine Learning

Madl, Tamas; Xu, Weijie; Choudhury, Olivia; Howard, Matthew

计算机科学>机器学习

arXiv:2307.01875（cs）

【于2023年7月4日提交】

标题：近似、改编、匿名（3A）：机器学习隐私保护培训数据发布框架

作者：塔马斯·马德尔,徐伟杰,奥利维娅·乔杜里,马修霍华德

查看PDF

摘要：大量信息数据的可用性对于机器学习的成功至关重要。然而，在包含敏感信息的域中，保护个人隐私的高实用性数据的发布已被证明具有挑战性。尽管文献中在保护隐私的数据发布的差异隐私和生成模型方面取得了进展，只有少数几种方法对机器学习实用性进行了优化：大多数方法只考虑数据本身的统计指标，并没有明确地保留机器学习模型的损失指标，这些模型将随后在生成的数据上进行训练。在本文中，我们引入了一个数据发布框架3A（近似、自适应、匿名），以最大化机器学习的数据效用，同时保留差异隐私。我们还描述了该框架的一个具体实现，该框架利用混合模型来近似、内核诱导点来适应，以及高斯差分隐私来匿名化数据集，以确保生成的数据既保持隐私又具有高实用性。我们提供的实验证据表明，在对搁置的实际数据进行评估时，在实际数据集和私有化数据集上训练的模型的性能指标之间存在最小差异。我们还将我们的结果与几种保护隐私的合成数据生成模型（如差异专用生成对抗网络）进行了比较，并报告了与最新模型相比，分类性能指标的显著提高。这些有利的比较表明，该框架是一个有前途的研究方向，提高了低风险合成数据发布在机器学习中的效用。

评论：	10页，3幅图，AAAI研讨会
学科：	机器学习（cs.LG）; 密码与安全（cs.CR）
移动交换中心类：	62-08
ACM公司类：	第4页
引用为：	arXiv:2307.01875【cs.LG】
	（或 arXiv:2307.01875v1【cs.LG】对于此版本）
	https://doi.org/10.48550/arXiv.2307.01875
日志参考：	AAAI 2023隐私保护人工智能研讨会

提交历史记录

发件人：徐伟杰[查看电子邮件]
[第1版]2023年7月4日星期二18:37:11 UTC（1479 KB）

计算机科学>机器学习

标题：近似、改编、匿名（3A）：机器学习隐私保护培训数据发布框架

提交历史记录

访问纸张：

参考文献和引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目

计算机科学>机器学习

标题：近似、改编、匿名（3A）：机器学习隐私保护培训数据发布框架

提交历史记录

访问纸张：

参考文献和引文

BibTeX格式的引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目