计算机科学>机器学习
标题: 近似、改编、匿名(3A):机器学习隐私保护培训数据发布框架
摘要: 大量信息数据的可用性对于机器学习的成功至关重要。 然而,在包含敏感信息的域中,保护个人隐私的高实用性数据的发布已被证明具有挑战性。 尽管文献中在保护隐私的数据发布的差异隐私和生成模型方面取得了进展, 只有少数几种方法对机器学习实用性进行了优化:大多数方法只考虑数据本身的统计指标,并没有明确地保留机器学习模型的损失指标,这些模型将随后在生成的数据上进行训练。 在本文中,我们引入了一个数据发布框架3A(近似、自适应、匿名),以最大化机器学习的数据效用,同时保留差异隐私。 我们还描述了该框架的一个具体实现,该框架利用混合模型来近似、内核诱导点来适应,以及高斯差分隐私来匿名化数据集,以确保生成的数据既保持隐私又具有高实用性。 我们提供的实验证据表明,在对搁置的实际数据进行评估时,在实际数据集和私有化数据集上训练的模型的性能指标之间存在最小差异。 我们还将我们的结果与几种保护隐私的合成数据生成模型(如差异专用生成对抗网络)进行了比较,并报告了与最新模型相比,分类性能指标的显著提高。 这些有利的比较表明,该框架是一个有前途的研究方向,提高了低风险合成数据发布在机器学习中的效用。