×

机密微观数据的基于矩的密度估计:一种计算统计方法。 (英语) Zbl 1512.62044号

摘要:提供对合成微数据的访问来代替机密数据,以保护参与者的隐私是常见的做法。为了使合成数据对分析有用,合成数据的密度函数必须接近机密数据。因此,基于样本微观数据准确估计密度函数非常重要。现有的基于核函数、基于连接函数和机器学习的联合密度估计方法可能不可行。由于在真实联合密度函数未知的情况下密度估计的计算复杂性和最优参数选择的困难性,将多元矩问题应用于基于样本的密度估计一直被认为是不切实际的。本文介绍了一种基于样本矩的密度估计的一般形式,它可以在只有经验矩信息的情况下用于估计联合密度函数。通过采用参数选择的计算策略,我们证明了仅基于样本数据的基于矩的密度估计的最佳参数化。我们比较了基于矩的估计与现有非参数和参数密度估计方法的性能。结果表明,使用经验矩可以为联合密度函数提供合理、稳健的非参数近似,与现有的非参数方法相当。我们提供了一个从基于矩的密度估计生成合成数据的例子,并表明由此产生的合成数据为公开发布提供了一个合理的受披露保护的替代方案。

理学硕士:

62G07年 密度估算
62页99 统计学的应用
44A60型 力矩问题
41A63型 多维问题
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] NI Akhiezer;Kemmer,N.,《经典力矩问题:分析中的一些相关问题》(1965年),爱丁堡:奥利弗和博伊德出版社
[2] Alexits,G.:正交级数的收敛问题。国际纯数学和应用数学专著丛书,第20卷,第63-170页。牛津佩加蒙出版社(1961年)。https://books.google.com.au/books?id=VAJRAAAMAAJ ·Zbl 0098.27403号
[3] Charlier,CVL,异质统计中a型频率曲线,Ark.Mat.Ast。费西克,9,1-17(1914)
[4] Cramer,H.,《统计学的数学方法》,85-89(1946),普林斯顿:普林斯顿大学出版社,普林斯顿·Zbl 0063.01014号
[5] Duong,T.,ks:R,J.Stat.Softw.中多元数据的核密度估计和核判别分析。,21, 7, 1-16 (2007) ·doi:10.18637/jss.v021.2007
[6] Duong,T.:Ks:内核平滑。R软件包版本1.11.3。https://CRAN.R-project.org/package=ks (2018)
[7] 埃奇沃思,FY,《误差定律》,Proc。剑桥菲洛斯。学会,20,36-65(1905)
[8] 埃尔德顿,WP;NL约翰逊,《频率曲线系统》,110-121(1969),剑桥:剑桥大学出版社,剑桥·Zbl 0175.17305号 ·doi:10.1017/CBO9780511569654
[9] Gram,JP,《用最小二乘法开发行中的实函数》,J.Reine Angew。数学。,94, 41-73 (1883) ·doi:10.1515/crll.1883.94.41
[10] RC格里菲斯;Spano,D.,《多元雅可比和拉盖尔多项式,无限维扩展及其与多元Hahn和Meixner多项式的概率联系》,伯努利学会,171095-1125(2011)·Zbl 1247.33017号 ·doi:10.3150/10-BEJ305
[11] Hofert,M.,Kojadinovic,I.,Maechler,M.,Yan,J.:Copula:Copula的多变量依赖。R包版本1.0-1。https://CRAN.R-project.org/package=copula (2020)
[12] 马吕斯·霍弗特;Mächler,Martin,嵌套阿基米德连接函数满足R:nacopula包,J.Stat.Softw。,39, 9, 1-20 (2011) ·doi:10.18637/jss.v039.i09
[13] Izenman,AJ,《综述论文:非参数密度估计的最新发展》,美国统计协会,86,413,205-224(1991)·Zbl 0734.62040号 ·doi:10.1080/01621459.1991.10475021
[14] 马萨诸塞州詹金斯;Traub,JF,算法419:复多项式的零点[c2],Commun。ACM,15,2,97-99(1972)·doi:10.1145/361254.361262
[15] Kaya,H.,Tufekci,P.:燃气轮机和蒸汽轮机联合功率预测的本地和全球学习方法,第13-18页(2012年)
[16] MG Kendall;Stuart,A。;Ord,JK,Kendall’s Advanced Theory of Statistics(1987),纽约:牛津大学出版社,纽约·Zbl 0621.62001号
[17] 克莱伯,C。;Stoyanov,J.,《多元分布与矩问题》,J.Multivar。分析。,113, 7-18 (2013) ·Zbl 1253.60015号 ·doi:10.1016/j.jmva.2011.06.001
[18] 科贾迪诺维奇(Ivan Kojadinovic);Yan,Jun,使用copula R包建模具有连续边际的多元分布,J.Stat.Softw。,34, 9, 1-20 (2010) ·doi:10.18637/jss.v034.i09
[19] Lin,Y-X;Domingo-Ferrer,J.,基于噪声倍增数据的密度近似值,《统计数据库中的隐私》,89-104(2014),查姆:斯普林格,查姆·doi:10.1007/978-3-319-11257-28
[20] JH Macomber;Myers,BL,《双变量β分布:蒙特卡罗生成器的比较和参数估计的评估》,ACM SIGSIM Simul。挖掘。,14, 1-4, 26-35 (1983) ·数字对象标识代码:10.1145/1102863.1102867
[21] 马特奥·桑兹,JM;塞贝,F。;多明戈·费勒,J。;多明戈·费雷尔,J。;Torra,V.,连续微数据掩蔽中的离群值保护,统计数据库中的隐私。PSD 2004,201-215(2004),柏林:施普林格,柏林
[22] Mehler,FG,G.reihenentwicklungen nach laplaceschen functionen hoherer ordnung,J.Reine Angew。数学。,66, 161-176 (1866)
[23] Meyer,DW,用分布元素树进行密度估计,统计计算。,28, 3, 609-632 (2017) ·Zbl 1384.62126号 ·doi:10.1007/s11222-017-9751-9
[24] Meyer,D.:Detpack:密度估计和分布元素树随机数生成。R包版本1.1.3。https://CRAN.R-project.org/package=detpack (2019)
[25] Munkhammar,J。;马特森,L。;Rydén,J.,使用矩方法进行多项式概率分布估计,《公共科学图书馆·综合》,12,4,1-14(2017)·doi:10.1371/journal.pone.0174573
[26] 穆斯塔法,H。;Dimitrakopoulos,R.,带矩的多元概率密度的广义拉盖尔展开,计算。数学。申请。,60, 7, 2178-2189 (2010) ·Zbl 1205.62064号 ·doi:10.1016/j.camwa.2010.08.008
[27] 彼得森,L.,《关于多维力矩问题和一维力矩问题之间的关系》,数学。扫描。,51, 2, 361-366 (1982) ·Zbl 0514.44007号 ·doi:10.7146/math.scanda.a-11986
[28] Provost、SB、基于力矩的密度近似值、数学。J.,9728-756(2005)
[29] Reid,N.,鞍点方法和统计推断,统计学。科学。,3123-227(1988年)·Zbl 0955.62541号 ·doi:10.1214/ss/1177012906
[30] Sánchez-Ruiz,J。;Dehesa,JS,正交超几何多项式级数的展开,J.计算。申请。数学。,89, 1, 155-170 (1998) ·Zbl 0944.33011号 ·doi:10.1016/S0377-0427(97)00243-4
[31] Shohat,J.A.,Tamakin,J.D.:力矩问题,第1卷,第860-863页。美国数学学会,纽约(1943年)·Zbl 0063.06973号
[32] 所罗门,H。;马萨诸塞州斯蒂芬斯,《使用皮尔逊曲线近似密度函数》,《美国统计协会期刊》,73,361,153-160(1978)·doi:10.1080/01621451978.10480019
[33] Stieltjes,T-J,Recherches sur les fractions continues,Annales de la Facultédes sciences de Toulouse:数学,8,4,1-122(1894)
[34] Stoyanov,J.:随机金融模型中使用的概率分布的矩特性。摘自:《2014年金融工程最新进展:2014年TMU金融研讨会论文集》,第1-27页,《世界科学》(2016)
[35] 斯托亚诺夫,J。;Tolmatz,L.,为M不定概率分布构造Stieltjes类的方法,应用。数学。计算。,165, 3, 669-685 (2005) ·Zbl 1069.60016号
[36] Szegő,G.:正交多项式。美国数学学会,第23卷,第38-100页。美国数学学会,普罗维登斯(1939)。https://books.google.com.au/books?id=WRoPAAAAIAAJ ·Zbl 0023.21505号
[37] Szökefalvi-Nagy,B.,实函数和正交展开导论,310-337(1965),牛津:牛津大学出版社,牛津·Zbl 0128.05101号
[38] Tüfekci,P.,使用机器学习方法预测基本负荷运行联合循环发电厂的满载电力输出,国际电工杂志。电力能源系统。,60, 126-140 (2014) ·doi:10.1016/j.ijepes.2014.02.027
[39] 王,Z。;Scott,DW,高维数据算法和应用的非参数密度估计,Wiley Interdiscip。版次计算。统计,11,4,1461(2019年)·doi:10.1002/wics.1461
[40] 威瑟斯,CS;Nadarajah,S.,《多元正态展开》,J.Multivar。分析。,101, 5, 1311-1316 (2010) ·Zbl 1185.62036号 ·doi:10.1016/j.jmva.2010.01.001
[41] Xu,Y.,关于多元正交多项式。特殊函数,q-Series和相关主题,Fields Inst.Res.Math。科学。Commun公司。序列号。,14, 247-270 (1997) ·Zbl 0873.42016号
[42] Yan,Jun,享受copulas的乐趣:使用copula包,J.Stat.Softw。,21, 4, 1-21 (2007) ·doi:10.18637/jss.v021.2004
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。