约瑟夫·费尔德曼;丹尼尔·科瓦尔(Daniel R.Kowal)。 贝叶斯数据综合和混合流行病学数据的效用风险权衡。 (英语) Zbl 1498.62211号 附录申请。斯达。 16,第4期,2577-2602(2022). 概要:用于流行病学研究的许多微观数据包含对真实个体的敏感测量。因此,出于隐私考虑,无法发布此类微观数据,如果没有公众对这些数据的访问,最初发布的任何统计分析几乎不可能复制。为了在不损害个人隐私的情况下促进关键分析数据集的传播,我们引入了一个内聚贝叶斯框架,用于生成混合类别、二进制、计数和连续变量的全合成高维微数据集。该过程以联合贝叶斯模型为中心,该模型与所有这些数据类型同时兼容,通过后验预测采样创建混合合成数据集。此外,流行病学数据分析的一个重点是通过回归分析研究各种暴露与关键结果变量之间的条件关系。我们设计了一种改进的数据合成策略来针对和保留这些条件关系,包括非线性和交互。所提议的技术用于创建机密数据集的合成版本,该数据集包含近20000名北卡罗来纳州儿童的数十项健康、认知和社会测量数据。 引用于1文件 MSC公司: 第62页第10页 统计学在生物学和医学中的应用;元分析 2015年1月62日 贝叶斯推断 62G08号 非参数回归和分位数回归 62小时05 多元概率分布的表征和结构理论;连接线 62H25个 因子分析和主成分;对应分析 关键词:连接线;数据隐私;因子模型;非参数回归 软件:巴蒂;bfa公司;贝叶斯树;合成波普 PDF格式BibTeX公司 XML格式引用 \textit{J.Feldman}和\textit{D.R.Kowal},Ann.应用。Stat.16,No.4,2577--2602(2022;Zbl 1498.62211) 全文: 内政部 arXiv公司 参考文献: [1] Albert,J.H.和Chib,S.(1993年)。二进制和多光子响应数据的贝叶斯分析。J.Amer。统计师。协会。88 669-679. ·兹比尔0774.62031 [2] Bhattacharya,A.和Dunson,D.B.(2011年)。稀疏贝叶斯无限因子模型。生物特征98 291-306. ·Zbl 1215.62025号 ·doi:10.1093/biomet/asr013 [3] CAIOLA,G.和REITER,J.P.(2010年)。生成部分合成分类数据的随机森林。事务处理。数据优先级。3 27-42. [4] Carvalho,C.M.、Polson,N.G.和Scott,J.G.(2010年)。稀疏信号的马蹄形估计器。生物特征97 465-480. ·兹比尔1406.62021 ·doi:10.1093/biomet/asq017 [5] Chipman,H.A.、George,E.I.和McCulloch,R.E.(2010年)。BART:贝叶斯加性回归树。附录申请。斯达。4 266-298. ·Zbl 1189.62066号 ·doi:10.1214/09-AOAS285 [6] DRECHSLER,J.(2018)。关于完全合成数据的一些澄清。在统计数据库隐私问题国际会议109-121. 柏林施普林格。 [7] 邓肯,G.T.、凯勒·麦克努尔蒂,S.A.和斯托克斯,S.L.(2001)。披露风险与数据效用:R-U保密图。 [8] 邓森·D·B和邢·C(2009)。多元分类数据的非参数Bayes建模。J.Amer。统计师。协会。104 1042-1051. ·Zbl 1388.62151号 ·doi:10.1198/jasa.2009.tm08439 [9] ELLIOT,M.(2015)。与sylls团队生成的合成数据相关的披露风险的最终报告。报告2015 2. [10] FELDMAN,J.和KOWAL,D.R(2022)。补充“混合流行病学数据的贝叶斯数据合成和效用-风险权衡”https://doi.org/10.1214/22-AOAS1604SUPA网站,https://doi.org/10.1214/22-AOAS1604SUPPB [11] HOFF,P.D.(2007)。扩展半参数copula估计的秩似然。附录申请。斯达。1 265-283. ·邮编1129.62050 ·doi:10.1214/07-AOAS107 [12] 胡J.(2019)。合成数据中属性和标识披露风险的贝叶斯估计。第61-89段。 [13] 胡J.、REITER、J.P.和WANG,Q.(2014)。全面综合分类数据的披露风险评估。在统计数据库隐私问题国际会议185-199. 柏林施普林格。 [14] JOHNDROW,J.、DUNSON,D.和LUM,K.(2013)。对角线正态多项式概率模型。在人工智能与统计29-38之间。 [15] KINNEY,S.K.、REITER,J.P.、REZNEK,A.P.、MIRANDA,J.、JARMIN,R.S.和ABOWD,J.M.(2011)。面向无限制公共使用的商业微观数据:综合纵向商业数据库。国际统计版次。79 362-384. [16] KOWAL,D.R.(2021)。使用参数化决策分析进行快速、优化和有针对性的预测。J.Amer。统计师。协会。1-12. [17] KOWAL,D.R.和CANALE,A.(2020年)。整值数据的同时转换和舍入(STAR)模型。电子。J.统计。14 1744-1772. ·Zbl 1439.62102号 ·doi:10.1214/20-EJS1707 [18] KOWAL,D.R.、BRAVO,M.、LEONG,H.、BUI,A.、GRIFFIN,R.J.、ENSOR,K.B.和MIRANDA,M.L.(2021年)。贝叶斯变量选择用于理解环境暴露中的混合物。统计医学。40 4850-4871. ·doi:10.1002/sim.9099 [19] LITTLE,R.J.(1993)。屏蔽数据的统计分析。J.关闭状态。9 407. [20] MIRANDA,M.L.、KIM,D.、GALEANO,M.A.O.、PAUL,C.J.、HULL,A.P.和MORGAN,S.P.(2007)。儿童早期血铅水平与终末试验表现之间的关系。环境。健康展望。115 1242-1247. [21] MURRAY,J.S.和REITER,J.P.(2016)。通过具有局部依赖性的贝叶斯混合模型对缺失的分类值和连续值进行多重插补。J.Amer。统计师。协会。111 1466年-1479年·doi:10.1080/01621459.2016.1174132 [22] Murray,J.S.、Dunson,D.B.、Carin,L.和Lucas,J.E.(2013)。混合数据的贝叶斯-高斯copula因子模型。J.Amer。统计师。协会。108 656-665. ·Zbl 06195968号 ·doi:10.1080/016214592012.762328 [23] NOWOK,B.、RAAB,G.、SNOKE,J.和DIBBEN,C.(2016)。synthpop:为统计披露控制生成敏感微观数据的合成版本。R包版本1-3. [24] QUICK,H.、HOLAN,S.H.、WIKLE,C.K.和REITER,J.P.(2015)。贝叶斯标记点过程建模,用于生成具有点参考地理信息的完全合成公共使用数据。小争吵。斯达。14 439-451. ·doi:10.1016/j.pasta.2015.07.008 [25] RAAB,G.M.、NOWOK,B.和DIBBEN,C.(2016)。大样本的实际数据合成。隐私与保密杂志7 67-97. [26] REITER,J.P.(2005年a)。部分合成的公共使用微数据集的推断。调查方法29 181-188. [27] REITER,J.P.(2005年b)。发布多重插补的综合公共使用微观数据:一项例证和实证研究。J.罗伊。统计师。Soc.序列号。A类168 185-205. ·Zbl 1099.62138号 ·doi:10.1111/j.1467-985X.2004.00343.x [28] REITER,J.P.(2005c)。使用CART生成部分合成的公共使用微观数据。官方统计杂志21 441. [29] REITER,J.P.和MITRA,R.(2009)。估计部分合成数据中身份信息披露的风险。隐私与保密杂志1 [30] REITER,J.P.、WANG,Q.和ZHANG,B.(2014)。多重插补合成数据披露风险的贝叶斯估计。隐私与保密杂志6 [31] RUBIN,D.B.(1993)。统计披露限制。官方统计杂志9 461-468. [32] SKLAR,M.(1959年)。划分维度和边界的函数。出版物。统计研究所。巴黎大学8 229-231. ·Zbl 0100.14202号 [33] SNOKE,J.、RAAB,G.M.、NOWOK,B.、DIBBEN,C.和SLAVKOVIC,A.(2018年)。合成数据的一般和特定实用措施。J.罗伊。统计师。Soc.序列号。A类181 663-688. ·doi:10.1111/rssa.12358 [34] TAUB,J.(2021)。合成数据:对数据效用和披露风险的探索。138-160. [35] TAUB,J.、ELLIOT,M.、PAMPAKA,M.和SMITH,D.(2018年)。合成数据的差分正确归因概率:探索。在统计数据库隐私问题国际会议122-137. 柏林施普林格 此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。