摘要
用于流行病学研究的许多微观数据包含对真实个体的敏感测量。因此,出于隐私考虑,这些微观数据无法公布,如果没有公众对这些数据的访问,最初公布的任何统计分析几乎都不可能复制。为了在不损害个人隐私的情况下促进关键分析数据集的传播,我们引入了一个内聚贝叶斯框架,用于生成混合类别、二进制、计数和连续变量的全合成高维微数据集。该过程以联合贝叶斯模型为中心,该模型与所有这些数据类型同时兼容,通过后验预测采样创建混合合成数据集。此外,流行病学数据分析的一个重点是通过回归分析研究各种暴露与关键结果变量之间的条件关系。我们设计了一种改进的数据合成策略来针对和保留这些条件关系,包括非线性和交互。所提议的技术用于创建机密数据集的合成版本,该数据集包含近20000名北卡罗来纳州儿童的数十项健康、认知和社会测量数据。
资金筹措表
本出版物中报告的研究得到了美国国立卫生研究院国家环境健康科学研究所(编号R01ES028819)和陆军研究办公室(Kowal)(编号W911NF-20-1-0184)的支持。
致谢
作者感谢审稿人提出的建设性意见,这些意见极大地改进了论文。此外,作者感谢玛丽·琳恩·米兰达(Marie Lynn Miranda)和凯瑟琳·恩索(Katherine B.Ensor)的宝贵见解和反馈。
本文件中包含的内容、观点和结论均为作者的观点,不应被解释为代表国家卫生研究院、北卡罗来纳州卫生与公共服务部、公共卫生部、陆军研究办公室或美国的官方政策,无论是明示的还是暗示的。政府。美国政府有权出于政府目的复制和分发再版,尽管此处有任何版权注释。
引用
下载引文
约瑟夫·费尔德曼(Joseph Feldman)。
丹尼尔·科瓦尔(Daniel R.Kowal)。
“贝叶斯数据合成和混合流行病学数据的效用-风险权衡。”
附录申请。斯达。
16
(4)
2577 - 2602,
2022年12月。
https://doi.org/10.1214/22-AOAS1604
问询处
收到日期:2021年2月1日;修订日期:2022年1月1日;发布日期:2022年12月
欧几里德项目首次提供:2022年9月26日
数字对象标识符:10.1214/22-AOAS1604
关键词:连接线,数据隐私,因子模型,非参数回归
版权所有©2022数学统计研究所