×

CEDAR:通信效率高的分布式回归分析。 (英语) Zbl 1522.62108号

摘要:电子健康记录(EHR)为推进精确医学提供了巨大的希望,同时也带来了重大的分析挑战。尤其是,由于政府法规和/或机构政策的原因,EHR中的患者级数据通常无法跨机构(数据源)共享。因此,人们对在不共享患者级数据的情况下通过多个EHR数据库进行分布式学习越来越感兴趣。为了应对这些挑战,我们提出了一种新的高效通信方法,通过将问题转化为缺失数据问题,来聚合外部站点的最佳估计。此外,我们建议合并远程站点的后验样本,这样可以提供缺失数量的部分信息,提高参数估计的效率,同时具有差异隐私属性,从而降低信息泄漏的风险。所提议的方法,在不共享原始患者级数据的情况下,允许进行适当的统计推断。我们对所提出的统计推断和差分隐私方法的渐近性质进行了理论研究,并与最近开发的几种方法比较,评估了其在仿真和实际数据分析中的性能。
©2022国际生物识别学会。

MSC公司:

62页第10页 统计学在生物学和医学中的应用;元分析
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Abadi,M.、Chu,A.、Goodfellow,I.、McMahan,H.B.、Mironov,I.,Talwar,K.和Zhang,L.(2016)《深度学习与差异隐私》。2016年ACM SIGSAC计算机和通信安全会议记录。第308-318页。
[2] Battey,H.、Fan,J.、Liu,H.,Lu,J.和Zhu,Z.(2018)稀疏高维模型下的分布式测试和估计。统计年鉴,461352-1382·兹比尔1392.62060
[3] Dempster,A.P.、Laird,N.M.和Rubin,D.B.(1977)通过em算法从不完整数据中获得最大似然。英国皇家统计学会杂志。B系列(方法论),39,1-38·Zbl 0364.62022号
[4] Deng,Y.,Chang,C.,Ido,M.S.&Long,Q.(2016)高维数据存在下一般缺失数据模式的多重插补。科学报告,621689。
[5] Dimitrakakis,C.,Nelson,B.,Zhang,Mitrokotsa,A.&Rubinstein,B.I.P.(2017)通过后验抽样实现贝叶斯推断的差异隐私。机器学习研究杂志,18,1-39·Zbl 1433.68127号
[6] Dwork,C.&Roth,A.(2014)差异隐私的算法基础。理论计算机科学基础与趋势®,9211-407·Zbl 1302.68109号
[7] Fan,J.、Guo,Y.和Wang,K.(2021)通信效率准确统计估计。美国统计协会杂志,1-11。
[8] He,Q.,Zhang,H.H.,Avery,C.L.&Lin,D.Y.(2016)高维数据的稀疏元分析。生物统计学,17205-220。
[9] Hector,E.C.和Song,P.X.-K。(2020)具有高维相关结果的双分布监督学习和推理。机器学习研究杂志,21,1-35·Zbl 07307470号
[10] Hector,E.C.和Song,P.X.-K。(2021)用于高维相关数据分析的分布式综合矩方法。美国统计协会杂志,116805-818·Zbl 1464.62437号
[11] Imtiaz,H.&Sarwate,A.D.(2018)矩阵和张量因式分解的分布式差分私有算法。IEEE信号处理选定主题杂志,121449-1464。
[12] Javanmard,A.和Montanari,A.(2014)高维回归的置信区间和假设检验。机器学习研究杂志,152869-2909·Zbl 1319.62145号
[13] Jordan,M.I.,Lee,J.D.&Yang,Y.(2019)通信效率分布式统计推断。美国统计协会杂志,114668-681·Zbl 1420.62097号
[14] Kleiner,A.、Talwalkar,A.,Sarkar,P.和Jordan,M.I.(2014)海量数据的可扩展引导。英国皇家统计学会杂志:B辑(统计方法),76795-816·Zbl 07555464号
[15] Lee,J.D.,Liu,Q.,Sun,Y.和Taylor,J.E.(2017)通信效率稀疏回归。机器学习研究杂志,18,1-30·Zbl 1434.62157号
[16] Lin,D.Y.和Zeng,D.(2010)关于在荟萃分析中使用汇总统计与个人水平数据的相对效率。生物特征,97,321-332·Zbl 1205.62174号
[17] Mackey,L.,Talwalkar,A.和Jordan,M.I.(2015)分布式矩阵完备和鲁棒因子分解。机器学习研究杂志,16,913-960·兹比尔1337.68225
[18] Maclaurin,D.&Adams,R.P.(2015)《萤火虫蒙特卡罗:具有数据子集的精确MCMC》。第二十四届国际人工智能联合会议记录,IJCAI-15。第4289-4295页。
[19] Maro,J.C.、Platt,R.、Holmes,J.H.、Strom,B.L.、Hennessy,S.、Lazarus,R.和Brown,J.S.(2009)《国家分布式健康数据网络的设计》,《内科年鉴》,151,341-344。
[20] McMahan,H.B.、Ramage,D.、Talwar,K.和Zhang,L.(2018)学习差异私人递归语言模型。参加:学习代表国际会议。
[21] Ohno‐Machado,L.,Agha,Z.,Bell,D.S.,Dahm,L..,Day,M.E.,Doctor,J.N.等人(2014)pSCANNER:以患者为中心的可扩展国家有效性研究网络。美国医学信息学协会杂志,21621-626。
[22] Scaman,K.,Bach,F.,Bubeck,S.,Massoulié,L.&Lee,Y.T.(2018)网络中非光滑分布优化的优化算法。收录于:Bengio,S.(编辑)、Wallach,H.(编)、Larochelle,H。
[23] Schweder,T.&Hjort,N.L.(2016)置信度、似然度、概率:置信分布的统计推断。剑桥统计与概率数学系列。剑桥大学出版社·Zbl 1353.62007年
[24] Shamir,O.、Srebro,N.和Zhang,T.(2014)使用近似牛顿型方法进行通信效率分布式优化。摘自:第31届机器学习国际会议论文集。第32卷,第1000-1008页。
[25] Shortreed,S.M.、Cook,A.J.、Coley,R.Y.、Bobb,J.F.和Nelson,J.C.(2019)使用大型医疗保健数据推进医学和公共卫生的挑战和机遇。美国流行病学杂志,188,851-861。
[26] Tang,L.,Zhou,L.和Song,P.X.-K。(2020)通过置信分布在广义线性模型中进行分布式同时推理。多元分析杂志,176104567·Zbl 1436.62357号
[27] van deGeer,S.、Bühlmann,P.、Ritov,Y.和Dezeure,R.(2014)关于高维模型的渐近最优置信区间和检验。《统计年鉴》,第42期,第1166-1202页·Zbl 1305.62259号
[28] Wang,J.,Kolar,M.,Srebro,N.&Zhang,T.(2017)高效稀疏分布式学习。摘自:第34届机器学习国际会议论文集。第70卷,第3636-3645页。
[29] 谢先生Singh,K.(2013)置信分布,参数的频率分布估计:综述。《国际统计评论》,81,3-39·Zbl 1416.62170号
[30] Zhang,C.H.和Zhang、S.S.(2014)高维线性模型中低维参数的置信区间。英国皇家统计学会杂志:B辑(统计方法),76217-242·Zbl 1411.62196号
[31] Zhang,Y.、Duchi,J.、Jordan,M.I.和Wainwright,M.J.(2013)具有通信约束的分布式统计估计的信息论下界。神经信息处理系统进展,262328-2336。
[32] Zhang,Y.、Duchi,J.C.和Wainwright,M.J.(2013)统计优化的通信效率算法。《机器学习研究杂志》,1433321-3363·Zbl 1318.62016号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。