×

分布比例似然比模型,具有跨临床站点的应用程序与数据集成。 (英语) Zbl 07832637号

摘要:近年来,通过整合分布式研究网络的数据来合成真实世界的证据越来越受到关注。由于隐私问题和共享患者级数据的限制,非常需要不需要共享患者级信息的分布式算法来促进多站点协作。另一方面,在多个地点收集的数据通常来自不同的人群,并且在不同地点的患者特征中存在大量的异质性。大多数现有的分布式算法都忽略了这种站点间的异构性。本文旨在通过提出一种通用的分布式算法来填补这一方法空白。我们基于一般的半参数模型,即比例似然比模型,开发了我们的分布式算法(生物特征99(2012)211-222),这是广义线性模型的半参数推广。我们设计了具有特定站点基线函数的比例似然比模型,以解释站点间的异质性,并共享回归参数以跨站点借用信息。在这种灵活的公式下,我们的分布式算法被设计为具有隐私保护和通信效率(即只需要跨站点进行一轮通信)。我们通过模拟研究验证了我们的方法,并通过一项基于电子健康记录数据的儿童可避免住院的多站点研究,验证了我们方法的实用性,该数据来自费城儿童医院卫生系统26个不同临床站点的354672名患者。

MSC公司:

62件 统计学的应用

软件:

钢筋混凝土
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] BUI,A.L.、DIELEMAN,J.L.、HAMAVID,H.、BIRGER,M.、CHAPIN,A.、DUBER,H.C.、HORST,C.、REYNOLDS,A.、SQUIRES,E.等人(2017年)。1996-2013年美国儿童个人保健支出。JAMA儿科。171 181-189.
[2] CHAN,K.C.G.(2013)。具有不可忽略丢失和随机截断的比例似然比模型的干扰参数消除。生物特征100 269-276。数字对象标识符:10.1093/biomet/ass056谷歌学者:查找链接数学科学网:MR3034342·Zbl 1452.62570号 ·doi:10.1093/biomet/ass056
[3] CHEN,Y.、NING,J.和CAI,C.(2015)。具有不规则且信息丰富的观测时间的纵向数据的回归分析。生物统计学16 727-739. 数字对象标识符:10.1093/biostatistics/kxv008谷歌学者:查找链接数学科学网:MR3449839·doi:10.1093/biostatistics/kxv008
[4] Cox,D.R.和Reid,N.(2004年)。关于从边缘密度构造伪似然的注记。生物特征91 729-737之间。数字对象标识符:10.1093/biomet/91.3.729谷歌学者:查找链接数学科学网:MR2090633·Zbl 1162.62365号 ·doi:10.1093/biomet/91.3.729
[5] DU,J.,PARK,Y.-T.,THEERA-AMPORNPUNT,N.,MCCULLOUGH,J.S.和SPEEDIE,S.M.(2012)。计数数据模型在生物医学信息学评估研究中的应用。J.Amer。医疗通知。协会19 39-44。
[6] DUAN,R.、BOLAND,M.R.、LIU,Z.、LIU、Y.、CHANG,H.H.、XU,H.、CHU,H、SCHMID,C.H.、FORREST,C.B.等人(2020a)。跨多个站点学习电子健康记录:一种高效通信和保护隐私的分布式算法。J.Amer。医疗通知。协会27 376-385。
[7] DUAN,R.,LUO,C.,SCHUEMIE,M.H.,TONG,J.,LIANG,J.C.,CHANG,H.H.、BOLAND,M.R.、BIAN,J.、XU,H.等人(2020b)。从局部到全局学习:一种有效的分布式算法,用于建模时间到事件数据。J.Amer。医疗通知。协会27 1028-1036。
[8] DUAN,R.,NING,Y.和CHEN,Y.(2022)。支持异构和高效通信的分布式统计推断。生物特征109 67-83. 数字对象标识符:10.1093/biomet/asab007谷歌学者:查找链接数学科学网:MR4374641·兹伯利07474102 ·doi:10.1093/biomet/asab007
[9] 杜克·J·D、瑞恩·P·B、苏查德·M·A、HRIPCSAK·G、金·P、瑞奇·C、施瓦尔姆·M·S、科马·Y、吴·Y等人(2017年)。左乙拉西坦与苯妥英钠相关性血管性水肿的风险:观测健康数据科学和信息学研究网络的发现。癫痫58 e101-e106。
[10] EDDELBUETTEL,D.(2013)。与Rcpp无缝集成R和C++。柏林施普林格·Zbl 1283.62001号
[11] EDMONDSON,M.J.、LUO,C.、DUAN,R.、MALTENFORT,M.、CHEN,Z.、LOCKE JR,K.、SHULTS,J.、BIAN,J.和RYAN,P.B.等人(2021年)。一种高效准确的分布式学习算法,用于建模多站点零膨胀计数结果。科学。代表11 19647。
[12] EDMONDSON,M.J.、LUO,C.、ISLAM,M.N.、SHEILS,N.E.、BURESH,J.、CHEN,Z.、BIAN,J.和CHEN,Y.(2022)。分布式准泊松回归算法,用于建模分布式数据网络中的多站点计数结果。J.生物识别。通知。131 104097.
[13] FAY,M.P.和GRAUBARD,B.I.(2001)。使用夹心估值器对Wald-type测试进行小样本调整。生物计量学57 1198-1206. 数字对象标识符:10.1111/j.0006-341X.2001.01198.x谷歌学者:查找链接MathSciNet:MR1950428·Zbl 1210.62133号 ·doi:10.1111/j.0006-341X.2001.01198.x
[14] FDA(2018)。临床调查中电子健康记录数据的使用。可在https://www.fda.gov/downloads/Drugs/GuidanceComplianceRegulatoryInformation/Guidances。
[15] Firth,D.(1993)。最大似然估计的偏差减少。生物特征80 27-38. 数字对象标识符:10.1093/biomet/80.1.27谷歌学者:查找链接数学科学网:MR1225212·Zbl 0769.62021号 ·doi:10.1093/biomet/80.1.27
[16] FORREST,C.B.、MARGOLIS,P.A.、BAILEY,L.C.、MARSOLO,K.、DEL BECCARO,M.A.、FINKELSTEIN,J.A.、MILOV,D.E.、VIELAND,V.J.、WOLF,B.A.等人(2014)。PEDSnet:国家儿科学习卫生系统。J.Amer。医疗通知。协会21 602-606。
[17] FRIEDMAN,C.P.、WONG,A.K.和BLUMENTHAL,D.(2010年)。建立全国性的学习卫生系统。科学。Transl.公司。医学2 57-29。
[18] HRIPCSAK,G.,RYAN,P.B.,DUKE,J.D.,SHAH,N.H.,PARK,R.W.,HUSER,V.,SUCHARD,M.A.,SCHUEMIE,M.J.,DEFALCO,F.J.等人(2016)。使用OHDSI网络大规模表征治疗途径。国家。阿卡德。科学。美国113 7329-7336。
[19] Jordan,M.I.、Lee,J.D.和Yang,Y.(2019年)。通信效率高的分布式统计推断。J.Amer。统计师。协会114 668-681。数字对象标识符:10.1080/01621459.2018.1429274谷歌学者:查找链接数学科学网:MR3963171·Zbl 1420.62097号 ·doi:10.1080/016214529.2018年14月29274日
[20] KALBFLEISCH,J.D.(1978年)。似然方法和非参数检验。J.Amer。统计师。协会73 167-170。数学科学网:MR0518600·Zbl 0376.62028号
[21] LI,P.和REDDEN,D.T.(2015)。具有二元结果的聚类随机试验的偏差修正夹心估计量的小样本性能。统计医学34 281-296。数字对象标识符:10.1002/sim.6344谷歌学者:查找链接MathSciNet:MR3293148·数字对象标识代码:10.1002/sim.6344
[22] 梁国勇和秦杰(2000)。非标准情况下的回归分析:成对伪似然方法。J.R.统计社会服务。B.统计方法。62 773-786. 数字对象标识符:10.1111/1467-9868.00263谷歌学者:查找链接数学科学网:MR1796291·Zbl 0963.62068号 ·doi:10.1111/1467-9868.00263
[23] LIANG,K.-Y和ZEGER,S.L.(1995年)。在存在干扰参数的情况下,根据估计函数进行推断。统计师。科学。10 158-173. 数学科学网:MR1368098
[24] Lindsay,B.G.(1988年)。复合似然法。《随机过程的统计推断》(Ithaca,NY,1987)。康斯坦普。数学。80 221-239. 阿默尔。数学。Soc.,Providence,RI.数字对象标识符:10.1090/conm/080/999014谷歌学者:查找链接数学科学网:MR0999014·Zbl 0672.62069号 ·doi:10.1090/conm/080/999014
[25] LINES,L.M.、ROSEN,A.B.和ASH,A.S.(2017年)。加强行政数据以预测急诊科的使用:社区社会人口统计学的作用。J.卫生保健服务不足。28 1487-1508之间。数字对象标识符:10.1353/hpu.2017.0129谷歌学者:查找链接·doi:10.1353/hpu.2017.0129
[26] 刘,X.,DUAN,R.,LUO,C.,OGDIE,A.,MOORE,J.H.,KRANZLER,H.R.,BIAN,J.和CHEN,Y.(2022)。高维异质数据的多站点学习,应用于5个临床站点15000名患者的阿片类药物使用障碍研究。科学。众议员12 11073。
[27] LU,C.-L.,WANG,S.,JI,Z.,WU,Y.,XIONG,L.,JIANG,X.和OHNO-MACHADO,L.(2015)。WebDISCO:一种用于分布式Cox模型学习的网络服务,无需患者级数据共享。J.Amer。医疗通知。协会22 1212-1219。
[28] LU,S.和KUO,D.Z.(2012)。潜在可预防的儿科住院费用。阿卡德。儿科。12 436-444. 数字对象标识符:10.1016/j.acap.2012.06.006谷歌学者:查找链接·doi:10.1016/j.acap.2012.06.006
[29] LUO,C.、DUAN,R.、EDMONDSON,M.、SHI,J.、MALTENFORT,M.,MORRIS,J.S.、FORREST,C.B.、HUBBARD,R.和CHEN,Y.(2024)。补充“分布式比例似然比模型与跨临床站点的应用数据集成”https://doi.org/10.1214/23-AOAS1779SUPA网站, https://doi.org/10.1214/23-AOAS1779SUPPB, https://doi.org/10.1214/23-AOAS1779SUPC网站, https://doi.org/10.1214/23-AOAS1779SUPD网站
[30] LUO,C.、DUAN,R.、NAJ,A.C.、KRANZLER,H.R.、BIAN,J.和CHEN,Y.(2022a)。ODACH:一种针对异构多中心数据的Cox模型的一次性分布式算法。科学。代表12 6627。
[31] LUO,C.、ISLAM,M.N.、SHEILS,N.E.、BURESH,J.、REPS,J.,SCHUEMIE,M.J.、RYAN,P.B.、EDMONDSON,M.、DUAN,R.等人(2022b)。DLMM是一种用于协作多站点分布式线性混合模型的无损一次性算法。国家公社。13 1678.
[32] 卢·C.、伊斯兰·M.N.、谢尔斯·N.E.、伯瑞什·J.、舒米·M.J.、多西·J.A.、韦纳·R.M.、ASCH·D.A.和陈毅(2022c)。dPQL:广义线性混合模型的无损分布式算法,应用于隐私保护医院档案。J.Amer。医疗通知。协会29 1366-1371。
[33] LUO,X.和TSAI,W.Y.(2012)。比例似然比模型。生物特征99 211-222. 数字对象标识符:10.1093/biomet/asr060谷歌学者:查找链接数学科学网:MR2899674·Zbl 1437.62545号 ·doi:10.1093/biomet/asr060
[34] LUO,X.和TSAI,W.Y.(2015)。具有纵向数据的比例似然比模型的矩型估计。生物特征102 121-134. 数字对象标识符:10.1093/biomet/asu055谷歌学者:查找链接MathSciNet:MR3335100·Zbl 1347.62151号 ·doi:10.1093/biomet/asu055
[35] MALTENFORT,M.G.,CHEN,Y.和FORREST,C.B.(2019年)。使用约翰斯·霍普金斯调整的临床组风险调整系统预测30天儿科计划外住院。公共科学图书馆ONE 14 e0221233。
[36] NEELON,B.、CHANG,H.H.、LING,Q.和HASTINGS,N.S.(2016)。零膨胀计数数据的时空障碍模型:探索急诊科就诊的趋势。统计方法医学研究25 2558-2576。数字对象标识符:10.1177/0962280214527079谷歌学者:查找链接数学科学网:MR3572870·doi:10.1177/0962280214527079
[37] Neyman,J.和Scott,E.L.(1948年)。基于部分一致观察结果的一致估计。计量经济学16 1-32. 数字对象标识符:10.2307/1914288谷歌学者:查找链接数学科学网:MR0025113·兹比尔0034.07602 ·doi:10.2307/1914288
[38] SEN,P.K.(1960年)。关于U统计量的一些收敛性质。加尔各答统计局。协会公牛。10 1-18. 数字对象标识符:10.1177/0008068319600101谷歌学者:查找链接数学科学网:MR0119286·Zbl 0109.12504号 ·数字对象标识代码:10.1177/0008068319600101
[39] SHADDOX,T.R.、RYAN,P.B.、SCHUEMIE,M.J.、MADIGAN,D.和SUCHARD,M.A.(2016)。使用大规模观测医疗数据库的多个罕见结果的层次模型。统计分析。数据最小值9 260-268。数字对象标识符:10.1002/sam.11324谷歌学者:查找链接数学科学网:MR3529398·Zbl 07260594号 ·doi:10.1002/sam.11324
[40] 沈伟、刘S.、陈毅和宁J.(2019)。纵向数据与结果相关抽样和信息审查的回归分析。《美国联邦法律大全》第46卷第831-847页。数字对象标识符:10.1111/sjos.12373谷歌学者:查找链接MathSciNet:MR3994171·Zbl 1435.62260号 ·doi:10.1111/sjos.12373
[41] SHERMAN,R.E.,ANDERSON,S.A.,DAL PAN,G.J.,GRAY,G.W.,GROSS,T.,HUNTER,N.L.,LAVANGE,L.,MARINAC-DABIC,D.,MARKS,P.W.等人(2016)。现实世界的证据——它是什么,它能告诉我们什么。《医学杂志》375 2293-2297。
[42] SHU,D.、YOSHIDA,K.、FIREMAN,B.H.和TOH,S.(2020年)。多站点研究中的逆概率加权Cox模型,无需共享个人层面的数据。Stat.Methods Med.Res.29 1668-1681。数字对象标识符:10.1177/0962280219869742谷歌学者:查找链接数学科学网:MR4106964·doi:10.1177/0962280219869742
[43] SUCHARD,M.A.,SCHUEMIE,M.J.,KRUMHOLZ,H.M.,YOU,S.C.,CHEN,R.,PRATT,N.,REICH,C.G.,DUKE,J.,MADIGAN,D.等人(2019年)。一线抗高血压药物类别的综合疗效和安全性比较:一项系统、跨国、大规模分析。柳叶刀394 1816-1826.
[44] TONG,J.,LUO,C.,ISLAM,M.N.,SHEILS,N.E.,BURESH,J.、EDMONDSON,M.、MERKEL,P.A.、LAUTENBACH,E.、DUAN,R.等人(2022年)。异构临床数据的分布式学习,应用于集成230个站点的Covid-19数据。NPJ挖掘。医学5 76。
[45] Varin,C.、Reid,N.和Firth,D.(2011年)。复合似然方法概述。统计师。Sinica中国21 5-42。数学科学网:MR2796852·Zbl 1534.62022号
[46] VASHISHT,R.,JUNG,K.,SCHULER,A.,BANDA,J.M.,PARK,R.W.,JIN,S.,LI,L.,DUDLEY,J.T.,JOHNSON,K.W.等人(2018年)。二甲双胍治疗的2型糖尿病患者中糖化血红蛋白水平与磺酰脲类、二肽基肽酶4抑制剂和噻唑烷二酮类药物使用的相关性:来自观测健康数据科学和信息学倡议的分析。JAMA Netw公司。打开1 e181755-e181755。
[47] WU,Y.、JIANG,X.、KIM,J.和OHNO-MACHADO,L.(2012)。G rid binary LO gistic RE gression(GLORE):在不共享数据的情况下构建共享模型。J.Amer。医疗通知。协会19 758-764。
[48] ZEILEIS,A.、KLEIBER,C.和JACKMAN,S.(2008)。R.J.Stat.Softw中计数数据的回归模型。27 1-25.
[49] 朱华(2014)。具有右偏数据的比例似然比模型的似然方法。统计医学33 2467-2479。数字对象标识符:10.1002/sim.6105谷歌学者:查找链接数学科学网:MR3256678·doi:10.1002/sim.6105
[50] ZHU,R.、JIANG,C.、WANG,X.、WANG,S.、ZHENG,H.和TANG,H.(2020)。生物医学计算中广义线性混合模型的保私性构造。生物信息学36 i128-i135。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。