×

将出生-死亡过程与细菌DNA指纹应用程序的面板数据相匹配。 (英语) 兹比尔1283.92027

摘要:生态学和流行病学中经常使用连续时间线性出生-死亡迁移(BDI)过程来建模感兴趣人群的随机动力学。在临床环境中,多个出生-死亡过程可以描述单个患者的疾病轨迹,从而可以估计单个协变量对该过程的出生率和死亡率的影响。这种估计通常通过分析在不均匀间隔时间点收集的患者数据来完成,在生物统计学文献中称为面板数据。将线性BDI过程拟合到面板数据是一个非常重要的优化问题,因为出生率和死亡率可以是与相关协变量相关的许多参数的函数。
我们提出了一种新的期望最大化(EM)算法,用于将带有协变量的线性BDI模型拟合到面板数据。我们推导了一些BDI过程统计的联合生成函数的闭合形式表达式,并使用该生成函数将EM算法的E步以及Fisher信息的计算简化为一维积分。这种分析技术产生了一种计算高效且稳健的优化算法,我们在开源R包中实现了该算法。
我们将我们的方法应用于结核病病原体结核分枝杆菌的DNA指纹图谱,以研究IS的患者时间演变6110拷贝数,一种在估计流行病集群时经常使用的遗传标记结核分枝杆菌感染。我们的分析揭示了之前未记录的IS差异6110结核分枝杆菌三个主要谱系的出生死亡率,这对使用IS的流行病学家具有重要意义6110用于结核分枝杆菌的DNA指纹分析。

MSC公司:

92C40型 生物化学、分子生物学
92C60型 医学流行病学
60J85型 分支过程的应用
92-04 生物相关问题的软件、源代码等
92-08 生物学问题的计算方法
62页第10页 统计学在生物学和医学中的应用;元分析

软件:

R(右);毫秒
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Alonso,H.、Aguilo,J.I.、Samper,S.、Caminero,J.A.、Campos-Herrero,M.I.,Gicquel,B.、Brosch,R.、Martín,C.和Otal,I.(2011)。解读IS6110在高传染性结核分枝杆菌北京株GC1237中的作用。结核病91 117-126。
[2] Baum,L.E.、Petrie,T.、Soules,G.和Weiss,N.(1970年)。马尔可夫链概率函数统计分析中的最大化技术。安。数学。统计师。41 164-171. ·Zbl 0188.49603号 ·doi:10.1214/aoms/1177697196
[3] Cattamanchi,A.,Hopewell,P.C.,Gonzalez,L.C.,Osmond,D.H.,Masae,Kawamura,L.,Daley,C.L.和Jasmer,R.M.(2006)。旧金山13年结核病分子流行病学分析。《国际结核病与肺病杂志》10 297-304。
[4] Crespi,C.M.、Cumberland,W.G.和Blower,S.(2005)。小组观察下慢性复发性疾病的排队模型。生物计量学61 193-198·兹比尔1077.62105 ·doi:10.1111/j.0006-341X.2005.040332.x
[5] Dempster,A.P.、Laird,N.M.和Rubin,D.B.(1977年)。通过EM算法从不完整数据中获得最大似然。J.R.统计社会服务。B统计方法。39 1-38. ·Zbl 0364.62022号
[6] Dorman,K.S.、Sinsheimer,J.S.和Lange,K.(2004)。在枝繁叶茂的花园里。SIAM版本46 202-229(电子版)·Zbl 1069.60072号 ·doi:10.1137/S0036144502417843
[7] Doss,C.R.、Suchard,M.A.、Holmes,I.、Kato Maeda,M.和Minin,V.N.(2013)。补充“将出生-死亡过程与细菌DNA指纹应用于面板数据”·Zbl 1283.92027号
[8] Gagneux,S.、DeRiemer,K.、Van,T.、Kato Maeda,M.、de Jong,B.C.、Narayanan,S.,Nicol,M.,Niemann,S.和Kremer,K.K.、Gutierrez,M.和Hilty,M.以及Hopewell,P.C.和Small,P.M.(2006)。结核分枝杆菌的可变宿主-猪源相容性。程序。国家。阿卡德。科学。美国103 2869-2873。
[9] Gibson,G.J.和Renshaw,E.(1998年)。使用马尔可夫链方法估计随机房室模型中的参数。IMA医学与生物学数学应用杂志15 19-40·Zbl 0916.92024号
[10] Golinelli,D.(2000)。隐随机人口过程中的贝叶斯推断。华盛顿州西雅图华盛顿大学博士论文。
[11] Guttorp,P.(1995)。科学数据的随机建模。查普曼和霍尔,伦敦·Zbl 0862.60034号
[12] Henrici,P.(1979年)。计算复数分析中的快速傅里叶方法。SIAM版本21 481-527·Zbl 0416.65022号 ·数字对象标识代码:10.1137/1021093
[13] Holmes,I.(2005)。使用进化期望最大化估计指数。生物信息学21 2294-2300。
[14] Holmes,I.和Rubin,G.M.(2002年)。一种用于训练隐藏替换模型的期望最大化算法。分子生物学杂志317 753-764。
[15] Jackson,C.H.(2011)。面板数据的多状态模型:R.Journal of Statistical Software 38 1-29的msm包。
[16] Jasmer,R.M.、Hahn,J.A.、Small,P.M.,Daley,C.L.、Behr,M.A.、Moss,A.R.、Creasman,J.M.和Schecter,G.F.、Paz,E.A.和Hopewell,P.C.(1999)。1991-1997年旧金山结核病趋势的分子流行病学分析。内科年鉴130 971-978。
[17] Kalbfleisch,J.D.和Lawless,J.F.(1985)。马尔可夫假设下的面板数据分析。J.Amer。统计师。协会80 863-871·Zbl 0586.62136号 ·doi:10.2307/2288545
[18] Karlin,S.和McGregor,J.(1958年)。线性增长出生和死亡过程。数学杂志。机械。7 643-662. ·Zbl 0091.13804号
[19] Kato-Maeda,M.、Metcalfe,J.Z.和Flores,L.(2011)。结核分枝杆菌的基因分型:在流行病学研究中的应用。未来微生物。6 203-216.
[20] Keiting,N.(1975年)。出生和死亡过程中的最大似然估计。安。统计师。3 363-372. ·Zbl 0302.62043号 ·doi:10.1214/aos/1176343062
[21] Kendall,D.G.(1948年)。关于广义的“生与死”过程。安。数学。统计师。19 1-15. ·Zbl 0032.17604号 ·doi:10.1214/aoms/1177730285
[22] Lange,K.(1982)。通过有限傅里叶变换计算有害基因的平衡分布。生物统计学38 79-86·兹比尔0479.62086 ·doi:10.307/2530290
[23] Lange,K.(1995年)。梯度算法局部等价于EM算法。J.R.统计社会服务。B统计方法。57 425-437. ·Zbl 0813.62021号
[24] Louis,T.A.(1982)。使用EM算法时,寻找观测信息矩阵。J.R.统计社会服务。B统计方法。44 226-233. ·Zbl 0488.62018号
[25] McEvoy,C.R.E.、Falmer,A.A.、van Pittius,N.C.G.、Victor,T.C.、van Helden,P.D.和Warren,R.M.(2007)。IS6110在结核分枝杆菌进化中的作用。结核病87 393-404。
[26] Minin,V.N.和Suchard,M.A.(2008年)。计算连续时间马尔可夫演化模型中的标记跃迁。数学杂志。生物学56 391-412·Zbl 1145.60323号 ·doi:10.1007/s00285-007-0120-8
[27] Nee,S.(2006)。宏观进化中的生死模型。生态学、进化和系统学年度回顾37 1-17。
[28] Roberts,W.J.J.和Ephraim,Y.(2008)。一种用于离子通道电流估计的EM算法。IEEE传输。信号处理。56 26-33. ·Zbl 1390.92031号 ·doi:10.1109/TSP.2007.906743
[29] Rosenberg,N.A.、Tsolaki,A.G.和Tanaka,M.M.(2003)。使用系列样本估计遗传标记的变化率:在结核分枝杆菌转座子IS6110中的应用。理论种群生物学63 347-363·Zbl 1098.62147号 ·doi:10.1016/S0040-5809(03)00010-8
[30] Sehl,M.、Zhou,H.、Sinsheimer,J.S.和Lange,K.L.(2011年)。癌症干细胞治疗的灭绝模型。数学。Biosci公司。234 132-146. ·Zbl 1256.92028号 ·doi:10.1016/j.mbs.2011.09.005
[31] Small,P.M.、Hopewell,P.C.、Singh,S.P.、Paz,A.、Parsonet,J.、Ruston,D.C.、Schecter,G.F.、Daley,C.L.和Schoolnik,G.K.(1994年)。旧金山的结核病流行病学。一项使用传统和分子方法的基于人群的研究。新英格兰医学杂志330 1703-1709。
[32] Suchard,M.A.、Lange,K.和Sinsheimer,J.S.(2008年)。mRNA产生蛋白质的效率。统计理论与实践杂志。2 173-182. ·doi:10.1080/15598608.2008.10411869
[33] Tanaka,M.M.和Rosenberg,N.A.(2001年)。分子流行病学中插入序列转座率的最佳估计。统计医学20 2409-2420。
[34] Thorne,J.L.、Kishino,H.和Felsenstein,J.(1991)。DNA序列最大似然比对的进化模型。《分子进化杂志》。33 114-124.
[35] van Embden,J.D.,Cave,M.D.,Crawford,J.T.,Dale,J.W.,Eisenach,K.D.,Gicquel,B.,Hermans,P.,Martin,C.,McAdam,R.,Shinnick,T.M.等人(1993年)。通过DNA指纹识别结核分枝杆菌菌株:标准化方法的建议。临床杂志。微生物。31 406-409.
[36] Warren,R.M.、van der Spuy,G.D.、Richardson,M.、Beyers,N.、Booysen,C.、Behr,M.A.和van Helden,P.D.(2002)。结核分枝杆菌传播过程中基于IS6110的限制性片段长度多态性模式的演变。临床杂志。微生物。40 1277-1282.
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。