×

传染病研究的设计和分析。2018年2月18日至24日举行的研讨会摘要。 (英语) Zbl 1409.00086号

小结:这是关于传染病传播的数学和统计方法的第五次研讨会。本次研讨会以早期研讨会主题的流行病学模型为基础,通过分析疾病爆发期间常规收集的病原体的高分辨率基因组数据,重点解开谁感染了谁。根据病原体基因组不同位置持续发生的微小突变的轨迹,使用数学工具和计算算法重建传播树和接触网络。

MSC公司:

00亿05 讲座摘要集
00B25型 杂项特定利益的会议记录
62-07 数据分析(统计)(MSC2010)
2015年1月62日 贝叶斯推断
62H30型 分类和区分;聚类分析(统计方面)
62N01号 审查数据模型
62号05 可靠性和寿命测试
第62页第10页 统计学在生物学和医学中的应用;元分析
92C60型 医学流行病学
05C90年 图论的应用
2006年6月62日 与统计有关的会议记录、会议记录、收集等
92天30分 流行病学
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] X.Didelot,C.Fraser,J.Gardy,C.Colijn,《部分抽样和持续爆发中的基因组传染病流行病学》,分子生物学与进化,34(2017),997-1007。
[2] M.Kendall、D.Ayabina、Y.Xu、J.Stimson、C.Colijn。从遗传和流行病学数据估计传播:比较传播树的指标,《统计科学》,33(2018),70-85。将随机流行病模型拟合到发病时间序列和基因系谱Vladimir N.Minin(与Jon Fintzi、Jon Wakefield、Kari Auranen、Mingwei Tang、Trevor Bedford和Gytis Dudas共同工作)简介随机流行病模型描述了传染病如何在感兴趣的人群中传播。这些模型是通过首先将个体分配到隔间(例如,易感、感染和康复),然后定义一个随机过程来构建的,该随机过程控制这些隔间的大小随时间的演变。在这里,我们提出了一种将这些模型与数据拟合的新策略,这是一项具有挑战性的任务。主要的困难是,即使是最警惕的传染病监测项目也只能提供人口中受感染人数的嘈杂快照。我们提出了一种贝叶斯数据增强策略,使随机流行病模型的统计推断具有可计算性。除了标准的发病率数据外,我们的方法还可以处理更奇异的数据类型,例如在疫情监测期间收集的传染病病原体基因序列的系谱/系统发育。我们介绍了使用我们的新方法将随机流行病模型与流感和埃博拉病毒疫情数据拟合的结果。传染病研究的设计与分析393隐式随机流行病模型让Y表示在传染病爆发期间或之后收集的数据。在这项工作中,我们将假设Y包含漏报的发病率数据或从感染宿主样本中收集的传染病分子序列的系谱。我们假设一个马尔可夫随机模型,该模型将人群划分为有限个隔间(例如,易感、传染性、迁移),并由参数θ(例如,传染性和恢复率)控制。设X=(Xt0,…,Xtn)是在时间t0,tn,其中这些时间可以是收集发病率数据的时间,也可以是当我们使用病原体系谱作为数据时适当的规则时间网格。我们对后验分布Pr(θ|Y)∞Pr(Y|θ)Pr是模型参数的先验密度。上述可能性在计算上很难解决,因为即使对于适度高的种群规模N,Xt的状态空间也太大。线性噪声近似为了克服似然难解性,我们首先使用标准贝叶斯数据增强,并针对增强的后验Pr(θ,X|Y)∞Pr(Y,X|θ)Pr(σ),开发了马尔可夫链蒙特卡罗(MCMC)算法,其中“n#Y Pr(Y,X|σ)=Pr(Y|X,θ)Pri(Xt0|θ。l=1数据增强本身并不能解决似然难处理的问题,因为对于大多数随机流行病模型来说,转移密度p(Xtl | Xtl−1,θ)在计算上是很难处理的。我们使用线性噪声近似(LNA)将p(Xtl | Xtl−1,θ)替换为合适的高斯密度[2]。因此,我们只剩下一个具有非高斯条件密度观测数据的潜在高斯模型。我们将LNA方法扩展到将随机流行病模型拟合到发病率和系谱数据,并为其配备现代MCMC采样器-椭圆切片采样算法。芬兰的猪流感:来自少报发病率数据的推断我们使用我们的LNA方法,将SEIR型模型拟合到2009-2010年4月国家监测系统的轻度流感每周发病率和2009年10月中旬发起的国家运动的每周疫苗接种数。这些数据ȩɯɾƚɟǞȩɟȒƚƇǞŏȘɯŏȘƇ޼޸࣒ +vɯŏɻ޼޸࣒ +v(v){\it ru}ޟ{\it}޴޴޼ ޴޳޼޴޶޼ޠ޵޴޴޳޹޷޸޷޶ޠ޴޼޳ ޳޸޺޸޳޶394Oberwolfach报告7/2018޳޳޳޹ ޳޳޳޶޳޳޴޷ÚȩɯɾƚɟǞȩɟƇǞɯɾɟǞʕɾǞȩȘɯǃɟƚʿŏȘƇǞȘƇʕżƚƇɟǞȩɟɯɟƚƇŏżɟȩɯɯ ɾǕƚ ɔȩɯɾƚɟǞȩɟ ɟŏȘǃƚɯࠒࠇ ģŏżżǞȘƚ ƚǀ˙żŏżʿ ǀȩɟ ɯʕɯżƚɔɾǞųǞȀǞɾʿޟޣާ ިޤࢺ +v(v)ޟޡޟޟަާ࠯ࠒࠇÚɟƚƇǞżɾƚƇ ƇǞǀǀƚɟƚȘżƚ ǞȘ żʕȒʕȀŏɾǞʲƚ ǞȘżǞƇƚȘżƚ ÚȩɯɾƚɟǞȩɟ ƇǞɯɾɟǞųʕɾǞȩȘ ȩǀ ǞȘ˚ʕƚȘˌŏ ǞȘżǞƇƚȘżƚࠒ࠮Șȩ ʲŏżżǞȘŏɾǞȩȘ ʲŏżżǞȘŏɾǞȩȘ࠯ࠊ ࠺ޟޠࢺ ࠮ިޤ乌鲁vࠊ ࠺ޤާࢺࠋ ޥޟࢺ࠯ࠒ ÚȩǞȘɾʶǞɯƚ ȒƚƇǞŏȘޤޟࢺࠋ ާޟŏȘƇ ިޤࢺ +ࠒࠇ vȘǃƚȘƚɟŏȀŏǃɟƚƚȒƚȘɾʶǞɾǕǕʕࠒ ࠮ޡޟޠޥ࠯ࠒ0 *+,-./ 使用1''478''938''438!“#\(%&#''()*+('*+'325ʶǞɾǕ ŏȘƇ ʶǞɾǕȩʕɾ ʲŏżżǞȘŏɾǞȩȘɔȩǞȘɾʶǞɯƚ ȒƚƇǞŏȘޤޟࢺࠋ ާޟࢺࠋ ŏȘƇ ިޤ乌鲁vɯࠒ+*&#B*)+!``#!''!``!''%!``&!''``()## ! % \& '' ( 1 2 3 !#45/+,/67+8.9:6;:50-<# ! \)
[3] G.Dudas、L.M.Carvalho、T.Bedford、A.J.Tatem、G.Baele、N.R.Faria、D.J.Park、J.T.Ladner、A.Arias、D.Asogun等人,《病毒基因组揭示了埃博拉疫情的传播和持续因素》,《自然》,544(2017),309-315。
[4] P.Fearnhead,V.Giagos,C Sherlock,《使用线性噪声近似进行反应网络推断》,《生物统计学》,70(2014),457-466·Zbl 1419.62346号
[5] D.A.Rasmussen,O.Ratmann,K.Koelle,使用系谱和时间序列推断非线性流行病学模型,《公共科学图书馆·计算生物学》,7(2011),e1002136。
[6] M.Shubin,M.A.Lebedev,O.Lyytik¨ainen,K.Auranen,《揭示前两季芬兰甲型H1N1流感大流行的真实发病率——基于动态传播模型的分析》,《公共科学图书馆·计算生物学》,12(2016),e1004803。
[7] R.A.Smith,E.L.Ionides,A.A.King,通过连续蒙特卡罗从遗传数据推断的传染病动力学,分子生物学与进化,34(2017),2065-2084。
[8] E.M.Volz,S.L.Kosakovsky Pond,M.J.Ward,A.J.Leigh Brown,S.D.W.Frost,传染病流行的心理动力学,遗传学,183(2009),1421-1430。流行病学参数的统计推断:病毒系统发育的价值是什么?Tom Britton(与Federica Giardi联合工作)在当前项目中,我们关注的是对传染病爆发的推断。考虑到艾滋病毒,我们的重点在于估计生殖数量(在当前预防措施下)Rcurr、风险组N的人口规模以及确诊病例的比例pdiag。我们研究了几个相关的流行病模型:SIR-closed with treatment、SI-open with treapment、SIRopen with-treatment和SIS-open with treagment,这些模型取决于是否考虑封闭社区中的短期疫情爆发,或者考虑人口统计学的长时间爆发。对于所有模型,一小部分感染病例都会得到诊断和治疗。我们强烈假设存在一个由同质混合个体组成的社区,这些个体在传染性和易感性方面也很相似。做出这种简化假设的根本原因是,更现实的假设将使分析更加困难,而且当观察到新的艾滋病毒疫情时,通常没有很好地研究病毒传播所在社区的基本结构。我们研究了两种不同的数据来源:要么我们“只”观察诊断的时间,要么这个信息是可用的,即被诊断的个体被测序(用于重建潜在的病毒系统发育)。对于后一种情况,我们作出了简化的理想化假设,即病毒系统发育是在没有任何不确定性的情况下重建的,它与传播树完全一致,只是感染方向丢失了。显然,这是不切实际的,但与实际情况相比,这将为我们提供参数估计精度的上限。我们分别表示d数据和d&G数据所考虑的两个数据集,其中G代表遗传学或遗传数据。396Oberwolfach Report 7/2018使用MCMC并利用Tanja Stadler的递归方法进行推断,以计算部分取样系统发育的可能性。通过模拟研究得出的主要分析结论是:对于d-数据和d&G数据以及不同的流行病模型,参数估计的精度大致相同。因此,获取序列并推断系统发育几乎没有用处(记住,我们假设没有异质性)如果风险人群已知大小N,则Rcurrand pdiag的估计值是一致的,这意味着随着N变大,不确定性降低到0。如果已知pdiag并估计N,同样的结果也成立估计N和pdiag(以及Rcurr)是不可行的,这意味着N和pdia的一系列组合与这两个数据集是一致的。因此,这两个参数不能单独识别。结果的一个结果是,如果人口规模N和抽样分数pdiag未知(如在艾滋病毒局部爆发情况下常见),那么传统的表外数据(d-data)或甚至表外数据以及病毒系统发育(d&g-data)不足以将两者分开。如果人群在一个或多个方面具有异质性(这是很可能的),我们相信,与d-数据相比,d&G数据的某些此类异质性可以以更高的精度进行推断。然而,我们也不认为该数据会对这种情况下的pdiag和N分别给出一致的估计。这是正在进行的工作。结构化人群中SIR疫情的R0 Pieter Trapman(与Frank Ball、Lorenzo Pellis和Carolina Fransson联合工作)传染性的在均匀混合人群中,基本繁殖数R0是解释疾病传播潜力的关键数量。R0通常被定义为在最易感人群中由典型感染者引起的预期感染数量。R0可以被解释为近似分支过程的后代平均值,因为R0是一个阈值参数,在这种意义上,当且仅当R0>1时,感染的引入导致具有正概率的大规模爆发。对于结构性人群中的流行病,例如在“家庭”中划分的人群中,个人之间的接触强度更高,通常可能会发现在另一个水平上的近似分支过程,而不是个人的分支过程。例如,对于家庭流行病,人们可能会将家庭中的第一批感染病例视为分支过程的粒子。这种分支过程的后代平均数仍然是流行病的阈值参数,但它可以用于传染病研究的设计和分析397不再被解释为典型感染个体的预期个体数。在本次讲座中,我们考虑如何定义两种结构人群中流行病的近似分支过程,从中我们可以找到由典型感染者感染的预期人数。对于“家庭流行病”,我们仍然只考虑家庭内的初始病例作为近似分支过程中的粒子。但现在我们追踪感染以粒子为代表的个体所需的人与人之间的传播数量,也就是说,母体微粒在孩子出生时的年龄是指从一个家庭的最初感染到第二个家庭的初始感染所需的人际传播数量。对于这个分支过程,很容易计算Malthusian参数α,然后显示R0=eα。我们考虑的第二个模型是带有聚类的配置模型随机图。在这个模型中,个体由顶点表示,联系人只可能沿着图的边。我们说,每个顶点都有一个随机数(分布为S),其中包含分配给它的“单个存根”,以及一对“三角形存根”的随机数(分配为T)。分配给不同顶点的随机数是独立的。然后,我们通过随机均匀配对单个存根来创建边,并通过将成对的三角形存根均匀分组为三对存根组成的组来创建三角形。与家庭传染病相同,朴素的分支过程近似不适用于此模型,因为在近似过程中,随机传染期可能会在兄弟姐妹和父母的后代中产生依赖性。然而,通过考虑三种类型的顶点:(i)通过单边和三角形边感染的顶点(ii)具有或(iii)不具有三角形中的第三个顶点仍然敏感,我们获得了一个适当的多类型分支过程。对于这个分支过程,我们可以计算均值弹簧矩阵的最大特征值,它对应于由典型感染者引起的预期感染数。工具书类
[9] L.Pellis,F.Ball,P.Trapman,带有家庭和其他社会结构的流行病模型的繁殖数。I.R0的定义和计算,《数学生物科学》,235.1(2012),85-97·Zbl 1241.92067号
[10] F.Ball,L.Pellis,P.Trapman,《带有家庭和其他社会结构的流行病模型的繁殖数II:疫苗接种的比较和影响》,《数学生物科学》,274(2016),108-139·Zbl 1365.92115号
[11] C.Fransson,P.Trapman,带聚类的随机图上的SIR流行病和疫苗接种,arXiv预印本arXiv,(2018),1802.05011。398Oberwolfach Report 7/2018 phyloscanner:多宿主NGS读取的自动系统发育学揭示了传播、多重感染、,重组和污染Chris Wymant(与Matthew Hall、Oliver Ratmann、David Bonsall、Tanya Golubchik、Mariateresa de Cesare、Astrid Gall、Marion Cornelissen、Christophe Fraser、STOP-HCV联盟、Maela肺炎球菌协作组织和BEEHIVE协作组织共同工作)系统发育学通过识别病原体密切相关的个体,使我们能够更多地了解传染病的传播,从中我们推断这些个体在传播链中密切相关。鉴定密切相关的病原体需要准确地确定病原体序列,以便能够有意义地解释微小差异。对于人类免疫缺陷病毒(HIV)来说,从下一代测序产生的“reads”(序列的短片段)重建整个基因组序列在技术上具有挑战性。特别是,将读取映射(对齐)到参考序列会导致有偏见的信息丢失;这种偏见会扭曲流行病学和进化论的结论。{\it De novo}汇编通过有效地将读取与自身对齐,生成一组称为contigs的序列,从而避免了这种偏差。然而,连接仅提供读取的部分摘要,组装错误可能导致其结构不正确,并且在无法组装连接的基因组部分没有可用信息。我们开发了工具颤抖[2]来解决这些问题:对读数进行预处理以获得质量和污染,然后使用校正的连续图将其映射到针对样品定制的参考,并补充用户选择的现有参考序列。根据BEEHIVE项目的65个现有公开样本和50个新样本的测试数据集(跨越进化和Epi-}欧洲艾滋病毒的生物岩石学),称为“使用颤抖”的一致序列在系统上优于将相同读数映射到洛斯阿拉莫斯国家实验室综合在线数据库3249个真实参考值中最接近的结果(http://www.hiv.lanl.gov/). 43个碱基的中位数被以不同的方式更准确地调用(由更高的覆盖率支持),代价是1个碱基被以不同方式调用且不太准确。在准确地重建了我们的艾滋病毒基因组之后,我们将注意力转向了数据中传播的推断,以及更广泛的推断。大多数分子流行病学分析只使用了来自每个感染宿主样本的一个病原体序列。这些序列的系统发育只显示了谁的病原体与谁密切相关,而不是谁感染了谁。如果传播模型可以与其他流行病学数据(如估计感染次数)一起拟合到系统发育中,则可以从这种系统发育中推断传播方向。这取决于流行病学数据和传播模型的可用性和准确性。传染病研究的设计与分析399参考文献[1]表明,利用感染HIV-1的每个宿主的多种基因型的系统发育和病毒宿主状态的祖先重建,可以推断传播方向,而无需额外的流行病学数据。我们的公共软件工具phyloscanner可以自动推断系统发育,同时显示宿主内部和宿主之间的进化。对于下一代测序数据,可以使用沿整个基因组的滑动窗口中的读取来构建系统发育。门扫描器识别并去除可能的污染物序列,量化宿主多样性,识别被多种菌株感染的个体,并发现菌株重组的信号。它执行病原体宿主状态的祖先重建,为传播过程提供前所未有的分辨率,允许仅从序列数据推断传播方向。我们在Illumina和Roche 454平台上测序的HIV小样本说明性数据集上说明了phyloscanner,在Oxford Nanopore MinION平台上测测序的HCV,以及在每个个体的多个菌落中测序的{it肺炎链球菌}{it moniae}。听众(读者)可以参考奥利弗·拉特曼(Oliver Ratmann)的演讲(摘要),了解如何将phyloscanner应用于大规模人口数据,以及由此获得的关于传播模式的经验教训。工具书类
[12] E.O.Romero-Severson,I.Bulla,T.Leitner,《系统学解决流行病学联系》,美国国家科学院院刊,113(2016),2690-2695。
[13] C.Wymant、F.Blanquart、T.Golubchik、A.Gall、M.Bakker、D.Bezemer、N.J.Croucher、M.Hall、M.Hillebregt、S.H.Ong、O.Ratmann、J.Albert、N.Banner、J.Felley、K.Fransen、A.Gourlay、M.K.Grabowski、B.Gunsenheimer-Bartmeyer、H.F.Gunthard、P.Kivela、R.Kouyos、I.Laeyendecker、K.Liitsola、L.Meyer、K.Porter、M.Ristola、A.van Sigem、B。Berkhout,M.Cornelissen,P.Kellam,P.Reiss,C.Fraser,《BEEHIVE协作,使用SHIVER从短序列数据轻松准确地重建整个HIV基因组》,病毒进化,(2018),出版社。
[14] C.Wymant、M.Hall、O.Ratmann、D.Bonsall、T.Golubchik、M.de Cesare、A.Gall、M.Cornelissen、C.Fraser、STOP-HCV Consortium、Maela肺炎球菌协作、BEEHIVE协作、PHYLOSCANNER:推断宿主内和宿主间病原体遗传多样性、分子生物学和进化的传播(2017)。结合传播和进化模型,利用基因组数据重建树木Don Klinkenberg(与Xavier Didelot、Caroline Colijn、Jantien Backer和Jacco Wallinga联合工作)重建疫情(感染者)有助于了解传播并指导未来疫情控制。病原体序列数据可以改进重建,但宿主菌株多样性的存在使得考虑所有不确定性成为一项挑战。我们开发了传染病暴发期间(中性)病原体进化模型,并开发了mcmc采样方案,以便400Oberwolfach Report 7/2018使用采样时间和序列进行暴发分析,即推断谁感染了谁以及何时感染。该方法作为R包phybreak[1]提供。在这个包中,我们实现了各种mcmc移动来遍历树空间。本次研讨会的演示侧重于这些动作的开发和设计。phybreak中的模型是对传播树和相关系统发育树的描述。树的当前状态由观察到的采样时间S和未观察到的感染时间I、感染者M和系统发育树P描述,它们可以细分为每个宿主I内的迷你树Pi。采样时间与观察到的序列G相关。可能性是四项的乘积,对于世代间隔分布、采样间隔分布、寄主内树和系统发育树上的突变过程。最初提出替代树的设计是基于选择一个宿主,即局灶宿主,去除其感染者和感染时间,并根据局灶宿主的采样时间和其他宿主的当前感染时间状态提出新的感染时间和感染者。这是移动的活动部分。因为这个活跃的部分破坏了焦点宿主和新旧感染者中的微型树,接下来是重新构建这些微型树的反应部分。该提案旨在重点关注传播树的重新布线,以便能够在提案中纳入更多的流行病学信息。这些信息可能是由于阴性检测结果或入院日期而对感染时间进行审查,也可能是由于患者位置信息(例如医院病房)而对可能的感染者进行审查。事实证明,在某些情况下,该程序导致mcmc链混合不良。混合不良是由频繁拒绝提议引起的,而在本例中,拒绝是由提议的系统发育迷你树引起的,这导致了完整系统发育树的更高简约分数,即需要更多的突变来解释树的拓扑结构。如果数据包含许多SNP(单核苷酸多态性,即样本之间的差异),或者如果微型树发生了太多变化,则会发生频繁的排斥反应。如果对主机进行多次采样,或者如果允许传输瓶颈过大,从而导致主机之间移动多个并行谱系,则会发生后一种情况。第一个问题(许多SNP)是通过设计方案来解决的,方案中只修改了一棵微型树,同时保持了传播树的完整性,或者修改了传播树,使系统发育树保持了完整性。后者首先为焦点宿主提出一个新的感染时间,在系统发育树上移动它,并检查这是否会产生一个一致的新传播树。如果没有,则尝试通过为另一宿主建议新的感染时间来解决不一致性。由于可能存在必须解决的不一致性,此程序不如初始设计优雅,但确实显著改善了mcmc混合。传染病研究的设计与分析401第二个问题(单个提案中的拓扑变化过多)是通过重新设计原始提案设计的反应部分来解决的:微型树的重组。首先,在旧的感染者中,似乎只可能删除来自焦点宿主的谱系,但保持小树的其余部分完好无损。其次,在新感染者中,似乎可以保留旧的迷你树,并通过模拟将来自焦点主机的新谱系附加到该迷你树。因此,新旧感染者微型树中唯一的变化与来自焦点宿主的谱系有关。第三,我们重新设计了焦点主机本身的迷你树的方案,保持了迷你树的拓扑结构不变,只重新模拟了合并时间。通过目前的一套关于传播树和系统发育树的建议,大多数混合问题都得到了解决。有一个例外,当所有的问题都出现在一起时:如果宿主有多个样本,并且有迹象表明存在广泛的瓶颈,那么保持系统发育树完整的建议是行不通的。如果在这种情况下,数据包含许多SNP,混合仍然效率较低。除了改进mcmc混合的进一步工作外,未来的方向还将包括使用更多流行病学数据的可能性,以及使用宿主协变量进行分析,目的是更好地了解传染性和传播,并指导疫情控制。工具书类
[15] D.Klinkenberg,J.A.Backer,X.Didelot,C.Colijn,J.Wallinga,传染病爆发中系统发育和传播树的同时推断,PLOS计算生物学,13(2017),e1005495。评估和完善流行病和系统发育模型Gavin Gibson(与Max Lau、George Streftaris、Glenn Marion和Colin Worby联合工作)当流行病在空间和时间上传播时,建模流行病动态的一个主要挑战是将模型拟合到过程的部分观测值,并根据数据评估建模假设的有效性。例如,在SEIR时空模型通常用于模拟树栖病原体(如柑橘溃疡病)的传播的情况下,了解空间核函数K(d;κ)的性质尤为重要其特征是受感染个体对易感人群的感染挑战依赖于两者之间的距离d。关于K(d;κ)的信念严重影响控制策略的设计,例如基于在新发现感染的特定半径内清除宿主。当这些模型应用于人类或兽医病原体(如FMD)时,也会出现类似的问题。本次讲座探讨了如何通过以序列数据的形式提供病原体菌株的遗传信息以及感染位置的信息来增强对K(d;κ)的了解。通过将在传播事件期间传递的菌株序列、未观察到的转移402Oberwolfach报告7/2018次以及未观察的传播图作为数据增强贝叶斯分析中的附加参数,可以整合遗传和流行病数据。利用模拟时空流行病,我们表明,当对大多数感染进行采样时,遗传信息可以显著增强空间核函数和传输图的后验信息。当然,应该注意到,这种增强依赖于病原体的充分进化,以便遗传数据具有信息性。演讲中关于这个主题的结果见[1]。描述的第二个主题是评估建模假设。特别是,我们使用了一个非常简单的病原体分子进化模型,该模型假设在任何时候,病原体种群中都有一个单一的优势菌株。因此,忽略了病原菌种群的宿主多样性。在正在进行的工作中(与Max Lau和Colin Worby(普林斯顿大学)合作),我们采用了之前在[2]、[3]、[4]中使用的潜在残留方法。特别地,我们定义了U(0,1)i.i.d.随机变量的潜在过程,可在数据增强的MCMC中输入,并可应用U(0、1)拟合的经典检验(此处为Anderson-Darling检验)。通过适当构建残差过程,可以定制对遗传模型的误特异性敏感的测试。使用模拟数据(具有正确指定和错误指定的分子进化模型)给出了一些初步结果,以说明该方法的潜在价值。在进一步的改进中,我们建议如何将“分数”分配给插补残差,以便选择分数值较高的残差可以进一步提高结果测试的灵敏度。工具书类
[16] M.S.Y.Lau、G.Marion、G.Streftaris、G.J.Gibson,《流行病学和遗传数据的系统贝叶斯集成》,公共科学图书馆。生物,11(2015),e1004633。
[17] G.J.Gibson,W.Otten,J.A.N.Filipe,A.Cook,G.Marion,C.A.Gilligan,植物种群疾病传播渗流模型的贝叶斯估计,统计与计算,16(2006),391-402。
[18] M.S.Y.Lau,G.Marion,G.Streftaris,G.J.Gibson,流行病学和生态学时空系统的新模型诊断,J.Roy。Soc.接口,11(2014),20131093。
[19] G.J.Gibson,G.Streftaris,D.Thong,《流行病模型的比较与评估》,《统计科学》,33(2018),19-33。使用密集抽样的遗传数据重建传染病传播树Theodore Kypraios(与Colin Worby、Rosanna Cassidy、Ben Cooper和Philip O'Neill联合工作)传染病流行分析的基本目标是确定谁感染了谁,然而,实现这一目标具有挑战性,因为传输动力学通常不被观察到。基于所有可用数据的传输树概率估计提供了许多潜在好处。特别是,这可以使传染病研究的设计和分析403提高对传播动力学的理解,提供一种机制来量化与传播性增强以及对携带和感染的易感性相关的因素,并帮助确定减少传播的有效干预措施。病原体分型可用于聚类遗传相似的分离物样本,从而排除潜在的传播途径。全基因组序列(WGS)数据通过识别单个点突变或单核苷酸多态性(SNP)提供了最大的鉴别能力,可能导致比迄今为止更准确的传播树重建。然而,由于流行病和进化动力学之间的关系复杂,对遗传和监测数据的联合分析提出了一些挑战。我们专注于个体水平的传播,使用来自亚群体(例如医院、学校、监狱、农场、社区)的高频基因组样本,目的是重建传播途径。我们描述了一种通用的传输树重建方法,该方法克服了这些限制,并利用了分子分型信息和已知暴露数据。我们方法的一个关键新颖之处在于,我们对序列之间的遗传距离进行建模,而不是对序列本身的微进化进行建模。这提供了一个灵活的框架,其中可以考虑病原体的多次独立引入和宿主内的多样性,以及传播过程本身。这种方法避免了对宿主内病原菌种群动态进行任何假设的需要,而这些假设在一般情况下都很难理解。此外,我们提出的框架允许数据在时间上进行正向模拟,这是大多数现有方法所缺乏的一个特征(在系统发育方法中通常需要反向时间模拟,而其他方法只模拟了一组不完整的遗传距离),这在预测建模和模型评估中具有根本的重要性。使用数据增强马尔可夫链蒙特卡罗算法对传输树进行采样,为任何给定的传输路径提供后验概率。我们使用模拟数据说明了我们的方法的预测性能,证明了高灵敏度和特异性,特别是对于具有低传染性的快速突变病原体。我们对一家医院爆发耐甲氧西林金黄色葡萄球菌疫情期间收集的数据进行了分析,确定了可能的传播途径并估计了流行病学参数。我们的方法克服了以往方法的局限性,提供了一个灵活的框架,以允许未观察到的感染时间、病原体的多次独立引入、宿主内的遗传多样性,以及允许正向模拟。工具书类
[20] C.J.Worby、P.D.O'Neill、T.Kypraios、J.V.Robotham、D.De Angelis、E.J.Cartwright、S.J.Peacock、B.S.Cooper,《使用密集抽样遗传数据重建传染病传播树》,《Ann Appl Stat》,第10期(2016年),第395-417页。404Oberwolfach报告7/2018动态系统基于似然数的推断,以及门动力学应用Edward L.Ionides序贯蒙特卡罗(SMC)算法能够计算一般部分观测马尔可夫过程(POMP)模型的似然函数。POMP模型由通过噪声测量集合观察到的潜在马尔可夫过程组成。具有一些共享参数的独立POMP模型集合称为PanelPOMP模型。一种POMP模型,其中马尔可夫过程具有适合于疾病传播建模的树值结构,并且测量值包括遗传序列数据,我们称之为GenPOMP。我们讨论了POMP、PanelPOMP和GenPOMP模型推理理论和实践的进展。从数据分析的角度来看,我们演示了pomp和panelPomp R包以及genPomp C++程序。从理论角度出发,我们讨论了与一般非线性POMP模型,特别是PanelPOMP或GenPOMP模型的基于SMC的似然统计推断相关的四个定理和一个猜想。定理1。{IF1算法的收敛性}[2][4]。迭代滤波算法扰动POMP模型的参数向量,通过SMC执行滤波操作,使用此SMC滤波更新参数向量,然后以减小扰动的方式重复。IF1算法使用滤波扰动参数的加权平均值进行更新。定理2。{IF2算法的收敛性}[5]。IF2算法具有与IF1类似的结构,但不是通过加权平均进行更新,而是使用一次滤波迭代结束时的滤波扰动参数向量作为下一次迭代的开始。使用与IF1完全不同的理论技术证明了IF2的收敛性。在实践中,IF2算法被发现是优越的。定理3。{PIF算法的收敛性}[1]。IF2算法对PanelPOMP模型的扩展称为PIF算法。PIF继承了IF2的收敛理论。定理4。{GenSMC算法的收敛性}[8]。开发了各种计算技术,以获得适用于GenPOMP模型的可计算SMC变体,我们称之为GenSMC。我们证明了广义SMC理论为GenSMC提供了渐近保证。猜想1。{蒙特卡罗调整的配置文件置信区间}[3]。对于大型复杂模型,如PanelPOMP和GenPOMP,迭代滤波最大化和似然函数的SMC估计具有相当大的蒙特卡罗误差。尽管存在这种蒙特卡罗不确定性,但我们提出了获得适当置信区间的方法。该方法是从启发性的角度推导出来的,并通过仿真研究证明其有效。因此,我们推测它具有渐近的理论保证。传染病研究的设计与分析405篇参考文献
[21] C.Bret´o,E.L.Ionides,A.A.King,通过机械模型进行面板数据分析,Arxiv(2018),1801.05695。
[22] E.L.Ionides,C.Bret´o,A.A.King,非线性动力系统的推断,美国国家科学院学报,103(2006),18438-18443。
[23] E.L.Ionides,C.Breto,J.Park,R.A.Smith,A.A.King,动态系统的蒙特卡洛剖面置信区间,《皇家学会界面杂志》,第14期(2017),1-10页。
[24] E.L.Ionides,A.Bhadra,Y.Attchad´E,A.A.King,《迭代过滤》,《统计年鉴》,39(2015),1776-1802·Zbl 1220.62103号
[25] E.L.Ionides,D.Nguyen,Y.Atthad´E,S.Stoev,A.A.King,通过迭代扰动Bayes映射推断动态和潜在变量模型,美国国家科学院学报,112(2015),719-724·Zbl 1359.62345号
[26] A.A.King,E.L.Ionides,M.Pascual,M.J.Bouma,《自然》,454(2008),877-880。
[27] A.A.King,D.Nguyen,E.L.Ionides,通过R包pomp对部分观测到的马尔可夫过程进行统计推断,《统计软件杂志》,69(2016),1-43。
[28] R.A.Smith,E.L.Ionides,A.A.King,通过连续蒙特卡罗从遗传数据推断的传染病动力学,分子生物学与进化,34(2017),2065-2084。从非洲环境中的深序列数据重建HIV-1传播网络:渔业社区是乌干达拉凯新的HIV感染的主要来源吗?Oliver Ratmann(代表PANGEA财团和Rakai健康科学项目与Kate Grabowski、Matthew Hall、Tanya Golubchik、Chris Wymant、Joseph Kagaayi、Godfrey Kigozi、Thomas Quinn、Maria Wawer、Oliver Laeyendecker、David Serwadda、Ronald Gray、Christophe Fraser联合工作)背景与方法将艾滋病综合预防(CHP)目标定位于艾滋病高发地区,被认为是降低撒哈拉以南非洲地区艾滋病发病率的一项成本效益高的基本战略。自2014年以来,乌干达国家抗逆转录病毒治疗指南向维多利亚湖的渔民社区推荐有针对性的CHP,估计HIV感染率为25
[29] C.Wymant、M.Hall、O.Ratmann、D.Bonsall、T.Golubchik、M.de Cesare、A.Gall、M.Cornelissen、C.Fraser、STOP-HCV Consortium、Maela肺炎球菌协作、BEEHIVE协作、PHYLOSCANNER:推断宿主内和宿主间病原体遗传多样性、分子生物学和进化的传播,msx304(2017),https://doi.org/10.1093/molbev/msx304。传染病研究的设计与分析407区分引种和本地传播西蒙·弗罗斯特传染病无国界。虽然原则上,我们可以对整个风险人群进行建模,但由于潜在的高度异质性、用于模拟或拟合模型的计算资源有限以及用于建立大规模模型的数据有限,这都会带来问题。因此,我们倾向于考虑较小的亚群,这就需要考虑从研究人群以外引入感染与本地传播的相对作用。引入可能是通过受感染个体的移动(所谓的“分布式感染者”),也可能是通过研究人群以外的个体感染研究人群中的个体(“分布式接触者”)。区分引种和本地传播对准确估计基本生殖数R0至关重要,并严重影响干预策略的选择。可以利用多个数据源,将介绍与本地传输区分开来。在某些情况下,可以使用病例发病数据,特别是在通过介绍维持感染的情况下。其中一个例子是甲型H7N9流感,它在家禽中有一个蓄水池,但在人类中传播的适应性较差。Kucharski等人[5]采用了一个离散时间模型来估计引入率。为了测试结果对模型选择的稳健性,我使用部分可观测的马尔可夫过程(POMP,[4])对来自上海、江苏和浙江的三个H7N9数据集拟合了一个连续时间移民出生死亡过程。在三个数据集中,有两个数据集的方法基本一致;然而,使用POMP推断的跳跃次数明显高于使用离散时间模型。POMP方法的一个显著优点是可以使用更复杂的机械模型。当应用于2012/2013年威尔士发生的一场流行病的麻疹病例时间序列时,有强有力的证据表明学校仍在继续引进麻疹病例,这就需要开发将不同学校和一般社区的动态联系起来的模型。遗传数据在地方病情况下特别有用。在某些情况下,幼稚的方法可能足以计算介绍的数量。例如,在对禽类和猪的甲型H1N1流感序列进行大规模分析时,我们发现存在三种禽类到猪的跨物种传播,只有一种传播导致大量猪随后感染[1]。一般来说,使用简单的方法很难解决跨物种传播问题。两种广泛使用的方法,简约和Mk模型,将子种群视为沿着系统发育分支独立“进化”的离散特征,对采样偏差极为敏感。这种偏倚在许多人畜共患传染病中是极端的,包括MERS冠状病毒(在骆驼和人类中)、SARS冠状病毒,(在果子狸猫和人中)和拉沙热病毒(在多乳鼠和人类中的)。在这些例子中,人类比水库物种更早、更密集地被采样。将基于trait的模型应用于2018年7月第408号Oberwolfach报告,这些数据错误地推断出人类向水库引入的大量物种。如果预先知道引入的方向,就有可能改进这些方法的性能,尽管可能需要从水库中采集大量样本,以避免大大低估引入的数量。这一点可以满足的一个例子是艾滋病毒,其中有大量来自世界各地许多国家的公开序列,可以被视为引入少数感兴趣亚群的来源。当应用于来自美国田纳西州中部的近3000个序列的数据集时,我们推断出近1000个单独的引入。然而,在新的艾滋病毒感染率相当稳定的背景下,我们很少发现大规模的病例集群可能代表了持续不断的当地传播链,而这些链却被忽视了。然而,在大多数情况下,我们事先不会知道传输的方向。结构化合并模型中,树的拓扑和分支长度可能依赖于子种群,已知其对采样偏差更为稳健[2],但与基于trait的方法相比,由于计算需求显著增加,因此其广泛应用受到了限制。我们重新分析了MERS冠状病毒的数据集,该病毒由骆驼和人类传播,之前使用标准结构聚合模型进行了拟合[3]。使用“孤岛”模型的近似(伪)相似性,我们在不做先验假设的情况下正确推断了人畜共患传染病的传播方向,分析需要数秒而不是数月。然而,系统发育中推断的祖先状态对分布式感染者与分布式接触者的假设很敏感。工具书类
[30] V.Bouret、J.Lyall、S.D.W.Frost、A.Teillaud、C.A.Smith、S.Leclaire、J.Fu、S.Gandon、J.L.Gu´erin、L.S.Tiley,《禽流感病毒对猪宿主的适应》,《病毒进化》,3(2017),vex007。
[31] N.De Maio,C.H.Wu,K.M.O'Reilly,D.Wilson,《谱系地理学的新途径:贝叶斯结构合并近似法》,《公共科学图书馆·遗传学》,11(2015),e1005421。
[32] G.Dudas,L.M.Carvalho,A.Rambaut,T.Bedford,骆驼人界面的MERS-CoV溢出,eLife,7(2018),7。
[33] A.A.King,D.Nguyen,E.L.Ionides,通过R包pomp对部分观测到的马尔可夫过程进行统计推断,《统计软件杂志》,69(2016),1-43。
[34] A.Kucharski,H.Mills,A.Pinsent,C.Fraser,M.Van Kerkhove,C.A.Donnelly,S.Riley,使用病例发作数据区分新发病原体的水库暴露和人与人之间的传播,公共科学图书馆期刊,6(2014),6。传染病研究的设计与分析409帮助序列和血清学数据转换感染模型的理论策略James S.Koopman(与Xinyu Zhang和Carl Simon联合工作)或和/或接触前预防(PrEP),尤其是T&T和PrEP联合使用,以消除HIV传播。但很少有人口层面的数据来衡量风险波动。因此,通过模拟,我们表明,来自感染者人群样本的HIV基因组序列包含了关于波动的风险行为如何在男男性接触者(MSM)中产生高感染率的信息。我们的分析说明了有助于发展序列模式生成理论的方法如何有助于解决此问题和其他动态过程问题。Smith等人开发的新方法允许将模型直接拟合到序列数据[1]。这些方法克服了从系统发育进行流行病学推断的缺陷。但为了充分提供信息,将模型拟合到序列数据应该有助于理解模型中影响模型行为和序列模式生成的过程。这是必要的,因为验证从模型到数据的拟合中得出的任何推论都需要现实地放松简化假设,而不会改变推论。由于现实地放松简化假设的方法几乎是无限的,因此验证基于模型的推论的关键步骤是发展理论,阐明推论可能最敏感的模型方面。要做到这一点,不仅仅需要遵循Smith等人的装配步骤[1]。我们举例说明了一种打开装配过程黑匣子的方法。首先,我们表明风险波动以独特的方式影响系统发育的形状,而不是通过改变其他模型参数来复制。为了了解这是如何发生的,我们假设了风险波动对基本繁殖数(R0)、地方病流行率和系统发育形状产生影响的两种机制。机制1使易感者与急性感染者接触。机制2降低了导致MSM感染的高接触率,从而降低了他们传播给他人的可能性。机制1提高了患病率,但不影响R0。它对树的形状有独特的影响,降低了Sackin指数,增加了樱桃的数量,并使树枝从树根到树叶形成较少但较大的簇。相反,机制2提高了Sackin指数,减少了樱桃数量,减少了大簇生长在树根附近的机会,同时增加了小簇生长在远离树根的地方的机会。这两种机制在风险波动的可能范围内存在差异。这使它们具有其他参数集无法再现的独特效果。因此,这项工作表明,序列有可能反映风险波动效应,并指示T&T和PrEP的预期效应。随着模型变得更加复杂,将需要额外的机制。寻找产生410Oberwolfach报告7/2018动力学和树形的不同机制将更具挑战性。但这样做将为将模型拟合到序列中增加很大的价值。工具书类
[35] R.A.Smith,E.L.Ionides,A.A.King,《通过序贯蒙特卡罗从遗传数据推断的传染病动力学》,分子生物学。演变。,34 (2017), 2065-2084. 宿主和病原体种群结构在多药耐药性动态中的作用Sonja Lehtinen(与Francois Blanquart、Marc Lipsitch、Christophe Fraser和Maela肺炎球菌协作组织联合工作)了解药物和多药耐药性的短期和长期动态对公共卫生很重要。然而,阻力动态中存在尚未完全解释的普遍趋势。首先,尽管抗生素的选择压力持续增加,但抗生素敏感菌株和耐药菌株仍然强劲共存。其次,对不同抗生素的耐药性往往在同一菌株上同时出现,导致多药耐药(MDR)的发生率较高。首先,我们提出了一个模型,在该模型中,共存是通过病原体种群内携带持续时间的变化来维持的(例如,携带持续时间不同的肺炎球菌血清型),因为耐药性的适应效果取决于携带持续时间。其次,我们表明,该模型在结构上与其他合理的共存模型相似,其中共存维持机制基于抗性适应度效益的变化。具有这种结构的模型也会产生高MDR频率,因为对所有抗生素的耐药性集中在从耐药性中获得的适应性优势较高的亚人群中。我们发现,该模型的预测在质量上与多个肺炎链球菌数据集中观察到的趋势一致。该模型为高MDR频率的普遍性提供了简约的解释,并使我们能够将这一趋势与观察到的耐药性流行的长期稳定性相协调。你家宠物是抗生素耐药性的来源吗?米克·罗伯茨抗生素被广泛用于控制家养宠物的感染,无论是口服片剂还是单次注射。细菌有几种方法可以培养出耐药菌株,包括繁殖过程中的突变和水平基因转移[1]。我们提出了一个单一宿主动物内抗生素耐药性发展的模型。设X=Xw+Xm+Xr表示单个宿主动物中的细菌总数,其中Xware表示野生型细菌,Xm表示对感染性疾病研究的设计和分析411因突变而感染具有抵抗力的细菌,Xre表示对质粒存在而感染具有抗力的细菌。动力学由方程dXw(1)dt=νwF(X)Xw−γwXw+σXr−ηXwXr dXm=ǫF(X)Xw+νmF。在我们的分析中,我们定义了三个繁殖数:Rw=νw/γw;Rm=νm/γm;并且Rr=γr/(γr+σ)。当只有一种阻力机制运行时,方程1简化为二维系统,解被限制在正象限的有界区域内,不可能有周期解。如果Xr≡0选择仅通过变异。如果Rw<1且Rm<1,则平凡稳态Xw=Xm=0是稳定的。半平凡稳态(Xw,Xm)=0,Xm#,其中RmF(Xm#)=1,如果Rm>1;如果Rm>Rw,则稳定。RwF(X*)=1存在的非平凡稳态,如果Rw>1且Rw>Rm,则稳定。这里,Xw*=Rw−RmX*X*ǫ/γm Rw-Rm+\491»/γmm=Rw-Rm+\491;/γmX*。图1A总结了动力学。从图中可以看出,如果Rm<1和Rwis减小(较低的水平折线),则当Rw>1时,存在两种类型的非平凡稳态,并且是稳定的,但对于Rw<1,没有细菌存在的平凡状态是稳定的。如果Rm>1且Rw减小(上部水平虚线),则实现的稳态从非平凡变为半平凡,只有突变的Xmpresent。3’6’ &’()(*!“#\(#%&'' ,/1#*!``#\)#
[36] D.I.Andersson,D.Hughes,《抗生素耐药性及其成本:是否有可能逆转耐药性?》?,《自然评论微生物学》,8(2010),260-271。
[37] P.Komp Lindgren,L.L.Marcusson,D.Sandvang,N.Frimodt-Möller,D.Hughes,与泌尿道感染有关的大肠杆菌中单个和多个诺氟沙星耐药突变的生物成本,抗菌剂和化疗,49(2005),2343-2351。
[38] B.R.Levin,F.M.Stewart,V.A.Rice,《共轭质粒传递动力学:简单质量作用模型的拟合》,plasmid,2(1979),247-260。
[39] A.J.Lopatkin,H.R.Meredith,J.K.Srimani,C.Pfeiffer,R.Durrett,L.You,质粒介导抗生素耐药性的持续性和逆转,《自然通讯》,8(2017),1689。
[40] C.Myhrvold,J.W.Kotula,W.M.Hicks,N.J.Conway,P.A.Silver,分布式细胞分裂计数器揭示了肠道微生物群的生长动力学,《自然通讯》,6(2015),10039。414Oberwolfach报告7/2018 TransMID项目:与传染病传播相关的社会接触模式:过去、现在和未来Niel Hens(与SIMID联盟(www.SIMID.be)联合工作)社会接触数据越来越多地被用来提高我们对密切接触传染病如何在人与人之间传播的理解,并有助于指导有效的疾病预防和控制政策。在很大程度上,正是在这种背景下,TransMID项目,一项ERC合并拨款,诞生了。在这里,我首先描述了TransMID项目,然后总结了社会接触调查的系统审查结果。我还描述了一项社会接触数据共享倡议,并在结束时描述了第一次基于家庭的接触调查,重点是测试家庭中常见的随机混合假设。TransMID专注于开发新的方法,从血清学和社会接触数据中估计关键的流行病学参数,目的是显著扩大使用这些数据可以充分解决的公共卫生问题的范围。利用新的统计和数学理论以及新收集的以及现成可用的血清学和社会接触数据,解决了基本的数学和流行病学挑战:不同规模的人口,使用现成的接触数据进行实证评估,(b)接触模式的行为和时间变化及其对传染病动态的影响,(c)密切接触的家庭网络和家庭内同质混合的假设,(d)从多变量和系列横断面血清学数据中估计参数,考虑到采集过程中的时间效应和异质性,并结合社会接触数据的使用,以及(e)最后设计血清和社会接触调查,具体侧重于系列横断面调查。根据对研究设计、统计分析和已发表的许多社会接触调查结果的系统审查,我们发现,收集人口经验接触数据的调查在许多国家广泛开展,但主要是在高收入国家。这些调查提出了广泛的研究设计。在整个过程中,我们发现整体接触模式对研究细节非常稳健。通过在设计的各个方面采用最常见的方法(例如采样方案、数据收集、接触定义),我们可以确定一种“通用实践”方法,该方法可用于促进研究之间的比较和未来研究的基准。在TransMID中,我们通过http://www.socialcontactdata.org指向数据存储库的链接,其中的数据是根据关系数据库结构构造的。然后,可以使用R-package‘socialmixr?首先由英国伦敦卫生与热带医学院的Sebastian Funk开发。最后,我介绍了第一次专门研究家庭内部联系网络的社会联系调查的结果(Goeyvaerts等人,2017年)。我们发现了高度的聚集性,尤其是在工作日,随着家庭规模的增加,联系减少。流行病学模拟结果表明,家庭内接触密度是完全接触网络和基于经验的家庭接触网络之间疫情传播差异的主要驱动因素。因此,均匀混合假设可以充分描述家庭内部接触结构,以用于流行病模拟。然而,从流行病模型推断时忽略接触密度将导致对家庭内传播率的估计有偏差。有必要进一步研究疫情模型中家庭内部联系网络的实现。工具书类
[41] G.Camarda,N.Hens,《社会联系数据建模:一种平滑约束方法》,《第13届国际妇女地位研究会议论文集》(2013年)。
[42] N.Goeyvaerts、E.Santermans、G.Potter、A.Torneri、K.V.Kerckhove、L.Willem、M.Aerts、P.Beutels、N.Hens,《家庭成员不随意接触:传染病建模的含义》,bioRxiv,(2017),220202。
[43] J.van de Kassteele,J.vanEijkeren,J.Wallinga,《男女年龄别社会接触率的有效估计》,Ann.Appl。《统计》,11(2017),320-339。生存偏差导致流感患者的观察治疗研究中得出错误的结论。马丁·沃尔克维茨(与马丁·舒马赫联合工作)背景和目的一些观察研究报告称,奥司他韦(达菲)降低了感染和住院患者的死亡率。由于对住院观察和时间依赖性治疗分配的限制,这些发现容易产生常见类型的生存偏差(长度、时间依赖性和竞争性风险偏差)。方法使用来自流感临床信息网络(FLU-CIN)研究组的英国医院数据,其中包括1391名确诊为2009年甲型H1N1流感大流行感染的患者。我们使用了一种多状态模型方法,包括以下状态:入院、奥斯他韦治疗、出院和死亡。时间起源于流感发病。我们展示了来自多州模型的个人数据、风险集、危害和416Oberwolfach报告7/2018概率,以研究这三种常见生存偏差的影响。结果Oseltamivir的正确死亡危险比为1.03(95
[44] M.Wolkewitz,M.Schumacher,《神经氨酸酶抑制剂与英国甲型H1N1流感患者的医院死亡率:对观察数据的重新分析》,《公共科学图书馆·综合》,11(2016),9:e0160430。
[45] M.Wolkewitz,M.Schumacher,生存偏见导致流感患者的观察性治疗研究得出错误的结论。《临床流行病学杂志》,84(2017),121-129。整合基因组学和流行病学的联合方法丹尼尔·威尔逊(Daniel J.Wilson)利用病原体基因组重建人群之间和疫情内部的传播是防治传染病的有力工具。然而,允许利用病原体基因组的统计模型和推断方法是复杂的,因此简化假设和近似非常有吸引力。有时,这些捷径对于实际目的来说是不可或缺的,但有时,它们可以忽略实际疫情的重要复杂性,例如宿主内进化和未抽样患者,或者它们可能有偏见、过于自信、效率低下和完全误导。在这次演讲中,我描述了我的团队是如何使用群体遗传学中基于聚合的模型来推动进化地理学和暴发推断新方法的开发的。使用埃博拉病毒、禽流感病毒、口蹄疫病毒和肺炎克雷伯菌的实际爆发的例子,以及详细的模拟,我将现有方法与我们开发的新工具进行了比较,并展示了不同的方法如何导致对传播的截然不同的流行病学解释。值得注意的是,我们发现传染病研究的系统地理学设计和分析417基于流行的离散性状分析(DTA,也称为mugration)的传播推断极其不可靠,并且对有偏见的抽样非常敏感。我们开发了BASTA(BAyesian STtructured coalescent Approximation),这是一种在BEAST2中实现的谱系地理学方法,它将基于结构化合并的方法的准确性与处理多个种群所需的计算效率相结合,以及SCOTTI(STructured coalescent Transmission Tree Inference),通过将个别病例建模为单独的亚群,采用BASTA方法进行疫情推断的方法。BASTA克服了DTA方法在谱系地理学方面的局限性,而SCOTTI优于流行的Outbreaker软件,同时结合了现有工具无法处理的复杂性。随着基因组学在传染病的控制和预防中发挥着越来越重要的作用,平衡模型的稳健性和统计能力至关重要,以提供对传播史提供可靠见解的统计方法。工具书类
[46] N.De Maio,C.J.Worby,D.J.Wilson,N.Stoesser,使用基因组变异对疫情传播的贝叶斯重建,bioRxiv,(2017),213819。
[47] N.De Maio,C.-H.Wu,D.J.Wilson,SCOTTI:利用结构化合并有效重建疫情传播,公共科学图书馆计算生物学,12(2016),e1005130。
[48] N.De Maio,C.-H.Wu,K.M.O'Reilly,D.Wilson,《谱系地理学的新途径:贝叶斯结构合并近似法》,《公共科学图书馆遗传学》,11(2015),e1005421。
[49] B.Dearlove,D.J.Wilson,《传染病的联合推断:丙型肝炎的荟萃分析》,Phil.Trans。R.Soc.B,368(2013),20120314。将非洲被忽视热带疾病的地理统计和传播模型联系起来Simon Spencer(与Panayiota Touloupou和D´eirdre Hollingsworth联合工作)2012年,制药公司、捐赠者、流行国家和非政府组织致力于控制,到2020年消除或根除10种被忽视的热带疾病。随着2020年的临近,我们的目标是使用地质统计模型和感染传播的数学模型来预测这些雄心勃勃的目标能否实现。我们重点关注了3种疾病:淋巴丝虫病(导致象皮病)、盘尾丝虫病(导致河盲症)和冈比亚人-非洲锥虫病(造成昏睡病)。我们方法的关键在于制作一大批模拟,涵盖地质统计制图中估计的所有流行水平,该制图适用于预先控制的流行调查数据。在分析的每个阶段,我们都试图解释存在的不确定性。我们首先根据模型参数的先验分布进行模拟,包括种群大小。对于每组参数,将传播模型模拟为418Oberwolfach Report 7/2018地方病平衡,以根据模型获得预先控制的流行率。对于地图中的每个像素,我们(通过经验RadonNikadym导数)对模拟进行了重新加权,以获得根据地质统计图估计的后验流行率分布。最后,我们在不同干预策略下及时运行模拟,为地图中的每个像素生成结果的加权分布。我们用埃塞俄比亚淋巴丝虫病的结果说明了我们的方法,使用了被忽视的热带疾病建模联盟的3种不同传播模型。对于每种模型,我们考虑4种干预策略:不干预,年度大规模药物管理局(MDA)65
[50] D.E.Neafsey等人,《高度进化疟疾媒介:16只按蚊的基因组》,《科学》,347(2015),doi:10.1126/Science.1258522成对生存分析:接触间隔、回归和系统发育Eben Kenah将流行病学数据与病原体系统发育相结合时,传输模型的似然通常是基于生成间隔分布的分支过程似然。我们表明,错误指定的可能性可能导致严重偏差的估计,无论是否存在病原体系统发育。将可能性写成成对失效时间的生存可能性,这是一个我们称之为成对生存分析的过程,与基于分支过程和生成间隔的方法相比,它可以解释感染风险所花费的时间,并导致更准确的估计和源归因。在有序对ij中,从i到j的{接触间隔}τij是从i的传染性开始到i到j感染性接触的时间,其中感染性接触被定义为如果j易感,则足以感染j的接触。接触间隔分布为传染病传播提供了有用的总结。从i到j的感染性接触概率为Sij(i i其中Sij(τ)=Pr(τij>τ是接触间隔分布的危险函数。因此,hij(τ)给出了i的瞬时传染性,作为传染性年龄的函数。接触间隔分布的这些特性使其成为理解随机流行病模型的有用工具。在配置模型网络上的齐次传染病模型中,基本繁殖数为D(D−1)(1)R0=ES()E[D],其中期望值取D度和传染期的联合分布。在一个群体作用模型中,给定配对中感染性接触的风险与人口规模成反比,我们得到(2)R0=E H(ι),其中H(τ)=−ln S(τ)是接触间隔分布的累积风险函数。在随机Kermack-McKendrick模型中,其中S′(t)=−βS(t)I(t),接触间隔分布是指数(β)和R0=βE[¨]。当I′(t)=-γI(t)时,感染期为指数(γ),因此R0=βγ−1。考虑一个简单的例子,其中个体a、B和C在时间tA<tB<t感染,这样a和B都可能感染C。为了简单起见,假设没有潜伏期。在分支过程模型中,数据的似然性是两个可能的传输树的似然性贡献的总和:(3)gABgAC+gABgBC=gAB(gAC+gBC),其中gXY=g(tY−tX),g是接触区间分布的概率密度函数(PDF)。成对生存可能性为(4)hAB(hAC+hBC)SABSACSBC,其中hXY=h(tY-tX)和SXY=S(tY-tX)。这也是两个可能的传输树的总和。生存期是指感染前感染风险的个人时间。为了计算X感染C的人的概率,我们对X感染C在顶部的传播树和底部的总概率的所有似然贡献取一个似然比。对于生成间隔pdf,这给出了gXC gAB+gBC。成对生存的可能性给出了hXC(6)。hAB+hBC在传染接触具有恒定风险的模型中,我们使用世代间隔得到pAC<pBC,使用成对生存分析得到pAC=pBC。已知后一个结果对于该模型是正确的。传染病研究的设计与分析421使用分支过程方法的一个常见动机是获得不依赖于未感染个体观察的可能性。根据目前的流行病学实践,在疫情爆发期间往往无法获得此类数据。在一个规模为n的群体的质量作用模型中,我们得到了形式(7)ln hAB+ln(hAB+hBC)−H(a)+H(B)+H。为了使用生成间隔进行推断,累积危险项必须接近零。然而,这需要R0≈0。成对生存的可能性是在更弱的质量作用假设和可忽略不计的易感物质消耗的情况下工作的。作为成对生存分析灵活性的一个例子,我们描述了一个成对加速失效时间模型,该模型可用于估计协变量对传染性和敏感性的影响。在该模型中,从i到j的传染接触率参数的形式为(8)λij=expβint⊤Xijλ0,其中βint是未知系数向量,Xiji是个体或成对协变量向量,λ0是基线率参数。这被称为内部传输模型。为了说明观察人群以外的传染接触风险,还有一个外部传播模型,其中(9)λ0j=expβext⊤X0jµ0,其中βext是未知系数向量,X0j是个体水平协变量向量,µ0是基线速率参数。Xijand X0j中的协变量对于每个模型都是唯一的或共享的。该模型经过修改,以考虑免疫增强,将用于根据几内亚WHO环形疫苗试验评估埃博拉疫苗的疗效。这项试验收集了受感染者逃逸的数据以及埃博拉病毒基因序列。最后,我们描述了一种修剪(剥离)算法,该算法使用流行病学数据和病原体系统发育来计算近似似然。该算法计算与病原体系统发育一致的所有传播树的未加权总和。真正的似然是一个加权和,但使用任何已知的修剪算法都无法快速计算。该算法的一个可能应用是在近似似然下运行马尔可夫链蒙特卡罗(MCMC)算法,并使用重要性加权使用真似然进行贝叶斯推断。病原体遗传学可以提高统计效率并减少偏见,但这取决于良好的流行病学研究设计和良好的传播可能性。422 Oberwolfach报告7/2018疾病负担Johannes M¨uller(与Mirjam Kretzschmar联合工作)1。公共卫生当局很难决定如何将资源分配给同时控制几种疾病。这里的问题是,严格来说,疾病是不可比较的。一种出路是纯粹的经济观点。干预措施(疫苗接种、筛查、接触者追踪等)有一定的成本。通过干预措施,可以预防病例,从而节省资金(治疗、病假等)。如果我们从节省下来的费用中减去成本,我们就得到了一个可以用作决策依据的经济指标。经济方法显然没有涵盖所有相关方面。当然,我们有控制措施的成本。然而,主要目的不是减少疾病的经济影响,而是减少有害影响。疾病负担是另一个旨在量化这些有害影响的想法。然而,最后一个结果是,这肯定是不可能的。然而,必须做出决定,有一些合理的决策依据肯定是有利的。疾病负担的概念是衡量一种疾病在错过的生命年中的影响[1,2]如果一个人因疾病而死亡,那么他将多活几年。这一相位由早死(YLL)导致的生命损失年数表示患者有一些(或多或少严重)症状。这些症状导致他/她无法做他/她本来会做的事情。有效寿命缩短。这种影响是以残疾导致的寿命损失(YLD)来衡量的。因此,我们确定了疾病负担。疾病负担:=YLL+YLD疾病负担可以通过发病率或流行率来定义。在平衡状态(静止状态)下,这两个定义是一致的。在本次演讲中,我们将重点放在将这一概念从静止状态扩展到更动态的状态,即人口呈指数增长/减少。因此,有可能解决发达国家不断变化的年龄结构(人口老龄化)。传染病研究的设计与分析423图2.年龄图1.疾病负担结构(350岁和700岁)图3.年龄图4.年龄结构加上700年350岁负担时的疾病负担424 Oberwolfach报告7/2018 2。疾病负担的定义我们考虑年龄结构模型(定义i'T单位向量,e=(1,…,1)T)(T+a)S(a,T)=−∧S(a、T)−µ(a)S a,T)da 0 Z∞S(0,T)=b(a)(S(a,T)da 0 X(0,t)=0,其中X是包含感染类和所有后续类(例如慢性感染者、恢复者等)的向量。A是M-矩阵,eTA=0,D(A)是指示额外死亡率的对角矩阵。设Y(a;a0)表示感染者在a0岁时的命运,d Y(a)(a0)=AY(a,a0)−µ。我们现在介绍函数ylind(a0,t)和yldind(a0、t)(在a0岁时t时间感染的单个患者的预期YLL和YLD)。因此,我们定义了基于流行率和发病率的人均疾病负担。向量W由残疾权重组成,这些权重衡量残疾导致的活年有效减少。Z∞Raylind(a0,t)=e−a0µ(τ)dτ−eTY(a;a0)P(t)da a0P(X(t,a)/P(t))e−aa′µ(τ)dτP(t)da′0aP。如果种群规模为常数,则定义与经典定义一致。通常,从长远来看,年龄结构模型趋向于指数增长(递减)解,(S(a,t)=eλtS(a)等)。在这种情况下,我们可以证明以下定理。定理{在指数增长的情况下,我们得到}DBinc(t)=DBprev(t)。传染病研究的设计与分析4253。乙型肝炎我们将这一定义应用于乙型肝炎。我们将自己定位于[2]中的模型,其中的参数选择并不完全符合实际,无法举例说明人口老龄化的影响。出生率在模拟的350年下降,因此增长率从0.004/年跃升至−0.0087/年。在350年之前,发病率和流行率的疾病负担最终是一致的,在过渡阶段存在一些差异(图1)。随着人口的不断减少,成年人越来越多,乙型肝炎的感染主要通过性接触和共用针头传播,疾病负担也随之增加。年龄结构疾病负担也反映了这一事实(图3和图4)。工具书类
[51] S.A.McDonald、A.van Lier、D.Plass、M.E.E.Kretzschmar,《人口变化对估计未来传染病负担的影响:荷兰乙型肝炎和季节性流感的例子》,BMC公共卫生,12(2012),1046。
[52] D.Plass等人,《德国乙型肝炎、流感、麻疹和沙门氏菌病的疾病负担:欧洲传染病负担研究的首次结果,流行病学》。感染。,142 (2014), 2024-2035. 用于比较传播树的基于度量的方法Michelle Kendall(与Diepreye Ayabina、Yuanwei Xu、James Stimson和Caroline Colijn联合工作)在分析传染病爆发时,能够推断“谁感染了谁”通常很重要。在暴发中,感染者和受感染者之间推断出的联系通常用有向图表示。如果每个受感染者最多有一个感染者(次数≤1),如果有一个唯一的源情况,并且如果图形成单个连接组件,那么这个图就是一棵树,它被称为{\it传输树}。准确推断疫情传播树对于我们理解病原体动态和公共卫生战略至关重要:确定是否有某些个人或地点导致大量感染,确定高危个人,确定哪些特征与传染性相关,并分析干预措施的效果。然而,传播树的推断是复杂的。有几个选择:输入数据(遗传和/或流行病学);推理框架(最大似然、贝叶斯等);数据收集假设,如未抽样案例的可能数量;以及特定于病原的假设,如感染和感染之间的时间间隔,以及感染时病原菌“菌株”的变化(瓶颈大小)。426Oberwolfach报告7/2018有多种方法和软件可用于传输树推断。通常,每种方法组合都会产生不同的传播树;这些差异通常会显著改变疫情的流行病学情况,对下游分析和公共卫生决策具有重要意义。通常,这些树太多和/或太大,无法通过简单地绘制它们并通过肉眼检查它们的差异来进行比较。虽然每棵树都捕捉到数据中有意义的信号,但保留所有推断的树进行后续分析通常是不切实际的。典型的{\it-consistent}树是使用类似Edmond算法的方法计算的。然而,我们证明了这棵树可以与每个推断的树显著不同。为了解决这些困难,我们提出了传输树上的{\it度量}。度量是一种特定类型的距离函数;这里我们注意到,它描述了两个对象之间的距离,如果对象相同,则给出零的距离,而对于更不相似的对象,则给出更大的值。我们的指标可以对传播树进行定量比较,从而可以比较和总结“谁感染了谁”的各种假设。通过捕获源病例属性、个体间传播方向、树形(链接到R0)和未采样病例数方面的差异,它使我们能够以流行病学有意义的方式对树进行排序。它揭示了多重分析(和/或贝叶斯后验树集)是否具有广泛一致性,或者它们是否是多模态的,支持不同的传输历史,每个传输历史都具有可比较的可能性。我们使用多维缩放(MDS)将成对树距离投影到少量维度中,以便可视化。我们表明,树空间的自然相似性和对称性在该投影中得到了保留,从而可以通过肉眼以及严格的统计技术直接识别趋势和聚类。该度量也可用于选择单个代表性{\it median}树(或每个不同的传输树“簇”的代表性median树)。与共识树不同,该树将通过构造成为分析推断出的候选树之一,具有相应的可能性。最后,我们简要讨论了该方法的一些进一步应用:它可以用于将推断的传输树与模拟的“真树”进行比较,测试推理准确性,测试贝叶斯后验树集的收敛性,并可能在树空间中提出MCMC“移动”。详细信息见[1]。这些函数在R包{\it treespace}[2,3]中可用,其中还有一个小插曲,用于重现我们的每个示例。传染病研究的设计与分析427篇参考文献
[53] M.Kendall,D.Ayabina,Y.Xu,J.Stimson,C.Colijn,《从遗传和流行病学数据估算传播:比较传播树的指标》,《统计科学》,33(2018),70-85·Zbl 1407.62402号
[54] T.Jombart,M.Kendall,J.Almagro-Garcia,C.Colijn,《树空间:系统发生树景观的统计探索》,R包,1.1.2版。(2018), https://CRAN.Rproject.org/package=treespace。
[55] T.乔姆巴特
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。