2.1. 流行病学建模
SEIIR流行病学模型。我们使用SEIIR模型对新冠肺炎的流行病学进行建模,该模型分为五个部分,即易感人群、暴露人群、有症状感染人群、无症状感染人群和恢复人群。说明了我们的SEIIR模型,该模型由一组五个常微分方程控制,
所有五个种群的分数加起来等于一,.
SEIIR流行病学模型。SEIIR模型包含易感人群、暴露人群、有症状感染者、无症状感染者和康复人群的五个分区。隔室之间的转换速率,,、和是接触周期的倒数,潜伏期和感染期有症状组和无症状组具有相同的潜伏期,但它们可以有单独的接触期和和个人感染期和感染人群中有症状和无症状亚群的分数为和我们假设感染要么通过有症状的途径,要么通过无症状的途径进行,但对于一个人来说,并非两者都通过。
我们假设症状组和无症状组可以产生新的感染。我们用分数介绍这两组和从接触组转移的受试者.我们假设这两个传染群体和具有相同的潜伏期,但可以有单独的接触期和模拟它们不同的社区传播和个体感染期和模拟他们不同的隔离可能性。从感染率部分,我们可以得出总接触率和感染率和他们各自的有症状和无症状对应物,,,、和,
类似地,我们可以表达总体接触和感染期和就有症状和无症状的对应物而言,,,、和,
自然,有症状组和无症状组的不同动力学也会影响基本繁殖数在其他未感染的易感人群中,由单个个体引起的新感染数量,
对于大型无症状组,基本繁殖数接近无症状人群的感染期和接触期之比,,可能显著大于症状组的基本繁殖数量,我们通常在文献中看到报道。为了描述可能影响接触的社会行为变化和其他干预措施的影响,我们假设接触率可以随时间变化[44],但症状组和无症状组的情况相同,
这引入了一个时变有效复制数这是当前疫情动态的一个重要实时特征。
SEIR流行病学模型。对于症状组和无症状组的动力学相似的特殊情况,即和,我们可以翻译SEIIR模型(1)到经典的SEIR模型中(6)有四个隔间,易感人群、暴露人群、感染人群和恢复人群[45],[46],[47],[48].
对于这种特殊情况,我们可以从方程中反算有症状组和无症状组(6).3作为和.说明了由一组四个常微分方程控制的SEIR模型[49],
SEIR流行病学模型。SEIR模型包含易感人群、暴露人群、感染人群和康复人群的四个分区。隔室之间的转换速率,,、和是接触周期的倒数,潜伏期和感染期如果症状组和无症状组的转换率相似,则SEIIR模型简化为SEIR模型和.
离散SEIIR流行病学模型。我们将重点放在带有五个常微分方程的SEIIR模型上(1),我们使用有限差分近似对其进行时间离散所有五个种群的进化.在这里表示离散时间增量,通常天,以及和表示新的和以前的时间步长的总体。我们应用显式时间积分格式获得以下离散方程组,
在每个地点,我们在当天开始模拟在初始条件下,当地封锁开始之日,,,,,。我们进一步假设, [50]、和根据初始症状感染人群表达所有五种初始条件,因此,,、和来自时间离散SEIIR系统的解决方案(7),对于每个时间点,我们计算检测到的人口,
作为症状感染和恢复人群的离散和和具有,或等效为先前检测到的总体的显式更新新的有症状的感染人群,从暴露人群过渡到有症状的感染人群。我们比较了每日模拟检测的人群与每日报告的检测人口相比,我们通过将每日检测到的病例数按总人口比例缩放得到对于每个位置[51],[52],[53],[54],[55],[56].
2.3. 贝叶斯学习
校准SEIIR模型(1),我们比较了模型输出、模拟检测人口对于给定的参数集根据数据,报告的检测人群对于每个位置[51],[52],[53],[54],[55],[56].我们的时间离散SEIIR模型(7)使用以下一组参数,
潜伏期有症状和无症状感染期和,症状分数,动态接触率初始接触人群和感染人群,、和,和似然宽度。为了减少未知项集,我们将延迟时间固定为天和症状感染期天[57],[58],[59],[60].自无症状感染期以来未报告,我们研究了三例导致感染期6.5和13.0天。我们进一步将最初接触和无症状感染人群表示为症状感染人群 [50]和。这导致以下参数集减少,
包括症状部分,动态接触率,初始症状感染人群,和似然宽度.
贝叶斯推断。我们使用贝叶斯推理来估计参数集这样模型输出的统计信息与数据一致 [61],[62],[63],[64]。我们使用贝叶斯定理关联先验、似然和后验[65],
哪里是先验值,即模型参数的概率分布,是可能性,即参数集固定时数据的条件概率,是后验值,即给定数据参数的条件概率、和就是证据。
Priors公司。对于先验概率分布,我们假设模型参数的先验信息较弱,即症状分数,动态接触率,初始症状感染人群,和似然宽度.对于有症状的部分,我们采用所有9个地点的个别局部抗体血清流行率研究的正态分布[4],[5],[8],[14],[16],[19],[20],[21],[22]具体来说,我们设置,其中和是基于报告的和血清流行率估计的每个地区确诊病例数之比的症状分数的平均值和标准偏差.对于动态接触率,我们假设其对数遵循高斯随机游动,具体来说,这种高斯随机游走假设了一系列相互依赖的高斯分布,其中接触率在当天取决于接触率前一天的根据初始条件,和每日更新,,其中是平均初始接触率,是每日步幅,以及是初始值之间的总体偏移和最终值对于最初有症状的感染人群,我们假设对数正态分布,,其中我们为平均值选择一个弱信息先验,作为当天报告的检测人口标准偏差为.总结了我们的先验分布和SEIIR模型参数。
表2
参数 | 解释 | 分发 |
---|
| 症状分数 | 请参见[4],[5],[8],[14],[16],[19],[20],[21],[22] |
|
| 潜伏期 | 固定(2.5天)[43],[58],[59] |
| 症状感染期 | 固定(6.5天)[57],[59],[60] |
| 无症状感染期 | 固定(3.25、6.5、13.0天)[57],[59],[60] |
|
| 动态接触率 | 高斯随机游走 |
| 初始接触率 | 正常() |
| 整体漂移 | 正常() |
| 每日台阶宽度 | 半正常() |
|
| 首次暴露 | 决定性的[50] |
| 初始症状 | 正常 |
| 初始无症状 | 决定性的 |
|
| 可能性宽度 | 半柯西() |
可能性。对于可能性,我们引入了一个似然函数评估模型输出之间的接近程度,给定参数集的模拟检测人口和数据,相对报告的检测人口(以概率表示),
我们选择Student的t分布是因为它类似于平均值周围的高斯分布,带有重尾,这使得该方法在异常值和报告噪声方面更加稳健[66],[67].在这里表示我们假设半柯西分布的似然宽度,参见.可能性,
就是所有似然函数的乘积每次评估对于.
后部。使用之前的和可能性,我们估计后验使用贝叶斯定理(11) [68]由于我们无法描述模型参数的后验分布在分析上,我们采用近似推理技术根据可用数据校准我们的模型。我们使用非U形取样器(NUTS)[69],这是一种在PyMC3中实现的哈密顿蒙特卡罗算法[70]。我们使用四条链条。前4个500倍的样本用于调整采样器,然后丢弃。随后的4乘以1000个样本定义了参数的后验分布从收敛后验分布,我们对多个参数组合进行采样描述检测人口的时间演变使用这些后验样本,我们量化了每个参数的不确定性。因此,每个参数集为症状分数提供一组值,初始症状人群和动态接触率根据这些值,我们量化了有效繁殖数使用等式。 (5)以及易感人群、暴露人群、有症状感染人群、无症状感染人群和恢复人群的时间演变,,,,、和使用公式(7)并用相关的95%可信区间报告其值[71].
分层建模。估计无症状感染期,我们创建了一个层次模型[72]并分析所有9个地点的确诊病例数据为了防止过拟合,我们假设初始繁殖数对所有九个位置来说都是一样的,并且在锁定前的两周时间窗口内保持不变。这意味着接触率是静态和恒定的。我们假设基本再生数为正态分布平均值和标准偏差 [73]这定义了初始接触率在每个位置,,作为.我们为整个无症状感染期创建了超分布,,平均值和标准偏差,并假设每个局部无症状感染期是从这个超分布中提取的。所有其他参数与上一节类似。总结了层次模型的先验分布和SEIIR模型参数,以推断无症状感染期.
表3
分层推断无症状感染期的先验分布和SEIIR模型参数.
参数 | 解释 | 分发 |
---|
| 症状分数 | 请参见[4],[5],[8],[14],[16],[19],[20],[21],[22] |
|
| 潜伏期 | 固定(2.5天)[43],[58],[59] |
| 症状感染期 | 固定(6.5天)[57],[59],[60] |
|
| 无症状感染期 | 正常 |
| 标准偏差 | 半正常 |
| 局部无症状感染期 | 正常 |
|
| 初始复制编号 | 正常[73] |
|
| 首次暴露 | 决定性的[50] |
| 初始症状 | 正常 |
| 初始无症状 | 决定性的 |
|
| 可能性宽度 | 半柯西() |
估计分层无症状感染期,我们使用贝叶斯推理。遵循方程式。(11),我们将先验、似然和后验联系起来,唯一的区别是模拟和报告检测到的人群和现在是包含所有检测到的种群的向量位置。可能性成为所有似然函数的乘积评估了一段时间锁定前天,
对于每个位置,我们估计后验使用NO-U-回转取样器(NUTS)[69]在PyMC3中[70]从收敛的后验分布中,我们采样了多个量化繁殖数量进化的组合和接触率在每个地点,以及相关的易感、暴露、有症状和无症状的感染和恢复人群及其相关的95%可信区间。
爆发日期。对于后验分布的每个样本,我们使用推断的初始暴露和无症状感染人群和估计圣克拉拉县第一例新冠肺炎病例的发生日期[74]具体来说,对于每个参数集,我们创建一个SEIIR模型,并假设疫情始于一个无症状感染者。我们将潜伏期和症状感染期固定为天和天并强制实施分层估计的感染期从上一节开始。对于锁定日期2020年3月16日暴露、有症状感染和无症状感染人群规模的每个后验样本,我们使用Nelder–Mead优化方法[75]找出最有可能的疫情起源日期。具体来说,我们从2020年3月16日之前的不同开始日期开始,使用显式时间积分及时求解SEIIR模型,并迭代最小化计算出的暴露、症状和无症状感染人群与样本的实际暴露、症状、,和无症状感染人群。我们同时拟合了一个静态接触率,在零和后验样本的估计接触率之间有界在模拟开始时。对贝叶斯推断的每个样本重复此过程会生成可能的起源日期分布。根据这个分布,我们计算了最可能的起源日期及其不确定性。