跳到主要内容
美国广播公司新闻
为什么很难制作一个好的新冠肺炎模型

H(H)在此之前,我们正处于大流行期,像水族馆的鱼一样盯着客厅的窗户。每个人都在想一个问题:这到底会有多糟糕?紧接着是:说真的,我要这样被关起来住多久?

我们都想要答案。而且,鉴于有关新型冠状病毒的大量研究和数据收集,这似乎是答案应该存在。

当然有很多数据。问题是,他们到处都是例如,疾病控制和预防中心正在使用模型预测一个最佳情况,即大约有20万美国人死亡,据《纽约时报》报道与此同时伦敦帝国理工学院的报告那个因其基于模型的可怕预测而成为头条新闻预计如果没有人改变他们的日常行为,大约有220万美国人死于冠状病毒。

委婉地说,这是一个惊人的巨大传播——死亡人数与死亡人数美国每年都会发生伤害和暴力事件,这与中国共产党转移到1950年至1953年镇压反革命换言之,这是我们日常生活中的一个数字与一个永远改变一个国家的数字之间的差异。

那么为什么差距这么大?好吧,朋友们,这就是塑造这只野兽的本质。(这也是为什么FiveThrityE8没有自己的模型的原因之一。不过,感谢您的电子邮件要求。)使用数学模型预测未来对专家来说很有价值,即使可能的结果之间存在巨大差距。但要理解结果并不总是容易的以及它们如何随时间变化这种困惑会伤害你的大脑和心脏。这就是为什么我们要讨论大流行模型的组成部分。希望了解这些不确定性能帮助你充分利用周围的数据。

所以,想象一个简单的数学模型来预测冠状病毒的结果。这相对容易理解——我们的员工在下班后在一个与社会隔绝的电话会议上嗡嗡作响时所做的事情。死亡人数取决于可能感染多少人、病毒如何传播以及病毒能够杀死多少人。

换句话说(更数学化):
N个(死去的)=N(易感人群)*感染率*死亡率

看到了吗?容易的。但随后你开始尝试填补空白。这时你会发现没有一个数字可以插入……任何东西。每个变量都取决于许多选择和知识差距。如果一个模型的每一部分都不稳定,那么这个模型就要像一个在电话会议上花费太长时间却在下班后与社会隔绝的数据记者一样,独自站立起来。

考虑像数据输入这样基本的东西。不同的国家和地区以不同的方式收集数据。没有一个每个人都在填写的电子表格可以方便地让我们比较世界各地的病例和死亡人数。即使在美国境内,医生说,我们低估了新冠肺炎导致的死亡总数.

同样的矛盾也适用于测试对象。一些国家正在向任何想要考试的人提供考试。其他人……不是这影响了我们对有多少人实际感染了新冠肺炎的了解程度,以及有多少人检测呈阳性。

病毒本身是一种不可预测的传染病,伤害了一些群体更多比其他人-这意味着,当谈到病毒对社区的影响时,当地人口统计和医疗服务的可及性将是很大的决定因素。

俄亥俄州立大学(Ohio State University)流行病学教授比尔·米勒(Bill Miller)博士表示:“作为公共卫生工作者,我们经常在一点黑暗中工作,试图用真正不确定的信息做出最佳估计。”。

所以,让我们探索一下我们的超简单模型,看看为什么很难为如此不确定的事情建立一个好的模型。

死亡率

S公司一些人死于新冠肺炎。这可能是我们在这里能做的最后一个绝对声明。但是“some”不是数字,你不能用它来计算。

问题是,计算病毒死亡率从一开始就很模糊。它可能因队列而异。“因为年龄加州大学旧金山分校的生物统计学家Rae Wannier在给FiveThrityEight的一封电子邮件中说:“这是一个巨大的因素,你必须根据美国的人口构成调整病死率,同时也要调整共病率。”。(共病是其他可能加剧新冠肺炎影响的潜在疾病和条件。)

换句话说,没有单一的“死亡率”-有很多。美国的死亡率为会有不同意见从一个糖尿病发病率较低的国家的死亡率来看。对于利率也可以这么说在内部美国——如果病毒在有许多老年居民的大都市地区传播,计算得出的死亡率将高于震中位于年轻化城市的死亡率。

但现在让我们保持国际化。知道新冠肺炎在中国或意大利的死亡率是否能告诉我们美国的死亡率是多少。?这当然有帮助,但这只是降低了不确定性,并不能确定事情。

当然,无论如何,我们可能不知道这些地方的实际死亡率。这是真的,原因有很多,首先是基础数据收集关于冠状病毒病例。数字不是事实。它们是许多主观选择的结果,在您开始考虑将输出视为事实之前,必须透明详细地记录这些选择。如何收集数据以及每次收集数据的方式是否相同都很重要。

还有未收集或不准确数据的问题。要确定死亡率,您必须将死亡人数从疾病中感染人数与疾病有关。在这种情况下,我们并没有真正可靠的感染人数统计——所以,用数学的方法来说,我们不知道分母。(如果说实话,我们可能也不知道第一个数字——分子——是什么,但我们假设它更接近正确值。)

钻石公主号邮轮上的数千名乘客接受了新冠肺炎检测。这些数据可以告诉我们其他人的感染率和死亡率,但这并不是一个完美的对照,因为我们其他人不住在游轮上。

卡尔法院/盖蒂图片

在一个理想的世界里,我们将测试人群中的每个人是否有感染新型冠状病毒的迹象,这样我们就可以确定有多少人曾经患过这种疾病,有多少人死于这种疾病。不过,只有少数情况下这种情况几乎会发生。拿着钻石公主,一艘游轮在新冠肺炎爆发后被隔离的。船上几乎每个人都接受了测试(3711人的3063份样本)。钻石公主变成了一个活生生的实验室,拥有我们在现实世界中通常无法获得的数据记录条件。研究人员不仅能够捕捉到有多少人患有这种疾病,还有多少人完全没有症状,因此,如果他们在陆地上的话,很可能会未经测试、未被诊断和不计其数。

这一不寻常设置的结果表明,有很多携带新型冠状病毒(COVID-19)的人并不知道这一点,因此,死亡率比其他数据显示的要低。在Diamond Princess人群中,有诊断和症状的人的死亡率为2.3%,但所有确诊病例的死亡率,包括无症状患者-为1.2%.1在冰岛,一家名为deCODE Genetics的公司于3月13日开始向普通无症状人群提供免费筛查。截至3月29日,deCODE确认了71名感染者在8694次测试的样本中包括无症状感染。

与此同时症状比率-有多少人是有症状的还是无症状的,这是一个很大的问题,我们现在大多只是猜测。伦敦帝国理工学院报告假设三分之二的病例会有足够的症状,感染者会注意到并自我隔离。钻石公主的数据显示一半的病例有症状在诊断时。症状比率结果是什么事实上be将改变死亡率计算。

钻石公主号的数据并不完美——他们没有对所有人进行测试,游轮人口统计数据不能代表更广泛的人群,一些生病的乘客可能仍然会死亡,这将增加死亡率。但你不会在陆地上找到更可靠的数据。冰岛的数据还没有公布同样程度的方法细节。在美国。,这种广泛的测试才刚刚开始,这真的很重要。如果你主要测试病人,就像一些州正在做的那样,死亡率不会反映出与病毒实际死亡率类似的任何情况。(分母问题再次抬头。)美国的测试受到了其他问题的阻碍,例如总体上缺乏可用的测试,以及一些私人实验室不提供阴性检测的数量.

这种疾病的真实死亡率还受我们在某人重病时防止死亡的能力的影响。这取决于医院容量由于可以无限制地使用重症监护病房的病床和呼吸机,许多有严重症状的患者可以在感染后存活下来。但是这些资源相对稀缺如果需求超过供应它已经有了在里面这个国家的一些地区-有呼吸机的人很可能会死。这可能会产生连锁效应。为无关事故或紧急情况寻求治疗的人也可能遭受医院资源缺乏他们的潜在可预防死亡——即使是与新冠肺炎无关的原因——也会增加总死亡人数——即使这些死亡不算为新冠肺炎死亡。

Wannier说:“我们最终是否会看到供应和人员短缺将极大地影响死亡人数,我们的医疗系统的弹性程度尚不清楚。”。

然后是感染率

P(P)我们已经说过的关于死亡率的大部分内容都适用于感染率同样:这些估计都将受到数据收集、抽样和症状比率的影响。但要了解感染率,你还必须了解病毒从一个人传播到另一个人的频率。(你可能听说过这个词基本复制编号,或R0这是在一个人人都易患此病的人群中,追踪到每个感染者的新感染平均数。)

事情是这样的:传播可能会非常多变,取决于各种社会行为、当地环境细节和政治决策。从一个国家到另一个国家是不一样的。从一开始可能就不一样了状态到另一个。随着时间的推移,情况会发生变化,这取决于我们采取什么行动来抗击病毒。例如,疟疾,具有较高的基本复制数在有很多积水的地方。

因此,为冠状病毒的潜在后果建模意味着要尝试许多不同的传播场景。不过,即使是这些情景也不准确;它们更像是一系列估计。这些估计中有几个变量,每个变量本身都是变量。(说真的,各位,这是乌龟一路下来.)

第一个变量是接触率-基本上是一个感染者在一段时间内与多少人互动。这是人们唯一能控制的事情,也是为什么每个人都把时间花在室内,谈论社交距离。平均接触率并不是统一的——它因人而异,取决于他们的生活状况和工作等因素,并且它根据公共卫生干预措施和地点而变化。米勒说:“想象一下俄亥俄州阿巴拉契亚地区与克利夫兰或哥伦布市区之间的接触率差异。”。

然后是每个触点的传输速率这只是一种思考感染者遇到多少人会自己感染的方式。它也是一个移动目标。病毒不会以有序的、两个新人的方式传播。相反,这种情况往往在不均匀的人群中发生,比如一群郊区居民从杂货店的卫生纸过道上下来。东北大学传染病模型教授萨姆·斯卡皮诺(Sam Scarpino)将这些描述为“超级传播事件”,即某些因素(通常与地点有关,而非与人本身有关)会在突发事件中增加病例数量。想想那次Biogen会议,在某一点上随后诊断的95例中有77例马萨诸塞州。或者一个人破产的女人韩国先前有效的遏制战略。

记住这一点症状比率? 有些人认为无症状携带者感染性较低而不是那些有症状的人,所以这个比率也会影响传播率。

病毒生物学也很重要当你试图计算每次接触的传输量时。这包括以下内容病毒能在表面存活多久(以及它降落的表面)和它能在空中飞多远新型冠状病毒当前相互竞争的估计对于这两个因素人类的身体和行为也存在差异。例如,吸烟者可能感染和并发症的风险更大来自病毒。虽然这很大程度上与吸烟对肺部的影响以及病毒进入体内后会发生什么有关,但其中一些原因可能与当前吸烟者把手放在嘴边比普通人更频繁,增加了传播风险。

最后,还有传染性持续时间一个人能传播病毒多久给其他人,以及在疾病发展过程中,它们什么时候具有传染性? 俄亥俄州立大学生态学、流行病学和人口健康项目负责人马克·韦尔(Mark Weir)表示,这因病毒生物学和个人免疫系统而异。

所有这些参数都用于估计R0,即病毒的基本繁殖数。

虽然基本繁殖数假设整个种群都易感,但也有一个有效的繁殖数量,这取决于有多少人口易感。这么多人被视为易感人群的原因之一是,新型冠状病毒正是如此新颖。以前没有人吃过。

一个好的模型还需要考虑再感染的问题:如果感染病毒并康复的人免疫为了再次得到它,易感人群减少了。但到目前为止,我们知道的不多关于感染后免疫携带这种病毒。

如果发现了类似疫苗的东西,这甚至没有涉及易感性的变化。但我们已经走得够久了。

在模型中混合所有内容

T型o建立一个模型,然后,你必须集合所有这些变量(我们的编辑不会让我们提及的其他变量),解释它们的不确定性,它们之间的相关性以及各种其他东西。它可能会变得一团糟。

所有这些因素都会受到干预我们已经尝试减少病毒的传播&社交疏远、洗手、关闭学校、减少选择性手术等等。这是一个巨大的未知可以彻底改变疫情的形状-然而,它也因国家、州甚至城市而异。

把它想象成做馅饼。如果你有一个正常的食谱,你可以很容易地做到,并期待一个有意义的可预测结果。但是,如果食谱中包含“根据你手头的食物添加3到15个碎苹果、牛排或抱子甘蓝”之类的说明……那么,这将影响馅饼的味道,不是吗?您可以对正确的成分及其数量进行假设。但这些都是假设,而不是绝对事实。如果你在做馅饼的过程中做了太多的假设,你很可能会得到与你本来打算做的完全不同的结果。你不一定知道你错了。

在接下来的几个月里,你将看到许多关于新冠肺炎结局的不同预测。他们不会都同意。但仅仅因为它们基于假设并不意味着它们毫无价值。

韦尔说:“所有模型都是错误的,它正在努力减少它们的错误,减少它们在当下的用处。”。

我们饿了,所以必须有人烤面包。但一定要问馅饼里有什么成分,分量有多大。


脚注

  1. 顺便说一句,这些是平均值。在另一个例子中,不确定性会对结果造成多大影响,结果表明这里甚至存在不确定性。发病率实际上是有范围的:在所有有症状的个体中,死亡率为0.8%至5.3%,而所有感染者的死亡率为0.4%至2.7%。

玛吉·科尔特是《538》的资深记者。

劳拉·布朗纳(Laura Bronner)是苏黎世理工学院(ETH Zürich)的高级应用科学家,也是《五三八》(FiveThrityEight)的前定量编辑。

Jasmine Mithani是《538》的视觉记者。

评论