摘要
验收人:Aris Syntetos
准确预测2019年冠状病毒(COVID-19)的每日入院人数对于医疗规划人员和决策者更好地管理感染高峰期间和周围的稀缺资源至关重要。许多研究侧重于预测全国或全球范围内新冠肺炎的发病率。本地化预测至关重要,因为它们允许资源规划重新分配,但也很稀少,而且很难准确。可以使用几个可能的指标来预测新冠肺炎的入院人数。招生的内在可变性要求生成和评估招生的预测分布,而不是仅生成点预测。在本研究中,我们提出了一个分位数回归森林(QRF)模型,用于使用多种不同的预测因子,提前7天概率预测当地医院信托(3家医院的集合)的每日新冠肺炎入院人数。我们使用适当的措施评估点预测的准确性以及预测分布的准确性。我们提供的证据表明,QRF优于单变量时间序列方法和其他更复杂的基准。我们的研究结果还表明,入学率滞后、阳性病例总数、日常测试成绩以及谷歌杂货店和苹果公司的驾驶情况是最显著的预测因素。最后,我们强调了需要进一步研究的领域。
1.简介
为了应对2019年冠状病毒(COVID-19)疫情,世界各国政府制定了一系列公共卫生和社会措施,旨在限制该病毒的传播(参见世界卫生组织,2021年). 保护新冠肺炎患者和其他基本卫生服务的医疗服务不达能力的概念是这些措施的推论不可或缺的。在许多情况下,医院容量至少在当地已经达到,导致患者重新定向(到其他医院)和取消基本手术(因为医生被转移到新冠肺炎特定病房)(博巴舍夫等., 2020;韦斯曼等., 2020). 即使情况并非如此,“许多国家仍面临卫生人力挑战,包括短缺、分布不均以及人口健康需求与卫生工作者能力之间的不协调”(世界卫生组织,2020年第12页)。
为了合理分配资源,医院和地区当局需要提前了解入院人数估计(盖利凡和乌特利,2005年). 这些预测需要本地化(区域层面,例如1-3家医院的覆盖范围),并根据其覆盖时间从短期到中期进行。本地化而非合计(国家级)每日预测允许根据需要在不同的行政区和司法管辖区之间规划和重组资源。
然而,对本地化每日预测的需求在建模方面提出了挑战。每日入院时间序列为计数数据,即非负整数时间序列。随着我们转向更精细的粒度(例如从全球/国家到本地/地区,从每月到每日),以及在病毒被抑制期间,这些计数数据通常会变得低容量。至关重要的是,考虑到招生时间序列的固有可变性,重点是建模招生的完整预测分布以进行规划,而不是只关注点预测(根据更广泛的预测文献中的最新建议,见高尔索斯等., 2021).
Omega变异体家族最近的感染高峰告诉我们,预测新冠肺炎的入院人数仍然相关(英国广播公司,2022年). 也有人指出,“气候和土地利用的变化将导致以前地理上孤立的野生动物物种之间病毒共享的机会”(卡尔森等., 2022). 病毒传播的增加很可能引发不同的紧急情况,可能与新冠肺炎带来的情况类似。准确预测需要入院的新型冠状病毒肺炎患者数量具有挑战性,参见约安尼迪斯等. (2022). 在较短时间内预测新冠肺炎住院人数的准确性令人鼓舞[例如,见(贝克等., 2023)]; 然而,关于短期预测的文献仍然相当匮乏,我们的研究旨在为这一领域的研究做出贡献。
在本文中,我们旨在利用各种预测因子预测新冠肺炎的每日入院人数,这些预测因子都是公开的。我们检验这些变量是否可以解释每日新冠肺炎入院人数的变异性,并使用显著预测因子建立预测模型。我们提出了分位数回归森林(QRF)模型,并表明该模型优于单变量(指数平滑和ARIMA族)和功能支持的复杂基准测试[线性回归(LR)、ARIMA-X、Facebook Prophet]。我们生成点预测和概率预测,并使用点预测的均方根误差(RMSE)和平均绝对误差(MAE)评估模型性能,并使用排名概率得分(RPS)评估概率预测准确性。
本文的其余部分结构如下:在第2节中,我们回顾了文献并在其中定位我们的工作;在第3节中,我们介绍了本研究中使用的各种数据集,然后在第4节中讨论了建模方法和基准方法。然后,我们在第5节中描述了实验设置和性能评估指标;在第6节中,我们展示并讨论了我们的结果;在第7节中,我们总结了我们的发现并提出了未来研究的想法。
2.相关研究
预测新冠肺炎相关变量已经迅速发展,提出了许多数学、统计和计算智能模型,用于预测全球、国家和区域各级的流行病相关变量。
数学模型历史悠久(科马克和麦肯德里克,1927年),其中建模依赖于将种群划分为易感、暴露、感染、移除和死亡等分区。它们被称为SEIRD模型,由一系列微分方程组成(Fanelli&Piazza,2020年;哈姆扎等., 2020;Martelloni&Martelloni2020年;萨达尔等., 2020). 统计模型包括LR、ARIMA、指数平滑、趋势和季节成分(本韦努托等., 2020;Feroze,2020年;罗斯塔米·塔巴尔和伦敦·桑切斯,2021年). 计算智能模型包括神经网络、深度学习、聚类技术和基于代理的模型(巴尔詹等., 2009;方等., 2020;Hazarika和Gupta,2020年;莫夫塔哈尔等., 2020;Gleam项目,2020年;尼科洛普洛斯等., 2021;钱等., 2021). 也有混合模型,例如扎普洛特尼克等. (2020)它将社交网络(模拟人与人之间的联系)和病毒传播模型结合在数据同化的框架中。
这些预测通常旨在支持政府在医院网络中的决策和规划,尽管供应链压力等其他关键方面也正在出现(伊万诺夫,2020年;尼科洛普洛斯等., 2021). 尽管在资源规划和运营紧张且不断变化的情况下,本地运营(1-3家医院)的预测工具的重要性不如地区级(4-10家)或国家级(10+家)的工具。在地方一级,招生相关变量的预测采用两种通用方法。第一个涉及从国家层面开始,向下扩展到地区和城市,最终达到地方层面。第二种方法是从地方一级开始,借助国家或区域估算支持或指导模型。本节的其余部分总结了在新冠肺炎期间预测新冠肺炎入院相关变量(包括入院)的相关研究。为了把握上下文,我们包括针对医院以上更高级别的方法(表1总结了模型的概述)。
方法. | 目标变量. | 数据频率. | 地平线. | 范围. | 参考. |
---|
住院率和ICU入院率的分区模型 | 高峰时需要ICU和非ICU床位;到达峰值的时间 | 每周 | 53周 | 国家(美国) | 莫哈达斯等. (2020) |
增长模型和分层预测 | ICU入住人数 | 每日 | 14天 | 国家(意大利)和地区 | 吉托等. (2021) |
线性和指数模型 | ICU入住人数 | 每日 | 24天 | 地区(意大利伦巴第) | 格拉塞利等. (2020) |
用普通最小二乘法推断每日发病率 | 预计每日发病率和预计ICU床位占用率 | 每日 | 14天 | 地区(英格兰调试地区) | 迪西等. (2020) |
医院分室模型在重点城市ICU入住预测中的应用 | 医院需求 | 每日 | 未指定 | 地区(墨西哥城市大都市区) | 卡皮斯特兰等. (2020) |
国家和区域层面的分区模型,地理范围缩小 | ICU床位占用 | 每日 | 4天 | 地区和医院(瑞士) | 赵等. (2020) |
基于Agent的模拟,使用房室模型和个人风险预测因子预测入院和ICU入院 | 新入院人数、ICU需求 | 每日 | 30天 | 国家、地区和医院(英国) | 钱等. (2021) |
基于人口统计学和区域患者数据库数据的Cox回归模型 | 入院人数和死亡人数 | 每日 | 4周 | 地区(苏格兰) | 沙阿等. (2021) |
方法. | 目标变量. | 数据频率. | 地平线. | 范围. | 参考. |
---|
住院率和ICU入院率的分区模型 | 高峰时需要ICU和非ICU床位;到达峰值的时间 | 每周 | 53周 | 国家(美国) | 莫哈达斯等. (2020) |
增长模型和分层预测 | ICU入住人数 | 每日 | 14天 | 国家(意大利)和地区 | 吉托等. (2021) |
线性和指数模型 | ICU入住人数 | 每日 | 24天 | 地区(意大利伦巴第) | 格拉塞利等. (2020) |
用普通最小二乘法推断每日发病率 | 预计每日发病率和预计ICU床位占用率 | 每日 | 14天 | 地区(英格兰调试地区) | 迪西等. (2020) |
应用于重点城市的带有医院隔间的隔间模型预测ICU的占用情况 | 医院需求 | 每日 | 未指定 | 地区(墨西哥城市大都市区) | 卡皮斯特兰等. (2020) |
国家和区域层面的分区模型,地理范围缩小 | ICU床位占用 | 每日 | 4天 | 地区和医院(瑞士) | 赵等. (2020) |
基于Agent的模拟,使用房室模型和个人风险预测因子预测入院和ICU入院 | 新入院人数、ICU需求 | 每日 | 30天 | 国家、地区和医院(英国) | 钱等. (2021) |
基于人口统计学和区域患者数据库数据的Cox回归模型 | 入院人数和死亡人数 | 每日 | 4周 | 地区(苏格兰) | 沙阿等. (2021) |
方法. | 目标变量. | 数据频率. | 地平线. | 范围. | 参考. |
---|
住院率和ICU入院率的分区模型 | 高峰期需要重症监护室和非重症监护室床位;到达峰值的时间 | 每周 | 53周 | 国家(美国) | 莫哈达斯等. (2020) |
增长模型和分层预测 | ICU入住人数 | 每日 | 14天 | 国家(意大利)和地区 | 吉托等. (2021) |
线性和指数模型 | ICU入住人数 | 每日 | 24天 | 地区(意大利伦巴第) | 格拉塞利等. (2020) |
用普通最小二乘法推断每日发病率 | 预计每日发病率和预计ICU床位占用率 | 每日 | 14天 | 地区(英格兰调试地区) | 迪西等. (2020) |
医院分室模型在重点城市ICU入住预测中的应用 | 医院需求 | 每日 | 未指定 | 地区(墨西哥城市大都市区) | 卡皮斯特兰等. (2020) |
国家和区域级别的分区模型,地理范围缩小 | ICU床位占用 | 每日 | 4天 | 地区和医院(瑞士) | 赵等. (2020) |
基于Agent的模拟,使用房室模型和个人风险预测因子预测入院和ICU入院 | 新入院人数、ICU需求 | 每日 | 30天 | 国家、地区和医院(英国) | 钱等. (2021) |
基于人口统计学和区域患者数据库数据的Cox回归模型 | 入院人数和死亡人数 | 每日 | 4周 | 地区(苏格兰) | 沙阿等. (2021) |
方法. | 目标变量. | 数据频率. | 地平线. | 范围. | 参考. |
---|
住院率和ICU入院率的分区模型 | 高峰时需要ICU和非ICU病床;到达峰值的时间 | 每周 | 53周 | 国家(美国) | 莫哈达斯等. (2020) |
增长模型和分层预测 | ICU入住人数 | 每日 | 14天 | 国家(意大利)和地区 | 吉托等. (2021) |
线性和指数模型 | ICU入住人数 | 每日 | 24天 | 地区(意大利伦巴第) | 格拉塞利等. (2020) |
用普通最小二乘法推断每日发病率 | 预计每日发病率和预计ICU床位占用率 | 每日 | 14天 | 地区(英格兰调试地区) | 聋哑人等. (2020) |
医院分室模型在重点城市ICU入住预测中的应用 | 医院需求 | 每日 | 未指定 | 地区(墨西哥城市大都市区) | 卡皮斯特兰等. (2020) |
国家和区域层面的分区模型,具有地域缩减功能 | ICU床位占用 | 每日 | 4天 | 地区和医院(瑞士) | 赵等. (2020) |
基于Agent的模拟,使用房室模型和个人风险预测因子预测入院和ICU入院 | 新入院人数、ICU需求 | 每日 | 30天 | 国家、地区和医院(英国) | 钱等. (2021) |
基于人口统计学和区域患者数据库数据的Cox回归模型 | 入院人数和死亡人数 | 每日 | 4周 | 地区(苏格兰) | 沙阿等. (2021) |
赵等. (2020)通过使用地区层面预测的地理缩小比例,模拟了瑞士医院层面的入院情况。医院的总入住率按现有患者和冠肺炎患者分组。在建模冠肺炎患者时,通过SEIR模型预测的ICU总数按空间分类。通过在州内分层随机抽样,将需要ICU的未来患者按地理位置(使用经纬度)分配到每个行政分区(州),并根据人口密度采用加权因子。每个病例在旅行时间内被分配到最近的医院。通过蒙特卡罗模拟计算了入院概率。作者在复杂性和精确性之间取得了平衡,这一点很有见地:用流行病学模型在国家和地区层面建立模型,然后通过地理位置和人口密度分解为医院层面的入院和ICU使用模型。
迪西等. (2020)预测英国的床位占用率。每个试运行地区的新冠肺炎确诊病例用于预测新冠肺炎感染的可能分布。随后,使用从先前文献中获得的死亡率和按地区划分的ICU所需百分比来估计每个病例的ICU入院率和ICU死亡率。他们采用蒙特卡罗模拟,在预期的每日发病率分布和预期的新冠肺炎导致的ICU病床过度占用之间建立联系。
钱等. (2021)建立了容量规划和分析系统(CPAS),在该系统中,首先对医院级别的入院人数进行预测,然后在地区级别进行预测,最后在英国的国家级别进行预测。首先计算患者分布,然后根据趋势预测器(使用增强的分区模型)计算每日入院人数。基于代理的模型根据个人风险预测因子(与患者记录一起提供)产生的风险状况,模拟入院患者的结果,然后将模拟结果汇总到所需水平。驱动趋势预测的分段模型嵌入贝叶斯层次模型和高斯过程中,以应对观测值的稀缺性。这是一个由高级模型(分区)驱动的系统示例,该模型可生成从医院到国家级的预测。疫情期间,对新冠肺炎医院活动的短期预测已被证明有助于为公共卫生政策提供信息(芬克等., 2020;勒克莱尔等., 2021).
增长模型(哈维,1984年)和分层预测方法(Nenova和2016年5月)已被使用吉托等. (2021)预测疫情最严重期间意大利国家和地区对ICU病床的需求。层次模型用于确保国家和区域预测之间的一致性。
从这些预测方法中,可以进行一些观察。似乎地方一级的招生模式受益于复杂的系统。然而,对其准确性的研究并不是系统的,可能是因为它们在大流行早期阶段的使用以及训练中固有的复杂性。此外,从国家级到医院级,不同级别之间的依赖性可能会使它们的维护比简单的模型更具挑战性。在不断变化的环境中,随着模型的假设和适用性不断受到挑战,能够直接预测当地一级(1-5家医院)的入院人数非常重要,而不必依赖复杂的层次结构和可能难以获得的相关数据。这是本文的重点。
3.数据
本研究的动机是一个临床调试小组(CCG)的数据分析员面临的实际预测问题,该小组负责管理英格兰中东部地区(地方一级)的三家医院。
我们旨在预测的变量是一个地区三家医院(CCG覆盖)每日收治的新冠肺炎患者总数,我们将其称为每日新冠肺炎收治人数或简单的收治人数。为此,本研究利用了CCG层面收集的每日时间序列数据的各种来源,包括(i)每日新冠肺炎入院人数,(ii)基于年龄组的新冠肺炎确诊病例,(iii)根据年龄组拨打英国新冠肺炎热线(NHS111),(iv)谷歌和苹果人类活动能力,(v)进行新冠肺炎测试,以及(vi)接种第一次和第二次疫苗的人口百分比。我们共享本文中使用的收集数据以提高再现性(博伊兰,2016).
收集了2020年3月18日至2021年6月30日期间英格兰东米德兰地区CCG对应区域的入院数据和所有预测因子。因此,它们都对应于相同的区域/地理位置。我们使用2020年3月18日至2021年3月底的时间序列作为样本内(培训),并使用2021年4月1日到2021年6月底的数据作为样本外(测试)。在本节中,我们简要描述了这些数据集及其来源。
3.1每日新冠肺炎入院人数
每日新冠肺炎(COVID-19)招生数据来自英国政府官方网站1获取冠状病毒(COVID-19)的数据和见解。该数据库包含英格兰东米德兰地区CCG的三家医院每天的新冠肺炎住院总数。我们汇总了三家医院的每日入院人数,以获得新冠肺炎每日入院总人数时间序列,如图1时间序列中有三个峰值,对应于三个观测波。因此,该系列包含多个短分段趋势。时间序列没有显示任何一周中的季节性,工作日和周末的入院人数没有差异。然而,存在显著的自相关系数,如所示图2这表明未来的招生数量与其过去的价值相关。
应该注意的是,入院人数在许多天内都很低;事实上,有很多天没有任何新冠肺炎患者入院。与国家或全球水平相比,这又增加了地方一级每日招生预测的复杂性。
3.2潜在预测因素
各种预测因子用于预测未来新冠肺炎每日入院人数,如下所述。
每日新冠肺炎确诊病例数摘自英国公共卫生部2.获得年龄分组的数据,并计算70岁以上和以下年龄段的确诊病例。我们考虑每个年龄组的总阳性病例和总病例年龄≥70且年龄 < 70.
与CCG对应的国家卫生服务111(NHS 111)每天接到的电话数量很大。数据可公开获取,并从NHS Digital中提取三。获取不同年龄段的数据,并将其汇总为来自(年龄≥70)和70以下(年龄 < 70). 阈值年龄根据为年龄组提供的数据粒度以及文献中的建议,选择NHS111呼叫和阳性病例≥70(博纳纳德等., 2020;萨塔尔等., 2020)
我们使用谷歌和苹果提供的关于人类流动性的公开数据。这两个数据集都包含用户在其在线平台上移动的聚合和匿名信息。谷歌数据显示了人们在不同类型地点(即住宅、零售、交通、杂货店和工作场所)花费的时间百分比变化。苹果公司的流动性数据表明,社区内驾车、步行或乘坐公共交通的人数发生了变化。
谷歌(Google)和苹果(Apple)提供的流动性数据描述了基准日实施社交距离措施后人们行为的变化。基准日是谷歌从2020年1月3日至2月6日为期5周的时间段和苹果从2020年2月13日为期5星期的时间段内各项指标的中值。使用疫情前的数据对所提供的数据进行归一化,以调整本研究所考虑的地区的人口和流动水平差异。谷歌可以免费访问人类流动性测量的详细定义4和苹果5.
该数据集包含每日进行的总检测次数,包括(快速)侧向流装置和聚合酶链反应检测。它包括确诊的阳性、阴性或无效的新冠肺炎病毒检测结果。该数据集已从英国公共卫生冠状病毒网站下载。6
我们还使用了该地区接受第一剂和第二剂新冠肺炎疫苗的人口百分比的时间序列。数据集摘自英国政府网站7.
3.3每日入院人数与潜在预测因素之间的关系
图3表明每日新冠肺炎入院人数与潜在预测因素之间的相关性。任何一天的每日入院人数可能与第3.2节中描述的各种预测因素及其过去的值/滞后有关。样本互相关函数(CCF)如所示图3可用于识别具有显著自相关系数的预报器的滞后。每个点表示每天新冠肺炎入院人数的时间序列与一个从-1到+1的滞后预测值之间的线性关联。Y轴显示不同的预测值,X轴显示滞后数。例如,考虑谷歌公交和滞后=−1,CCF值显示了当天新冠肺炎入院人数之间的相关性t吨以及当天谷歌运输百分比的变化t吨−1.如果滞后=0,我们测量当天的相关性t吨.
![每日新冠肺炎入院人数与可能的滞后预测因素之间的关系。](https://oup.silverchair-cdn.com/oup/backfile/Content_public/Journal/imaman/35/1/10.1093_imaman_dpad009/1/m_dpad009f3.jpeg?Expires=1721189130&Signature=PVEYgR1lhyJk9IgIOqO6BQ2UGMpWILWs~9tHTIgqydXdw9kB5p1iIgDCnYT1XFfgLmGA2Oo5O0maA8NUP5ul8SfbJgiNmEYV3XPIm6T4FcVNwEl-4zFBxfVFI-3GE8a2mxz4AfP~PHKW7k2qn2Zpdv5lRCZaoCASF2GQgMBFDFjVOTaRPyU3XPMRsOmRX6PYZOZLIZLXpPumGsA-3Ftw0k7gHkpk~kIq65hIl1GhY2XAFCYQp71VfeMZ11iVEAuZ0v4MsZwbUnBDK-HLKhdqYmw53E6htnsFfu7kjB8SOMUFEmgtkj6mck2RsnaVnYBdQRPycWuvQ402a3Zao0ZXVA__&Key-Pair-Id=APKAIE5G5CRDK6RD3PGA)
图。三。
每日新冠肺炎入院人数与可能的滞后预测因素之间的关系。
图4显示了同期潜在预测因素之间的相关性(即滞后=0)。很明显,一些预测因子具有高度相关性,并提供了类似的信息。在选择预测因子预测每日新冠肺炎入院人数时,应考虑到这一点,以避免多重共线性。
除了调查预测因素和入院人数之间的线性关系外图2–4,我们还探索了这些变量之间潜在的非线性关联。为此,我们查看了同一时期t(即滞后=0)每个预测因素与入院人数的散点图,如图所示图5我们观察到一些预测因素之间的关联,例如接种疫苗的人口百分比、进行的测试总数、苹果移动交通和入院人数,并不一定是线性的。我们还调查了滞后预测因子之间的关联[例如。t吨 − 1(滞后1),吨 − 2(滞后2),...,t吨 − 21(滞后21)]和当时的新冠肺炎入院人数t吨情节的形状和关系的强度似乎没有实质性的不同,因此被忽略了。
![同一时间段每日新冠肺炎入院人数与预测因素的散点图(滞后=0)。](https://oup.silverchair-cdn.com/oup/backfile/Content_public/Journal/imaman/35/1/10.1093_imaman_dpad009/1/m_dpad009f5.jpeg?Expires=1721189130&Signature=t2HB6m6U0m91ltH4TsoImUjWOPMIy1JaOmMzV4NxN4e-VZepothAVDTRI2fqCKUuzfcQ1bEPfu~xhmQFWlVGaIF~jt0WanSmQlIswG3tD7ZpZOjP30q~nePi2DquRmuUJtnZeMfiLGK4LtS2CJvSFEw7It8r6ksqaibYDM4KU0QSywcJB7S4fO5WedljdEYDSw5x9WZABnIMEWI-9nZg19ugNmGPhRWBE1Vw9aOROxlf39Mrvr3xJL93cPYpHnmSLeYld68fSqrsvZXZN-hSgyFD93zSPe9R9GlxzMWB9KThTczJunWzRsBMwUFdvquMiScnznh7xVpsEQ12f-VnkQ__&Key-Pair-Id=APKAIE5G5CRDK6RD3PGA)
图。5.
同一时间段每日新冠肺炎入院人数与预测因素的散点图(滞后=0)。
根据对收集数据的初步分析,我们应该考虑一个预测模型工具箱,该工具箱可以考虑以下特征:
我们注意到,初步数据分析是基于入院人数和所有预测因素的样本时间序列。我们考虑了几种能够捕获上述系统信息的预测模型。
4.预测模型
在本节中,我们首先介绍了构建的预测每日入学人数的模型,然后简要介绍了基准方法。
4.1量化风险指标
在本研究中,我们采用了QRF迈恩豪森(2006),生成新冠肺炎每日入院人数的概率预测。QRF是由布雷曼(2001)). 在随机森林中,每棵树都是使用袋装版本的训练数据生长的(即选择数据的随机子集进行替换),并且在每个节点上使用随机特征子集进行分割点选择。随机森林由一组树组成,因此新测试特征的最终预测是所有树的平均响应。
我们使用回归树,因为它们在为一系列应用程序生成预测时被证明是准确的,包括使用电子健康记录预测紧急入院的风险(拉希米安等., 2018),预测患者在急诊室的等待时间(阿罗拉等., 2020),实时预测患者出院准备情况(主教等., 2021)并预测入院风险(商行等., 2018). 在这项工作的背景下,QRF的一个吸引人的特点是,该方法的预测完全基于历史数据的实现,这有助于确保招生预测是正数和整数。QRF的这个属性特别有用,因为它有助于避免截断零以下的分布值和对分数预测值进行舍入的问题。虽然随机森林通常用于近似目标变量的条件平均值,但QRF允许使用非线性和非参数建模框架估计完整的条件分布。
使用QRF,我们的主要目标是为n个天,年 = {年1,年2,...,年n个}(目标向量大小n个×1),作为a的函数米特征X(X) = {x个1,x个2,...,x个米(特征矩阵大小n个 × 米). 请注意年我表示当天的入院人数我,使用米-维度特征向量x个我 = {x个我1,x个我2,...,x个感应电动机},其中x个我∈R米具体来说,我们的目标是训练模型Ψ,并表示模型参数θ,估计当天入学人数的条件分布我作为,F类ˆ(年我|x个我) = Ψ(x个我,θ). 使用回归树,对于给定的测试特征向量来说x个测试属于叶节点的我(x个测试,Ψ),我们将与树相关的权重计算为:
使用上述权重,单株树Ψ的预测可作为目标变量的加权平均值,即。|${\sum}_{i=1}^n{w} _ i\左({X}_{test},\mathrm{\psi}\right)\次{y} _ i$|。为了使用回归树集合获得预测,将权重全部取平均值K(K)树木(Ψ1, Ψ2,..., ΨK(K))作为|${w} _ i({X}_{test})=1/K\次{\sum}_{j=1}^K{w} i(_i)({X}_{test},{\mathrm{\psi}}_j)$|). 招生的条件分布计算如下|$\帽子{F}({y} _ i|X(X)={X}_{test})={\sum}_{i=1}^n{w} _ i({X}_{new})我({y} _ i<y)$|.
有关QRF的更多详细信息,请参阅Meinshausen(2006)在本研究中,我们使用了25个特征(米=25)在模型中生成招生一步预测(t吨 + 1). 我们在一周前使用了滞后的入院值[t吨, (t吨-1),..., (t吨-6) ],而对于所有其他变量,我们考虑了最近的滞后值(t吨-1). 我们的特征矩阵非常丰富,因为它包括一系列不同的预测因素,包括滞后的入院人数、确诊的新型冠状病毒肺炎病例、NHS 111电话,以及从谷歌和苹果公司获得的人类流动性数据,如第3节前面所述。建模中使用的25个特征的名称和简要描述见表2.
表2QRF建模中使用的功能列表。根据使用随机森林(用于1天水头预测)获得的重要性分数(顶部最显著的特征)来呈现特征
预测器. | 描述. |
---|
总进气间隙2 | 2天前入院 |
案例7ty-lag1 | 昨天70岁以下年龄组的阳性病例 |
总病例数lag1 | 昨天阳性病例总数 |
总测试lag1 | 昨天进行的总测试 |
案例7typlus lag1 | 昨天70岁以上年龄组的阳性病例 |
总进气间隙3 | 3天前入院 |
总进气间隙1 | 昨天入院 |
总进气间隙4 | 4天前入院 |
总入院滞后6 | 6天前入院 |
谷歌杂货店标签1 | 谷歌昨天的杂货店流动指数 |
总入院时间7 | 7天前入院 |
苹果驾驶拉格1 | 苹果昨日驾驶出行指数 |
总入院时间8 | 8天前入院 |
谷歌工作场所lag1 | 昨天谷歌工作场所流动指数 |
总入院时间5 | 5天前入院 |
NHS111 TY负滞后 | 昨天收到70岁以下年龄组的NHS111电话 |
NHS111总计−拉格1 | 昨天收到的NHS111电话总数 |
谷歌零售lag1 | 昨天谷歌零售业流动性指数 |
苹果运输滞后1 | 昨天苹果交通出行指数 |
第一剂量lag1百分比 | 昨天接种第一剂疫苗的人口百分比 |
谷歌住宅区1 | 昨天谷歌住宅流动指数 |
谷歌运输标签1 | 昨天谷歌交通出行指数 |
苹果步行街1 | 苹果昨天步行活动指数 |
第二剂量滞后百分比1 | 昨天接种第二剂疫苗的人口百分比 |
NHS111 Typlus标签 | 昨天收到70岁以上年龄组的NHS111电话 |
预测器. | 描述. |
---|
总进气间隙2 | 2天前入院 |
案例7ty-lag1 | 昨日70岁以下年龄组阳性病例 |
总病例数lag1 | 昨天阳性病例总数 |
总测试lag1 | 昨天进行的总测试 |
案例7typlus lag1 | 昨天70岁以上年龄组的阳性病例 |
总入院滞后3 | 3天前入院 |
总进气间隙1 | 昨天入院 |
总进气间隙4 | 4天前入院 |
总入院时间6 | 6天前入院 |
谷歌杂货店标签1 | 谷歌昨天的杂货店流动指数 |
总入院时间7 | 7天前入院 |
苹果驾驶拉格1 | 苹果昨日驾车出行指数 |
入院总滞后8 | 8天前入院 |
谷歌工作场所lag1 | 昨天谷歌工作场所流动指数 |
总入院时间5 | 5天前入院 |
NHS111 TY负滞后 | 昨天收到70岁以下年龄组的NHS111电话 |
NHS111总计−拉格1 | 昨天收到的NHS111电话总数 |
谷歌零售lag1 | 昨天谷歌零售业流动性指数 |
苹果运输滞后1 | 昨天苹果交通出行指数 |
第一剂量lag1百分比 | 昨天接种第一剂疫苗的人口百分比 |
谷歌住宅滞后1 | 昨天谷歌住宅流动指数 |
谷歌运输标签1 | 昨天谷歌交通出行指数 |
苹果步行街1 | 苹果昨天步行活动指数 |
第二剂量滞后百分比1 | 昨天接种第二剂疫苗的人口百分比 |
NHS111 Typlus标签 | 昨天收到70岁以上年龄组的NHS111电话 |
表2QRF建模中使用的功能列表。这些特征是根据使用随机森林(用于1天预测)获得的重要性得分(最显著的特征位于顶部)来表示的
预测器. | 描述. |
---|
总进气间隙2 | 2天前入院 |
案例7ty-lag1 | 昨天70岁以下年龄组的阳性病例 |
总病例数lag1 | 昨天阳性病例总数 |
总测试lag1 | 昨天进行的总测试 |
案例7typlus lag1 | 昨日70岁以上年龄组阳性病例 |
总进气间隙3 | 3天前入院 |
总进气间隙1 | 昨天入院 |
总进气间隙4 | 4天前入院 |
总入院时间6 | 6天前入院 |
谷歌杂货店标签1 | 谷歌昨天的杂货店流动指数 |
总入院时间7 | 7天前入院 |
苹果驾驶拉格1 | 苹果昨日驾车出行指数 |
总入院时间8 | 8天前入院 |
谷歌工作区滞后1 | 昨天谷歌工作场所流动指数 |
总入院时间5 | 5天前入院 |
NHS111 TY负滞后 | 昨天收到70岁以下年龄组的NHS111电话 |
NHS111总计−滞后1 | 昨天收到的NHS111电话总数 |
谷歌零售lag1 | 昨天谷歌零售业流动性指数 |
苹果运输滞后1 | 昨天苹果交通出行指数 |
第一剂量lag1百分比 | 昨天接种第一剂疫苗的人口百分比 |
谷歌住宅区1 | 昨天谷歌住宅流动指数 |
谷歌运输标签1 | 昨天谷歌交通出行指数 |
苹果步行街1 | 苹果昨天步行活动指数 |
第二剂lag1的百分比 | 昨天接种第二剂疫苗的人口百分比 |
NHS111 Typlus标签 | 昨天收到70岁以上年龄组的NHS111电话 |
预测器. | 描述. |
---|
总进气间隙2 | 2天前入院 |
案例7ty-lag1 | 昨天70岁以下年龄组的阳性病例 |
总病例数lag1 | 昨天阳性病例总数 |
总测试lag1 | 昨天进行的总测试 |
案例7typlus lag1 | 昨天70岁以上年龄组的阳性病例 |
总进气间隙3 | 3天前入院 |
总进气间隙1 | 昨天入院 |
总进气间隙4 | 4天前入院 |
总入院时间6 | 6天前入院 |
谷歌杂货店标签1 | 谷歌昨天的杂货店流动指数 |
入院总滞后7 | 7天前入院 |
苹果驾驶拉格1 | 苹果昨日驾车出行指数 |
总入院时间8 | 8天前入院 |
谷歌工作场所lag1 | 昨天谷歌工作场所流动指数 |
总入院时间5 | 5天前入院 |
NHS111 TY负滞后 | 昨天收到70岁以下年龄组的NHS111电话 |
NHS111总计−拉格1 | 昨天收到的NHS111呼叫总数 |
谷歌零售lag1 | 昨天谷歌零售业流动性指数 |
苹果运输滞后1 | 昨天苹果交通出行指数 |
第一剂量lag1百分比 | 昨天接种第一剂疫苗的人口百分比 |
谷歌住宅区1 | 昨天谷歌住宅流动指数 |
谷歌运输标签1 | 昨天谷歌交通出行指数 |
苹果步行街1 | 苹果昨天步行活动指数 |
第二剂量滞后百分比1 | 昨天接种第二剂疫苗的人口百分比 |
NHS111 Typlus标签 | 昨天收到70岁以上年龄组的NHS111电话 |
生成地平线每日招生预测(小时)从1天到7天不等,我们构建了一个水平特定的QRF模型。预测入学人数,比如第二天(地平线小时=1),我们仅使用训练数据,通过最小化银行外(OOB)样本的1天头误差来估计QRF模型。对于给定的视界(或模型),我们估计QRF超参数,即:(1)树的数量,(2)最小叶子大小和(3)用于分割点选择的特征数量。超参数调整基于使用OOB观测值计算的平均绝对偏差最小化。每个袋装树使用了大约三分之二的随机选择的观测值来构建树,而剩下的三分之一的观测值没有用于构建树,被称为OOB数据,这些数据只用于超参数调整。在确定了最优超参数后,使用整个训练数据对QRF模型进行训练。
该建模策略产生了总共七个QRF模型,即每个地平线一个模型。注意,每个QRF模型的超参数都是单独调整的。一旦估计,超参数值保持不变,并使用整个训练数据重新训练七个QRF模型中的每个模型,然后使用这些模型生成样本外数据的预测。请注意,QRF模型通过最小化小时-OOB观测值的步进误差用于生成小时-对整个样本外时期的逐步预测。这种建模方案的一个吸引人的特点是,它不需要生成自变量的预测。可以说,这种依赖于建立水平特定模型的建模方法的缺点是,不同层位的预测被视为独立的,而且这种方法的计算成本很高。
图6显示了一个简单的示例,即使用QRF生成的完整样本外期间1天内新冠肺炎入院人数的概率预测。在图中,实际接纳人数用黑点表示,概率预测的中位数作为点预测发布,而阴影区域对应于预测分布的50%和90%的预测区间。
概率预测视角试图量化预测招生的不确定性。风险决策往往集中在极端情况:尽管意外的高入院率造成了拥挤(金等., 2009)由于效率低下,出乎意料的低入学率可能会造成资源浪费。因此,概率预测是支持决策者/规划者的工具,不仅可以获得最可能的结果,还可以在低概率、高成本的情况下获得支持(罗斯塔米·塔巴尔和齐埃尔,2022年). 不同的医院管理层可能对风险有不同的态度,这取决于资源的可用性,因此在做出决策时必须考虑整体分布。概率预测可以而且应该被视为医疗保健领域任何风险管理实践的核心要素(罗斯塔米·塔巴尔等., 2023).
4.2基准
我们使用各种基准方法将其预测精度与所使用的QRF模型进行比较。指数平滑和ARIMA模型是时间序列预测中应用最广泛的方法之一。我们使用电动滑行系统()和ARIMA公司寓言包中的()函数(奥哈拉·威尔德等., 2020)在R中,使用这些方法对新冠肺炎入院人数进行每日预测。有关这些时间序列方法的进一步说明,请参阅Hyndman&Athanasopoulos(2021年).
我们还考虑了时间序列LR、ARIMAX和Prophet,以解释预测因子和每日入院量之间的关联。
时间序列LR在实践中得到了广泛的应用,甚至是复杂预测任务的通用基准。LR算法学习构造其输入特征的加权和。我们在寓言包中使用TSLM()函数(奥哈拉·威尔德等., 2020). LR模型使用trend()、season()和表2函数trend()表示线性趋势,season()为星期几创建虚拟变量。我们表示Y(Y)t吨作为一天入院的病人数量t吨中描述了LR模型中所选的预测因子表2使用以下符号表示:
在构建LR模型时,我们首先创建一个LR模型来提前一步进行预测。
为了选择要包含在模型中的预测因子,使用了基于Akaike信息标准修正(AICc)的正向逐步选择。在选择预测因子时,我们考虑了招生与预测因子之间的线性关联以及现有的共线性。这些决策由以下数据分析提供信息:图3–5.为了预测h步预测的入院人数,我们使用了为一步预测选择的预测因子的滞后时间,而不是预测预测因子。因此,我们总是使用截至第t天的实际信息来预测未来。有趣的是,我们还测试了预测因子的方法,这导致了更糟糕的行为。
尽管ARIMA只使用时间序列信息,但可以通过向ARIMA模型添加预测因子来构建ARIMAX模型。我们使用与ARIMA模型相同的信息以及LR模型中使用的所有预测因子,但医院入院滞后值除外。当ARIMA模型考虑到自回归滞后值时,这些被删除。我们在R中的寓言包中使用ARIMA()函数来训练和估计ARIMAX模型的参数,并预测每日新冠肺炎的入院人数(奥哈拉·威尔德等., 2020).
Prophet是Facebook创建的预测程序。该方法被证明对每日时间序列是准确的,尤其是在脸书上看到的每日数据上。该模型考虑了多个季节性、分段趋势和任意数量的预测因子。分段趋势背后的思想是,如果时间序列在序列的不同区域遵循不同的线性趋势,那么可以将其建模为连接的线性片段(Taylor&Letham,2018年).
一天的响应变量t吨可以写成三个时间函数加上一个误差项的总和:
哪里克(t吨)代表分段线性趋势,秒(t吨)表示各种季节性,小时(t吨)捕捉假期效果,Xreg系列(t吨)说明LR模型中使用的预测因子以及εt吨是错误项。我们应该注意到,鉴于每天的时间序列入院时间很短,对假期效应的影响进行建模是不可行的,本研究也没有考虑这一点。
Prophet是一种自动化方法,在许多组织中易于使用。它对丢失数据和趋势变化具有鲁棒性,通常能很好地处理异常值(Taylor&Letham,2018年). 我们在R中的fable.prophet包中使用了previer()的fable接口(O'Hara-Wild,2020年).
该实验可能受益于包括其他基准测试,如Theta(阿西马科普洛斯和尼科洛普洛斯,2000年)为了减少运行时间或在有更多数据可用的情况下,值得研究基于人工神经网络(ANN)的方法,包括深度学习。
5.实验装置
我们首先将数据集划分为训练集(80%)和测试集(20%)。我们将预测模型应用于训练集,并在测试集上评估所建议的QRF方法和基准的预测性能。使用滚动原点预测研究对重新估计的测试集进行评估。预测范围选择为小时=7,相当于7天,允许决策者使用预测来通知有关卫生服务资源分配和规划的决策。应该注意的是,鉴于新冠肺炎(COVID-19)入院的每日时间序列的性质,其中相当多的观察值为零或低量,基准方法可能会产生负预测值。因此,我们首先使用sqrt()转换时间序列,然后使用所有基准训练和生成预测。接下来,生成的预测被转换回原始尺度(四舍五入到最接近的整数),并应用零处的截断以避免产生负面预测。
5.1预测精度评估
在本研究中,我们考虑了点预测精度指标,以及评估预测分布准确性的指标。我们使用RMSE和MAE评估点预测。MAE适用于中值,RMSE适用于平均预测。
为了评估离散概率分布的预测,我们使用排名概率分数(RPS),它由爱泼斯坦(1969)). RPS量化了实际观测值和预测累积分布之间的差异,因此得分越小越好。
对于点精度和概率精度度量,我们首先报告每个模型的总体性能,方法是对所有滚动原点和所有地平线计算的每个度量的得分进行平均。我们还报告了每个模型和每个预测范围的精度度量。为此,我们将给定范围内不同滚动原点的分数进行汇总。
6.实证结果与讨论
在本节中,我们首先讨论了QRF得出的新冠肺炎每日入院人数的重要预测因素,并报告了QRF模型的预测性能以及点预测和概率预测的不同基准。
在本研究的背景下,确定最显著的特征有助于对入院人数的关键驱动因素提供有价值的见解,这可能对医院和决策者带来实际利益。
在图7,我们绘制了最显著特征的特征重要性得分,从而使用随机森林(地平线等于1天)获得特征的排名。仅使用OOB观察结果计算特征排名。使用排列特征重要性度量获得特征排名;有关详细信息,请参见布雷曼(2001)). 具体来说,为了测量特征在预测响应中的影响,我们计算了当特征被置换时,模型误差相对于OOB观测值的变化。请注意,排列更显著的特征将导致预测误差的增加。我们考虑了可以在不使特征矩阵高维的情况下潜在地提高预测精度的特征。我们考虑了其他外生特征的多重滞后(超过1天),但并未导致建模方面的任何显著改进。可以推测,一些特征(如疫苗接种状态、病例数等)往往变化平稳,这种变化可能会在较长的交付周期内被记录在医院入院数据中。有趣的是,为了预测某一天的入院人数,滞后入院人数是很强的预测因素,这与入院时间序列中的自相关和偏自相关基本一致(图2).
使用从RF获得的每个范围的功能排名,我们仅使用5个、10个、15个和20个最显著的功能生成了样本外预测,并将其性能与使用所有25个功能的模型进行了比较。具体而言,针对每个视界,研究了不同数量最显著特征的QRF模型性能。仅使用5个或10个最显著的功能会导致所有范围内的总体性能最差。此外,与使用所有25个功能相比,20个最显著的功能在1天和2天的预测中提供了稍好的性能。对于较长的视野(3-7天的预测),在建模过程中使用所有25个特征可以提供最准确的性能。
正如人们所料,与新冠肺炎阳性病例总数和每日检测次数相关的特征也很显著。在移动性方面,与谷歌杂货店和苹果汽车驾驶相关的功能非常突出;然而,与滞后的录取人数相比,流动性特征排名低得多。基于这些结果,可以认为入院人数时间序列中的时间相关性可以使用当地医院的滞后入院人数来调节。
表3给出了点预测和预测分布的所有模型的总体预测性能。结果表明,QRF模型在所有预测精度指标上都优于基准。接下来,我们将研究不同预测范围内的表现。
预测模型. | MAE公司. | RMSE公司. | RPS系统. |
---|
量化风险基金 | 2.0254 | 2.6974 | 0.1070 |
电动滑行系统 | 2.2688 | 2.9255 | 0.1136 |
左后 | 2.2751 | 2.9283 | 0.1159 |
ARIMAX公司 | 2.3204 | 2.9702 | 0.1177 |
ARIMA公司 | 2.3479 | 2.9955 | 0.1186 |
先知 | 2.5471 | 3.1157 | 0.1205 |
预测模型. | MAE公司. | RMSE公司. | RPS系统. |
---|
量化风险基金 | 2.0254 | 2.6974 | 0.1070 |
电动滑行系统 | 2.2688 | 2.9255 | 0.1136 |
左后 | 2.2751 | 2.9283 | 0.1159 |
ARIMAX公司 | 2.3204 | 2.9702 | 0.1177 |
阿里玛 | 2.3479 | 2.9955 | 0.1186 |
先知 | 2.5471 | 3.1157 | 0.1205 |
预测模型. | MAE公司. | RMSE公司. | RPS系统. |
---|
量化风险基金 | 2.0254 | 2.6974 | 0.1070 |
电动滑行系统 | 2.2688 | 2.9255 | 0.1136 |
左后 | 2.2751 | 2.9283 | 0.1159 |
ARIMAX公司 | 2.3204 | 2.9702 | 0.1177 |
ARIMA公司 | 2.3479 | 2.9955 | 0.1186 |
先知 | 2.5471 | 3.1157 | 0.1205 |
预测模型. | MAE公司. | RMSE公司. | RPS系统. |
---|
量化风险基金 | 2.0254 | 2.6974 | 0.1070 |
电动滑行系统 | 2.2688 | 2.9255 | 0.1136 |
左后 | 2.2751 | 2.9283 | 0.1159 |
ARIMAX公司 | 2.3204 | 2.9702 | 0.1177 |
ARIMA公司 | 2.3479 | 2.9955 | 0.1186 |
先知 | 2.5471 | 3.1157 | 0.1205 |
在图8(a和b),我们绘制了本研究中考虑的所有模型的RMSE和MAE,预测范围为1天到7天。如前所述,我们使用滚动预测原点生成预测。因此,使用n-h+1测试观测值计算h步水头预测的误差指标(其中n表示测试数据中的观测总数)。发件人图8(a和b)很明显,QRF和ETS是最具竞争力的模型,QRF是迄今为止表现最好的模型,但在1天的时间范围内,QRF与EST和LR之间的差异可以忽略不计。
当评估基于RPS时,模型排名是一致的,请参见图8(c)。我们使用RPS量化离散概率分布预测的准确性,因为它严格合适并且对距离敏感[有关详细信息,请参阅(Murphy,1969年,1970)]. QRF的性能大大优于本研究中使用的所有其他模型。
与其他方法相比,QRF的优越性能可能归因于以下事实:(1)QRF恰当地将入院数据视为计数数据而非连续数据。QRF生成的预测是非负整数计数(因为模型预测是从历史数据中实现准入计数)。由于实际入院人数不能为负数或分数,除QRF外,所有方法的入院人数预测都必须截断,以排除任何负面预测,而正分数预测必须四舍五入到最接近的整数。(2) QRF提供了一种非参数建模方法,不依赖于对潜在残差分布的任何假设,并且关键的是,考虑到预测因子和响应之间的非线性关系,如图5(3)我们对QRF使用了水平特定建模方法。具体而言,我们估计了七个不同的特定于地平线的QRF模型,从而使用训练数据分别调整每个模型的超参数。而对于时间序列模型,如ARIMA、ARIMAX、ETS,我们使用传统的估计单个模型的方法来生成跨多个范围的预测。然而,对每个滚动原点的模型参数进行了重新估计。
建议的建模框架可以在实践中使用,因为预测因子是公开的,并且本研究中使用的模型可以实时生成预测。我们使用了两大类预测因子:(i)可通过电子健康记录系统获取的每日新冠肺炎入院量的滞后值,以及(ii)人口水平预测因子,例如:新冠肺炎确诊病例、疫苗接种状态、呼叫中心数据、流动性数据等,所有这些都可以在线免费获取。在计算速度方面,确定了最佳超参数后,训练QRF模型并生成第二天预测的总时间为0.47秒(在Matlab 2021b©Mathworks中,使用带有32 GB RAM的2.2 GHz处理器)。值得注意的是,本研究中考虑的医院的政策和运营由NHS决定,NHS是英国的公共资助医疗体系。因此,本研究中为CDG开发的方法可能适用于英国其他在NHS运营框架下运营的集团。
7.结论
准确估计医院收治的新冠肺炎患者将有助于医院和地区当局更有效地分配资源。尽管许多研究已经考虑预测新冠肺炎医院的入院人数,但对当地入院人数的关注较少。在地方一级准确预测新冠肺炎的入院人数至关重要,但它带来了各种预测挑战,这可能不适用于许多时间序列预测方法。
新冠肺炎患者的每日时间序列具有以下特点,这使得预测具有挑战性:(i)患者是计数数据,这要求预测也必须是整数;以及(ii)它们很低,并且包含许多零值,在使用时间序列预测方法时可能会导致负面预测。此外,研究的主要重点是建模新冠肺炎患者的全部概率分布,而不仅仅是点估计。
我们使用英国调试小组中新冠肺炎入院的每日总时间序列来训练模型并评估预测准确性。使用两点预测误差度量(即RMSE、MAE)和概率预测精度度量(RPS),将所提出的QRF模型的性能与ETS、ARIMA、LR、ARIMAX和Prophet进行比较。本研究中开发的方法基于医院子集的汇总数据。然而,我们认为,考虑到一些共同特征,如趋势、低容量观察和零的存在,它可以适用于每个医院。
在本研究中,我们建立了一个QRF模型,该模型确保生成严格积极的预测。这项研究的一个局限性是,我们只有一年多一点的每日数据。在特征丰富的数据可供更长时间使用的医院中,一个有趣的未来工作是使用ANN,包括深度学习,对入院人数进行概率预测。
我们应该注意到,考虑到未来入住医院的新冠肺炎患者的不确定性,生成并提供概率预测至关重要,这使决策者能够评估做出决策的潜在风险,从而做出更明智的决策。因此,除了点预测之外,我们还提供了未来每日新冠肺炎入院人数的分布。此外,我们还调查了各种预测因子在预测新冠肺炎每日入院人数时的有用性,包括新冠肺炎电话数据、确诊病例、病毒检测次数、接种人群百分比以及谷歌和苹果公司的人口流动性数据。
结果表明,所提出的QRF模型在点预测和预测分布精度方面均优于基准。我们观察到,QRF模型的准确性在不同的范围内是一致的,并且随着预测范围的增加,预测准确性的提高变得更加显著。我们的研究结果表明,滞后的新型冠状病毒(COVID-19)入院人数、阳性病例数、每日测试次数、谷歌杂货店和苹果驾驶是特定日期新型冠状腺炎(COVID)入院最有力的预测因素。
我们的研究结果的可推广性可以在以下方面考虑:(a)在前所未有的条件下建模需求,如大流行,以及(b)使用人口级别的特征来提高地方医院级别的预测准确性。自从19型冠状病毒出现之前,人们就注意到新的大流行因子的出现似乎无法预测(莫尔斯等., 2012). 鉴于跨物种病毒传播风险的增加(卡尔森等., 2022),这可能不是最后一次大流行。虽然我们的研究结果的概括性可能难以评估,但研究框架设计和实施的总体条件可以作为未来类似事件的参考。预测新冠肺炎在医院的入院人数是一项具有挑战性的任务,我们的结果可以为类似情况提供见解,在这种情况下,由于高度传播的病毒,对医院资源的需求随着人口接种水平的增加而减少。另一个重要的见解与纳入流动性数据有关,该数据捕获了人们如何移动和互动,从而提高预测准确性。这表明,在紧急情况下,人群水平的特征可以成为重要的预测因素,因为它们可以捕捉到传染病的传播或自然灾害期间的人员流动。此外,这项研究强调了识别和使用主要预测因素的重要性,如拨打紧急电话、阳性病例率和接种疫苗的人群,以提高预测准确性。另一个值得考虑的问题是处理低容量数据,这在紧急情况下可能是一个问题。我们注意到,传统的时间序列方法在处理计数数据时可能无效,尤其是在值接近零时。在这种情况下,使用传统时间序列方法可能需要舍入或截断。然而,我们发现分位数随机森林(QRF)方法在计数数据方面表现更好,这表明它可能是一种有用的方法,用于关注低容量数据的紧急情况。总之,本文提供了一些可应用于其他紧急情况的见解。通过结合人口水平特征、确定适当的主要预测因素和使用适当的建模技术,可以制定准确的预测,帮助应急人员更好地准备和应对紧急情况。再小一点说,有趣的是,我们可以观察到,像《Covid》这样的戏剧性事件一旦不在聚光灯下,是如何被迅速遗忘的。在大流行等紧急情况下,我们很难或没有能力从过去吸取教训,这意味着我们在未来面临的风险增加,即没有适当的措施来应对问题。应该仔细评估这种遗忘加速的风险,尤其是在气候危机的情况下。
鉴于预测在紧急情况下入院患者的重要性,如大流行,对以下任何领域的研究似乎都是值得的:
我们认为,在大流行的不同浪潮中,不同的预测因素可能具有不同的重要性。因此,随着疫情的发展,研究在预测模型中应该使用哪些预测因子是一个重要问题,开发一个能够适应变化的灵活预测模型将是有价值的。
同样,依靠一个模型在所有地平线或波浪上都表现良好,可能也不明智。预测组合可能会像在其他预测领域一样被证明是有益的(例如,在M4预测竞争中,所有6种表现最好的方法都采用了某种预测组合(马克里达基斯等., 2018)]. 当涉及到新冠肺炎相关研究时,Taylor&Taylor(2021)证明了结合区间预测和分布预测对新冠肺炎累积死亡率建模的有效性。值得调查每个地平线(和/或波浪)不同模型的组合预测的准确性。
预测入院风险分数,即预测超过阈值的概率,而不是预测给定日期的确切数字,是一种有趣的方法。这可能为决策者处理不确定性提供了一个更直接的工具。
考虑到当地接纳时间序列的性质,采用时间聚合方法可能会提高预测准确性(罗斯塔米·塔巴尔等., 2013,2014).
最后,尽管本研究侧重于地方层面,但重要的是要调查本文中讨论的预测因子在预测更多总体(例如国家)层面上的新型冠状病毒(COVID-19)入院人数方面的有用性。
数据可用性声明
本研究中使用的数据可通过GitHub知识库访问:https://github.com/bahmanrostamitabar/Covid19_hospital_admission_data.
基金
这个项目没有资金。
利益冲突
不存在利益冲突。
作者的贡献
Bahman Rostami-Tabar(概念化、编程、形式分析、模型开发。写作-原始草案准备)、Siddharth Arora,Thanos E.Goltsos(概念化。写作-原始草稿准备)。
工具书类
阿西马科普洛斯
,对。
&尼科洛普洛斯
,英国。
(
2000
)θ模型:预测的分解方法
.国际期刊预测。
,16
,521
–530
.金
,L。
,拜恩斯
,G.公司。
,贝恩公司
,C.答。
,法克雷尔
,米。
,品牌
,C、。
,坎贝尔
,D.A.博士。
&泰勒
,P.G.公司。
(
2009
)急诊室溢流预测
.IMA J.管理。数学。
,20
,39
–49
.巴尔詹
,D。
,科利扎
,对。
,贡·恰尔维斯
,B。
,胡
,H。
,拉马斯科
,J·J。
&韦斯皮格纳尼
,A。
(
2009
)多尺度流动网络与传染病的空间传播
.程序。国家。阿卡德。科学。美国
,106
,21484
–21489
.https://www.pnas.org/content/106/51/21484.贝克
,R。
,布罗克
,M.U.H.先生。
&科勒
,G.公司。
(
2023
)荷兰covid-19医院入院和入住率建模
.欧洲药典。物件。
,304
,207
–218
.本韦努托
,D。
,焦瓦内蒂
,米。
,瓦萨洛
,L。
,安洁蕾蒂
,美国。
&奇科齐
,米。
(
2020
)Arima模型在covid-2019疫情数据集上的应用
.数据简介
,29
,105340
.http://www.sciencedirect.com/science/article/pii/S2352340920302341.主教
,J.A.公司。
,贾维德
,H.A.公司。
,埃尔-波里
,R。
,朱
,T。
,泰勒
,T。
,佩托
,T。
,沃特金森
,第页。
,艾尔
,D.W.公司。
&克利夫顿
,D.A.博士。
(
2021
)使用机器学习实时预测患者出院准备情况,改善传染病爆发期间的患者流
.公共科学图书馆一号
,16
,电话:0260476
.博巴舍夫
,G.公司。
,塞戈维亚·多明格斯
,一、。
,凝胶
,Y.R.公司。
,里尼尔
,J。
,瑞亚
,美国。
&隋
,H。
(
2020
)新型冠状病毒传播的地理空间预测及达到医院容量的风险
.SIGSPATIAL特别
,12
,25
–32
.博纳纳德
,C、。
,加西亚·布拉斯
,美国。
,塔拉索纳·桑塔巴比纳
,F、。
,桑奇斯
,J。
,贝尔托梅·冈萨雷斯
,对。
,法西拉
,L。
,阿里扎
,A。
,努涅斯
,J。
&科尔德罗
,A。
(
2020
)年龄对新冠肺炎患者死亡率的影响:611583例受试者的荟萃分析
.美国医学协会J.Am.Med.Dir.Assoc。
,21
,915
–918
.博伊兰
,J·E。
(
2016
)再现性
.IMA J.管理。数学。
,27
,107
–108
.布雷曼
,L。
(
2001
)随机森林
.机器。学习。
,45
,5
–32
.卡皮斯特兰
,文学硕士。
,五车二
,A。
&克里斯滕
,J.A.公司。
(
2020
)预测新冠肺炎疫情期间的医院需求
..卡尔森
,C.J.公司。
,阿尔贝里
,G.F.公司。
,梅洛
,C、。
,Trisos公司
,C.H.公司。
,齐菲尔
,C.M.公司。
,埃斯克
,欧洲航空公司。
,橄榄色
,K·J。
,罗斯
,N。
&班萨尔
,美国。
(
2022
)气候变化增加了跨物种病毒传播风险
.自然
,607
,555
–562
.迪西
,J。
,罗切托
,E.公司。
,科勒
,英国。
,树桩
,D.J.博士。
,巴尔别罗
,第页。
,狮子座
,第页。
&埃尔科尔
,A。
(
2020
)预测英国19型冠状病毒的超早期重症监护菌株
..爱泼斯坦
,E.公司。
(
1969
)等级类别概率预测的评分系统
.J.应用。美托洛尔。气候。
,8
,985
–987
.方
,S.J.公司。
,锂
,G.公司。
,戴伊
,N。
,Gonzalez-Crespo公司
,R。
&埃雷拉·维德马
,E.公司。
(
2020
)从小数据集中寻找准确的早期预测模型:2019-ncov新型冠状病毒暴发一例
.国际互动杂志。多媒体艺术。智力。
,6
,132
.http://dx.doi.org/10.9781/ijimai.020.02.002.芬克
,美国。
,雅培
,美国。
,阿特金斯
,出生日期。
等(
2020
)短期预测为英国应对19型冠状病毒疫情提供信息
..加利文
,美国。
&乌特利
,米。
(
2005
)将选择性住院患者的入院预约建模为治疗中心
.IMA J.管理。数学。
,16
,305
–315
.吉托
,美国。
,迪·毛罗
,C、。
,安卡拉尼
,A。
&曼库索
,第页。
(
2021
)预测新冠肺炎期间国家和地区级重症监护病房床位需求:以意大利为例
.公共科学图书馆一号
,16
,电子024726
.高尔索斯
,T.E.公司。
,Syntetos公司
,答:A。
,格洛克
,C.H.公司。
&Ioannou公司
,G.公司。
(
2021
)库存预测:注意差距
.欧洲药典。物件。
,299
,397
–419
.格拉塞利
,G.公司。
,佩森蒂
,A。
&切科尼
,米。
(
2020
)意大利伦巴第新冠肺炎疫情的重症监护利用:应急期间的早期经验和预测
.日本汽车制造商协会
,323
,1545
–1546
.哈姆扎
,F.B.公司。
,刘
,C、。
,娜兹玲
,H。
,利戈特
,D。
,李
,G.公司。
,棕褐色
,C、。
,沙伊卜
,米。
,扎伊东
,美国。
,阿卜杜拉
,A。
,钟
,米。
等(
2020
)冠状病毒追踪系统:全球新冠肺炎疫情数据分析和预测
.牛市。世界卫生组织。
,1
,32
.哈维
,A。
(
1984
)基于logistic曲线的时间序列预测
.《运营杂志》。Res.Soc公司。
,35
,641
–646
.商行
,西南亚。
,哈莫维奇
,公元。
&泰勒
,注册会计师。
(
2018
)利用机器学习预测急诊分诊入院人数
.公共科学图书馆一号
,13
,电子0201016
.约安尼迪斯
,J.P.公司。
,残疾人士
,美国。
&Tanner公司
,米。
(
2022
)预测covid-19失败
.国际期刊预测。
,38
,423
–438
.伊万诺夫
,D。
(
2020
)预测疫情对全球供应链的影响:基于模拟的冠状病毒疫情分析
.运输。Res.E物流。运输。版次。
,136
,101922
.科马克
,世界银行。
&麦肯德里克
,A.G.公司。
(
1927
)对流行病数学理论的贡献
.程序。R.Soc.伦敦。数学。物理学。科学。
,115
,700
–721
.勒克莱尔
,问:。
,富勒
,N.M.公司。
,基奥
,右侧。
,迪亚兹·奥尔达兹
,英国。
,塞库拉
,R。
,森普尔
,M.G.公司。
,ISARIC4C调查人员;CMMID COVID-19工作组
,阿特金斯
,好的。
,普罗克特
,S.R.公司。
&奈特
,总经理。
(
2021
)病床路径和住院时间差异在预测英国covid-19医院床位占用率中的重要性
.BMC健康服务。物件。
,21
,566
.马克里达基斯
,美国。
,蜘蛛炎
,E.公司。
&阿西马科普洛斯
,对。
(
2018
)m4竞赛:结果、发现、结论和前进方向
.国际期刊预测。
,34
,802
–808
.明绍森
,N。
(
2006
)分位数回归森林
.J.马赫。学习。物件。
,7
, 983–999.莫夫塔哈尔
,L。
,墨什甘
,美国。
&保险柜
,医学硕士。
(
2020
)伊朗新型冠状病毒感染者呈指数增长趋势:神经网络和Arima预测模型的比较
.伊朗。J.公共卫生
,49
,92
–100
.莫哈达斯
,S.M.公司。
,Shoukat公司
,A。
,菲茨帕特里克
,M.C.公司。
,威尔斯
,C.R.公司。
,萨赫
,第页。
,潘迪
,A。
,萨克斯
,J·D·。
,王
,Z.公司。
,迈耶斯
,洛杉矶。
,歌手
,B.H.公司。
&加利瓦尼
,A.P.公司。
(
2020
)美国新冠肺炎疫情期间医院利用率预测
.程序。国家。阿卡德。科学。美国
,117
,9122
–9126
.https://www.pnas.org/content/117/16/9122.莫尔斯
,第S条。
,迷宫
,J.A.公司。
,羊毛屋
,米。
,帕里什
,C.R.公司。
,卡罗尔
,D。
,卡雷什语
,W.B.公司。
,赞布拉纳·托雷里奥
,C、。
,利普金
,西印度。
&达萨克
,第页。
(
2012
)预测和预防下一次大流行性人畜共患疾病
.刺胳针
,380
,1956
–1965
.https://www.sciencedirect.com/science/article/pii/S0140673612616845.墨菲
,A。
(
1969
)关于“排名概率得分”
.J.应用。美托洛尔。气候。
,8
,988
–989
.墨菲
,A。
(
1970
)排名概率分数与概率分数的比较
.周一。天气Rev。
,98
,917
–924
.Nenova公司
,Z.D.公司。
&五月
,J.H。
(
2016
)基于数据集的特征确定最优分层预测模型
.《运营杂志》。管理。
,44
,62
–68
.尼科洛普洛斯
,英国。
,普尼亚
,美国。
,Sch a a fers公司
,A。
,奇诺波洛斯
,C、。
&瓦西拉基斯
,C、。
(
2021
)大流行期间的预测和规划:新冠肺炎增长率、供应链中断和政府决策
.欧洲药典。物件。
,290
,99
–115
.https://www.sciencedirect.com/science/article/pii/S0377221720306913.钱
,Z.公司。
,阿拉
,上午。
&范德沙尔
,米。
(
2021
)CPAS:英国基于机器学习的covid-19国家医院容量规划系统
.机器。学习。
,110
,15
–35
.拉希米安
,F、。
,萨利米·科尔希迪
,G.公司。
,佩贝拉
,A.H.公司。
,Tran公司
,J。
,Ayala Solares公司
,R。
,雷蒙迪
,F、。
,纳扎尔扎德
,米。
,卡诺伊
,D。
&拉希米
,英国。
(
2018
)使用机器学习预测紧急入院风险:使用链接电子健康记录的开发和验证
.《公共科学图书馆·医学》。
,15
,e1002695号
.罗斯塔米·塔巴尔
,B。
&伦敦·桑切斯
,J.F.公司。
(
2021
)使用电话数据预测covid-19每日病例
.申请。软计算。
,100
,106932
.罗斯塔米·塔巴尔
,B。
&齐尔
,F、。
(
2022
)应急部门预测中的特殊事件预测
.国际期刊预测。
,38
,1197
–1213
.罗斯塔米·塔巴尔
,B。
,鲍鲍伊
,M.Z.先生。
,Syntetos公司
,A。
&杜克
,年。
(
2013
)通过时间聚合进行需求预测
.海军后勤研究。
,60
,479
–498
.罗斯塔米·塔巴尔
,B。
,鲍鲍伊
,M.Z.先生。
,Syntetos公司
,A。
&杜克
,年。
(
2014
)关于时间聚合预测性能的注记
.海军后勤研究。
,61
,489
–500
.罗斯塔米·塔巴尔
,B。
,布罗威尔
,J。
&斯维通科夫
,一、。
(
2023
)每小时急诊到达人数的概率预测
.健康系统
,1
–17
.萨塔尔
,N。
,霍
,F.K.公司。
,腮
,J·M·。
,古里
,N。
,灰色
,S.R.公司。
,塞利斯-莫拉莱斯
,C.答。
,卡蒂基雷迪
,S.V.公司。
,贝里
,C、。
,佩尔
,J.P.公司。
,麦克默里
,J·J。
等(
2020
)BMI与跨性别、年龄和种族的新型冠状病毒感染和死亡的未来风险:来自英国生物银行的初步研究结果
.糖尿病。Metab公司。综合。临床。Res.版本。
,14
,1149
–1151
.沙阿
,美国。
,摩尔
,E.公司。
,罗伯逊
,C、。
,麦克梅纳明
,J。
,卡蒂基雷迪
,S.V.公司。
,辛普森
,C.R.公司。
,施
,T。
,阿格拉瓦尔
,美国。
,麦考恩
,C、。
,股票
,美国。
等(
2021
)2021年6月至7月与关注的δ变异相关的预测Covid-19阳性病例、住院和死亡
.柳叶刀数字。健康
,三
,电子539
–e541(电子541)
.泰勒
,S.J.公司。
&莱瑟姆
,B。
(
2018
)大规模预测
.美国统计局。
,72
,37
–45
.泰勒
,J·W·。
&泰勒
,英国标准。
(
2021
)美国新冠肺炎死亡率的组合概率预测
.欧洲药典。物件。
,304
, 25–41.韦斯曼
,通用电气公司。
,起重机Droesch
,A。
,Chivers公司
,C、。
,隆
,T。
,皇汉
,A。
,征收
,M.Z.先生。
,卢布肯
,J。
,贝克尔
,米。
,Draugelis公司
,机械工程师。
,阿内西
,G.L.公司。
等(
2020
)预测新冠肺炎疫情期间医院容量需求的本地知情模拟
.Ann.实习生。医学。
,173
,21
–28
.世界卫生组织
(
2021
)针对新冠肺炎实施和调整公共卫生和社会措施的考虑:国际指南(2021年6月14日)
.世界卫生组织
.世界卫生组织
(
2020
)新型冠状病毒:疫情期间维持基本卫生服务的操作指南:临时指南(2020年3月25日)
.世界卫生组织
.扎普洛特尼克
,Z.公司。
,加夫里奇
,A。
&医生
,L。
(
2020
)斯洛文尼亚社会网络上的新型冠状病毒疫情模拟:估计内在预测不确定性
.公共科学图书馆一号
,15
,电子0238090
.赵
,C、。
,特佩库勒
,B。
,克里斯库洛
,N.G.公司。
,温德尔·加西亚
,第D.页。
,赫尔蒂
,M.P.公司。
,富美(Fumeaux)
,T。
&范博克尔
,T.P.公司。
(
2020
)Icumonitoring.Ch:一个短期预测瑞士新冠肺炎疫情期间重症监护病房入住率的平台
.瑞士医学院。
,150
,20277周
.
©作者2023。牛津大学出版社代表数学及其应用研究所出版。保留所有权利。