跳到主要内容

基于搜索引擎的人工智能监测在冠状病毒疫情早期检测中的应用

摘要

基于搜索引擎的传染病预警和预测监测方法无法实现搜索引擎关键词的自动过滤和实时更新,导致对新发传染病的预警无能为力。本研究的目的是开发一种基于搜索引擎的监测人工智能方法,以提高对新发传染病的预警能力。2019年12月18日至2020年2月11日,从百度搜索引擎数据库中收集了32个可能与冠状病毒疫情相关的关键词(4.44亿搜索查询)。使用图卷积网络(GCN)模型自动选择搜索引擎关键词,然后进行多元线性回归,探索关键词的每日查询频率与每日新案例之间的关系。使用GCN模型自动选择关键字。GCN模型的预测趋势与真实曲线高度一致,平均绝对误差为81.65。选择了“流行病”、“口罩”和“冠状病毒”三个关键词。搜索查询中的选择关键字与每日确诊病例数高度相关(第页 = 0.96、0.94和0.89;P(P) < 0.01). 2019年12月31日,查询中出现异常初始峰值(正常量的3.05倍),这可能是疫情爆发的预警信号。特别值得关注的是,17.5%的查询量来自湖北省,其中51.15%来自武汉市。决定系数(R2)使用选择关键字,我们构建的模型在0-7天的时滞中分别为0.88、0.88、084、0.77、0.77,0.75、0.73和0.73。我们构建的模型在北京新发地疫情中用作独立的测试数据集,它成功地预测了接下来几天的每日病例数,并在北京新发地疫情期间检测到早期信号(R2 = 0.79). 本文首次建立了基于人工智能方法的搜索引擎监测方法,用于新冠肺炎疫情的早期检测。该模型实现了搜索引擎关键词的自动过滤和实时更新,能够有效检测新发传染病的早期信号。

介绍

截至2022年6月10日,冠状病毒疾病(COVID-19)已蔓延至200多个国家,造成约5.32亿确诊病例和600万死亡[1]这是自1918年流感大流行以来影响世界的最严重大流行。许多研究人员提出了对新型冠状病毒、各种肺炎和正常X射线图像的分类[2,]. 机器学习算法用于从CXR和CT-Scan图像中自动诊断Covid-19[4,5]. 新型冠状病毒(COVID-19)于2019年12月在中国武汉发现[6,7]. 传染病暴发的早期预警对预防流行病至关重要。然而,在新冠肺炎疫情爆发之初,传统的传染病监测并没有及时发出预警。当前研究表明,早期严格预防和及时控制措施可以有效防止传染病大规模流行[8,9]. 因此,各国应高度重视建立传染病监测系统,以检测任何疫情的早期信号。然而,传统的传染病监测主要依赖实验室诊断,因此在早期阶段及时发出警报非常耗时[10].

由于互联网在全球广泛使用,基于互联网的监测被认为适合于疫情的早期检测和预测[11]. 例如,在2014年西非埃博拉疫情期间,HealthMap发现了网络新闻,报道了2014年3月14日几内亚发生的一场奇怪的发烧,即在官方疫情信息发布前9天。这是埃博拉疫情爆发的第一个预警信号[12]从而证明在线数据可以有效地作为疫情的早期预警。此外,2019年12月30日,网络数据为新冠肺炎敲响了警钟[13]. Polgreen等人使用雅虎搜索引擎的数据拟合了2004年3月至2008年5月期间实验室确诊流感病例的数据;他们发现这两组数据是一致的,并且在线数据比常规报告早1-3周出现[14]. 随后,金斯伯格等人于2009年提出了谷歌流感趋势(GFT)的概念,并基于45个与流感和流感样症状相关的关键词构建了GFT预测模型,这比美国疾病控制与预防中心(CDC)流感监测系统的报告提前1-2周发出警告[15]. 这提供了初步证据,表明在线监测可以比人工监测更早地发现流行病。因此,搜索引擎数据已应用于其他传染病的预测,如登革热、艾滋病、淋病、手足口病和新冠肺炎,产生了更好的预测结果[16,17,18,19,20,21]. 然而,上述模型的关键词选择依赖于手动选择,并且不可能实时更新关键词。因此,它用于已知传染病的预测,而对于新兴传染病的预警则无能为力。

在这里,百度搜索索引数据被用于研究新冠肺炎的预警和预测。百度目前是中国最大的信息搜索引擎,也是全球第二大搜索引擎。在中国,许多人将百度作为首选搜索引擎,其市场覆盖率高达89.10%[22]. 截至2019年6月,中国互联网用户数量达到8.54亿,普及率为61.2%。此外,中国搜索引擎用户数量达到6.95亿[23]. 因此,本研究使用百度搜索引擎数据,检验了基于人工智能方法的搜索引擎监控,以早期检测新冠肺炎。该研究还调查了使用异常查询频率作为疫情预警信号和预测新病例数量的可能性。

方法

数据来源

确诊的新冠肺炎病例数据来自中国国家卫生委员会发布的中国疾病预防控制中心监测数据[24]. 时间范围为2019年12月18日至2020年2月11日。百度搜索引擎对中国所有地区的查询数据均来自百度搜索索引。总共选择了32个关键词来描述传染病、综合征、病原体和潜在宿主、保护措施和事件等方面。根据所选关键词对新冠肺炎的特异性,将其分为三组。15个关键词是通用的(在SARS之前存在):“流行病”(D)、“口罩”(M)、“流感”(D)、“禽流感”(D)、“发烧”(S)、“咳嗽”(S)、“疲劳”(S)、“肌肉酸痛”(S)、“呼吸急促”(S)、“呼吸窘迫”(S)、“喉咙痛”(S)、“干咳”(S)、“呼吸不畅”(S)、“ARDS”(急性呼吸窘迫综合征,D)和“腹泻”(S)。共有八个特定关键词(SARS后存在):“蝙蝠”(P)、“集群性肺炎”(I)、“野生动物”(P”)、“SARS”(D)、“不明原因肺炎”(D,I)、”不明原因发热”(S,I),“非典型肺炎”(D)和“冠状病毒”(P。最后一组包含九个高度特定的关键词(新冠肺炎之后存在):“新型冠状病毒肺炎”(D)、“新型冠病毒保护措施”(D,M)、“新冠状病毒”(P)、“武汉疫情”(I)、“文量理”(I(I)和“武汉华南海鲜市场”(I)(附加文件1:表S1)。作为一个独立的测试数据集,我们还收集了2020年5月30日至7月30日期间百度搜索索引中关键字的查询量,北京新发地疫情期间的2020年以及北京市疾病预防控制中心发布的北京新发地疫情新冠肺炎确诊病例数)。

选择模型构造

数据预处理

由于中国不同城市的情况不同,我们首先通过汇总同一省份城市的查询频率和每日确认案例,将数据合并到该省。我们认为不同省份的发展程度会影响人们的搜索习惯。为了平衡不同省份,我们设计了一个标准化的搜索频率,将每个省份的查询频率除以标准化的人均国内生产总值。随后,通过划分标准化人群,对每日确诊病例进行标准化。将2020年1月24日至29日的数据分割为图卷积网络(GCN)模型的训练集,其余数据作为测试集。删除了所有具体查询词(包括新型冠状病毒、武汉、李文良、新型冠状菌肺炎、武汉疫情、SARS、新型冠病毒肺炎防护措施、新型冠脉病毒防护措施、武汉华南海鲜市场、武汉海鲜市场),以及“疫情”、“口罩”、“流感”等11个关键词“禽流感”、“蝙蝠”、“聚集性肺炎”、“野生动物”、“非典”、“不明原因肺炎”和“冠状病毒”被用于构建GCN模型。

GCN模型

图卷积网络(GCN)引入了一种专为图设计的卷积组件,其中顶点可以有不同于固定网格的不同数量的邻居。关键字选择的框架,包括数据预处理、数据集分割、模型构建和特征分析,如图所示1.

图1
图1

关键词选择框架,包括数据预处理、数据集分割、模型构建和特征分析。根据各省的人口和国内生产总值数据筛选和标准化特定搜索词。然后,将标准化数据表示为具有余弦相似性大于0.9的节点之间连接的图。这些图被分成对应于截至2020年1月29日的搜索引擎数据的训练集(用于训练特征学习模型)和验证集(仅用于验证特征学习模型的性能)。采用图卷积网络(GCN)模型作为特征学习模型,学习搜索数据与疫情之间的关系。在验证了GCN模型之后,通过依次分割图中的每个节点并评估其对结果的影响来分解搜索词的重要性

GCN旨在了解一个标准化的每日确诊病例。使用带有平均聚合器的GraphSAGE嵌入节点并提取图形特征,如下所示:

$$h_v^k\leftarrow W\cdot平均值\left({\left\{h_v ^{k-1}}\right\}\bigcup{\left,{h_u^{k-1},对于所有u在N\ left(v\ right)}\rift\}}\right中)$$
(1)

哪里\(W \)是权重矩阵,\(左侧(右侧))指示从焦点节点的邻域采样的节点集\(v\)、和\(hv^{k-1}\)表示层的嵌入\(k-1)焦点节点的\(v\)\(h_u^{k-1}\).何时\(k=0),\(hv^0)已设置为节点功能\(x_v\)在输入图形中。

然后使用ReLU功能激活这些功能。将两个这样的卷积层堆叠起来,并对输出进行平均,以使特征标准化,如下所示:

$$h_g=\frac{1}{\left|V\right|}\sum\limits_{V\在V}h_V中$$
(2)

哪里\(五)表示节点集。输出最终连接到包含两个完整连接层的MLP层,使用ReLU函数将输入大小减半。作为回归任务,最后一个完整连接层将输出特征大小减少了1。均方误差函数被计算为损失函数:

$${\text{MSE}}=\frac{{\sum_{i=1}^n(y_i-\hat{y} _ i)^2}}{n}$$
(3)

Adam优化器用于训练模型。学习率设置为0.001,批次大小设置为128。该模型经过80个时期的训练,以充分学习数据。

图形表示

以图表的形式表示了每个省的每日数据。每个查询词在图中表示为一个节点,相应的标准化查询频率被设置为节点属性。我们首先使用ERNIE 1.0预处理语言模型将每个查询词嵌入到768大小的向量中。计算每对向量之间的余弦相似性,以测量它们的相关性。

$$\cos\theta_{i,j}=\frac{v_i\cdotv_j}{{left|{v_i}\right|\cdot\left|}$$
(4)

然后,余弦相似性>0.9的节点通过边连接。每个图表对应一个标准化的每日确诊病例。

功能重要性

使用事后解释方法量化特征重要性,并在疫情爆发时发现常用词。首先,我们构建了一个包含与所有查询词对应的节点的图:

$$G_{total}=\left({Node,Edge}\right)$$
(5)

哪里\(N_w\)表示搜索词的总索引数。

每次我们选择一个单词并通过删除节点和剪切连接它的边将其从原始图形中删除:

N_w中的$$G_i=\bigcup\limits_{j\nei}{\left({Node_j,Edge_j}\right),\,\,}j\$$
(6)

在选择所有单词之前,我们获得了一个图集,其大小等于查询单词集的大小。然后,将图形集与原始图形一起输入到模型中,并从原始图形输出中减去图形集中的每个输出:

$$Imp_i=MLP\左({h_{G_{total}}\右)-MLP(h_{G_i})$$
(7)

根据这种差异,对所有单词的重要性进行排序,以判断每个单词的查询外观与疫情的相关性。

预测模型构建

使用多元线性回归模型作为每日新病例数和每日关键字查询频率的定量模型(等式。8),使用以下公式:

$$Y_{\左({t+j}\右)}=\beta_0+\beta_1X_{1(t)}+\beta _2 X_{2(t){+\betab_3 X_{3(t)},\,\,j\in\left\{0,\ldots,14}\right\}$$
(8)

哪里Y(Y)(t+j)表示第t+j天新病例的数据X(X)1(t) 、……和X(X)(t) 表示第t天3个关键字的查询量;这些关键词是“冠状病毒”、“口罩”和“流行病”。β0, …,β在等式中(8)表示从模型估计中获得的变量的系数。采用最小二乘法对参数进行了优化。决定系数(R(右)2)用于评估预测模型。

结果

自动选择查询关键字

使用GCN模型自动选择搜索引擎关键词。我们使用训练集训练GCN模型,然后使用测试集中的标准化确认人群预测情况。预测趋势与真实发展曲线高度一致,平均绝对误差为81.65,这证实了我们模型的性能。然后,计算单词的重要性,以确定每个单词与疫情的相关性(附加文件2:图S1A、B)。“流行病”、“冠状病毒”和“面具”三个关键词的重要性值为正(分别为47.43、19.72和8.76),其他所有单词的重要性值均为负。

关键词选择的相关性分析

对关键词的查询频率和每日新增病例数进行Spearman相关分析。上述三个关键词的全国查询量与每日新增案例数的相关系数分别为0.96、0.94和0.89。三个关键词的全国累计查询频率与每日新增病例数高度相关,相关系数为0.96(P(P) < 0.01). 在湖北省,相关系数为0.87(P(P) < 0.01). 武汉市的系数为0.80(P(P) < 0.01)(图2).

图2
图2

查询量与中国、湖北省和武汉市每日新病例数的相关性。(A类)三个关键词的全国查询频率与每日新案例数的相关性。(B类)在湖北省,查询频率与每日新增病例数的相关性。(C类)在武汉市,查询频率与每日新增病例数的相关性

城市间搜索引擎检索频率的相关性分析

关键词查询数量(百万人)主要集中在中国东部经济发达城市。第一次报告病例后,查询量呈指数级增长(P(P) < 0.05). 然而,在第一例报告前后,不同城市之间的查询量构成比没有显著变化(图A) ●●●●。此外,我们还分析了搜索引擎查询量与距离之间的关系。结果表明,搜索引擎查询量的相关性随着城市距离的增加而缓慢下降;然而,当两个城市之间的距离小于4000公里时,搜索引擎的查询量与城市之间距离的相关性仍然呈现出较高的相关性(皮尔逊系数>0.90)(图B) ●●●●。这些结果表明,查询频率与城市之间的距离完全无关。此外,城市之间查询关键词的频率也有很高的一致性。

图3
图3

查询频率与城市之间距离的关系。(A类)第一例病例报告前后城市百万人口查询频率的比较。(B类)搜索引擎查询频率的相关性与城市距离的关系

基于查询量的新型冠状病毒肺炎预警信号检测

2019年12月31日,根据三个关键词的数量,查询量出现了明显的峰值(是正常量的3.05倍)(图2A–C)。此外,当天全国查询量的17.5%来自湖北省,其中51.5%来自武汉市。因此,当天异常的查询量可能是疫情的预警信号。这一发现表明,查询频率可以快速反映突发公共卫生事件的状态,特别是在疫情爆发的早期阶段。

与前一天相比,对当天32个关键字的查询量的进一步分析显示在附加文件中1:表S1。关键字的查询倍数是2019年12月31日的量与2019年11月30日的量之比。对于12个关键词,查询倍数>2。对于三个关键词,超过100:“武汉疫情”622倍;“不明原因肺炎”321次;和“武汉海鲜市场”241次。其中三人(100%,3/3)都与事件有关,其中一人也与传染病有关。查询量大幅增加的其他六个关键词分别是“武汉华南海鲜市场”(93倍)、“新型冠状病毒”(49倍)、《非典》(46倍)、‘文量力’(10倍)、’冠状病毒’(10次)和‘丛集性肺炎’(从0增加到8);其中3人(50%,3/6)与事件有关。对于其他三个关键字,查询量至少增加了2倍:“流行病”(4倍)、“武汉”(2倍)和“口罩”(2次);其中1例(33%,1/3)与事件有关。对于其他20个关键字,查询量增加了<2倍;这些关键词中有12个(60%,12/20)与症状相关,只有2个(10%,2/20)与事件相关。

使用查询量预测新冠肺炎日新增病例数

使用三个最佳关键词(“流行病”、“口罩”和“冠状病毒”)预测每日新病例数和未来潜在流行病。为了构建关键词查询频率与新案例日数之间关系的定量模型,我们对0–14天时滞的新案例的查询量和日数进行了相关分析。相关系数分别为0.93、0.93、091、0.88、0.85、0.83、0.82、0.80、0.81、0.84、0.81,0.75、0.72、0.68和0.60,滞后时间为0-14天;随着查询和病例报告间隔的增加,相关性逐渐降低。

构建了一个基于关键词查询频率的数学模型,以预测时滞为0–14天的新病例数。通过对关键词查询频率和报告案例数之间的关系进行多元线性回归,我们获得了系数β0–β4.决定系数R(右)2在0–14天的时滞内,分别为0.88、0.88、084、0.77、0.77,0.75、0.73、0.73,0.76,0.76 0.72,0.66,0.70,0.72和0.63(图4); 这表明,基于查询频率的模型预测了具有2天滞后的新病例数,确定系数>0.8。上述结果表明,该模型可以利用搜索引擎数据准确预测未来2天的新增病例数,这比中国国家卫生委员会发布的CDC监测数据要早(图4A–H)。

图4
图4

使用搜索引擎查询量预测新案例的数量。(A类)–(H(H))对应于使用0–7天滞后的查询量对每日新增病例数的预测

北京新发地疫情的核实

收集北京新发地疫情期间三个关键词(“疫情”、“口罩”和“冠状病毒”)的查询量和确诊的新冠肺炎病例数作为测试数据。我们发现,这三个关键词的查询频率与北京新发地疫情每日确诊病例数高度相关,皮尔逊相关系数为0.84(图5A) ●●●●。这三个关键词的查询量从2020年6月11日的1677万快速增长到2020年6月月13日的2847万(图5A) ,表示可以使用我们选择的关键字检测到预警信号。我们使用三个选定关键字(R2 = 0.80)(图5B) ●●●●。

图5
图5

查询量和北京新发地疫情期间的每日新增病例数。(A类)北京新发地疫情中查询量与每日新增病例数的相关性。(B类)基于搜索引擎查询量预测北京新发地疫情期间每日新增病例数

讨论

迄今为止,在所有研究中,基于搜索引擎的传染病预警和预测监测一直基于统计方法,关键字的选择主要取决于人类经验。因此,它无法实现搜索引擎关键词的自动过滤和实时更新,导致对新发传染病的预警无能为力。在本研究中,我们开发了一种基于搜索引擎的人工智能监测方法,可以减少人工维护的工作数量,提高新发传染病的预警能力。在实际工作中,用于预警的关键词将根据检索频率和相关性自动更新,并快速识别异常信号,用于新发传染病的预警。

2019年12月31日,基于我们选择的关键词,搜索量突然增加,针对新型冠状病毒肺炎的关键词,如“武汉疫情”、“武汉海鲜市场”和“不明病因/原因肺炎(PUE)”的查询量急剧增加(增加了10-600倍),这可能引发了“口罩”、“禽流感”和“流行病”等通用关键词数量的增加,从而引发了预警信号。我们发现,2019年12月31日,在武汉正式确认疫情爆发前,搜索引擎数据显示疫情异常增加,这可能是由于武汉发现不明原因肺炎病例的在线信息所致[25,26]. 当天,“武汉疫情”的查询量增加了622倍,“PUE”增加了321倍,“武汉海鲜市场”增加了241倍。随着这些信息在互联网上的传播,相关查询量激增,国家卫生委员会的专家团队开始在武汉进行调查。我们的结果表明,来自搜索引擎的预警信号通常从特殊事件的关键字开始,然后迅速传播到一般关键字。

将构建的模型作为独立的测试数据集用于北京新发地疫情,成功预测了未来几天的每日病例数,并在北京新发迪疫情期间检测到早期信号。我们的研究表明,我们的模型能够检测到预警信号,并准确快速地预测每日新病例数。基于搜索引擎的方法比依赖实验室检测或病例报告的传统传染病监测系统更快。因此,我们建议,在筛查能力不足以获得准确和及时的病例数信息的国家,基于查询量的潜在病例数预测将是估计传染病趋势的有力工具,尤其是在疫情爆发的早期阶段。总之,我们的研究首次使用人工智能方法建立了基于搜索引擎的监测,用于早期检测新冠肺炎疫情。该模型实现了搜索引擎关键词的自动过滤和实时更新,能够有效检测新发传染病的早期信号。

结论

该研究首次使用人工智能方法建立了基于搜索引擎的监测,用于早期检测新冠肺炎疫情。该模型实现了搜索引擎关键词的自动过滤和实时更新,能够有效检测新发传染病的早期信号。

限制

我们仅以一个与新冠肺炎相关的查询为例,展示了如何选择和优化搜索关键字,以便在疫情早期及时检测和预测。本研究选择的32个关键词可能不包括新冠肺炎的所有相关敏感关键词;一些重要的关键字将不可避免地被省略。本研究中的一些搜索关键字并非针对新冠肺炎,可能适用于其他各种传染病,因此可能会产生新冠肺炎的假阳性查询结果。

数据和材料的可用性

搜索引擎查询数据可从百度获得。限制适用于这些数据集的可用性,这些数据集是根据当前研究的许可证使用的,因此不公开可用。然而,这些数据集可根据作者的合理要求和百度的相应许可提供。

工具书类

  1. 世界卫生组织。WHO冠状病毒(COVID-19)控制面板。https://covid19.who.int/。于2022年6月12日访问。

  2. 库马尔N,古普塔M,古普塔D,蒂瓦里S。使用X光胸片检测新型冠状病毒肺炎患者的新型深度转移学习模型。J环境智能人性化计算。2023;14(1):469–78.

    第条 谷歌学者 

  3. Kaur M、Kumar V、Yadav V、Singh D、Kumar N、Das NN。基于Metaeuristic的胸部X光图像深度COVID-19筛查模型。健康工程杂志2021;2021:8829829.

    第条 谷歌学者 

  4. Kumar N,Hashmi A,Gupta M,Kundu A。根据CXR和CT扫描图像自动诊断与Covid-19相关的肺炎。《工程技术应用科学研究》2022;12(1):7993–7.

    第条 谷歌学者 

  5. Kumar N,Aggarwal D.基于学习的重点网络爬虫。IETE J Res.2023;69(4):2037–45.

    第条 谷歌学者 

  6. Narayan Das N,Kumar N,Kaur M,Kumar V,Singh D。胸片中基于自动深度转移学习的新冠肺炎感染检测方法。Ing Rech生物识别。2022;43(2):114–9.

    谷歌学者 

  7. Kumar N、Narayan Das N、Gupta D、GuptaK、Bindra J.使用机器学习模型进行高效的自动化疾病诊断。健康工程杂志2021;2021:9983652.

    第条 谷歌学者 

  8. Lu FS、Hattab MW、Clemente CL、Biggerstaff M、Santilana M。利用基于互联网的数据和网络方法,改善美国州级流感疫情的即时报道。国家通讯社。2019;10(1):147.

    第条 谷歌学者 

  9. Nsoesie EO、Kluberg SA、Mekaru SR、Majumder MS、Khan K、Hay SI、Brownstein JS。在大规模集会活动中监测传染病的新数字技术。临床微生物感染。2015;21(2):134–40.

    第条 谷歌学者 

  10. Milinovich GJ、Williams GM、Clements AC、Hu W.基于互联网的监测系统,用于监测新发传染病。柳叶刀感染疾病。2014;14(2):160–8.

    第条 谷歌学者 

  11. Madoff LC,Li A.基于网络的人类、动物和植物疾病监测系统。微生物光谱。2014;2(1):OH-0015–2012。

  12. Milinovich GJ、Magalháes RJS、Hu W.大数据在埃博拉和其他新兴传染病早期检测中的作用。柳叶刀球健康。2015;3(1):e20–1。

    第条 谷歌学者 

  13. 科学。人工智能系统旨在嗅出新冠肺炎疫情的迹象。https://www.sciencemag.org/news/2020/05/artificial-intelligence-systems-aim-sniff-out-signs-covid-19-outbreaks。于2022年6月12日访问。

  14. Polgreen PM、Chen Y、Pennock DM、Nelson FD、Weinstein RA。使用互联网搜索进行流感监测。临床感染疾病。2008;47(11):1443–8.

    第条 谷歌学者 

  15. Ginsberg J、Mohebbi MH、Patel RS、Brammer L、Smolinski MS、Brilliant L。使用搜索引擎查询数据检测流感疫情。自然。2009;457(7232):1012–4.

    第条 谷歌学者 

  16. Gluskin RT、Johansson MA、Santillana M、Brownstein JS。基于互联网的登革热查询数据评估:谷歌登革热趋势。公共科学图书馆(PLoS)负面特罗普疾病。2014;8(2):e2713。

    第条 谷歌学者 

  17. Ling R,Lee J.使用谷歌搜索活动对加拿大艾滋病毒和艾滋病、中风、结直肠癌和大麻使用情况进行疾病监测和健康运动评估:一项回顾性观察研究。JMIR公共卫生监督。2016;2(2):e156。

    第条 谷歌学者 

  18. Xiao Q,Liu H,Feldman M.通过百度查询跟踪和预测中国手足口病(HFMD)的流行。流行病感染。2017;145(8):1699–707.

    第条 谷歌学者 

  19. Senecal C、Widmer RJ、Lerman LO和Lerman A.搜索引擎查询胸痛与冠心病流行病学的关联。JAMA Cardiol公司。2018;3(12):1218–21.

    第条 谷歌学者 

  20. Ben S,Xin J,Chen S,Jiang Y,Yuan Q,Su L,Christiani DC,Zhang Z,Du M,Wang M。与胃肠道症状相关的全球互联网搜索趋势预测了区域性新冠肺炎疫情。J感染。2022;84(1):56–63.

    第条 谷歌学者 

  21. Rajan A、Sharaf R、Brown RS、Sharaiha RZ、Lebwohl B、Mahadev S.美国对COVID-19诊断胃肠道症状的搜索查询兴趣协会:信息人类学研究。JMIR公共卫生监督。2020;6(3):e19354。

    第条 谷歌学者 

  22. 黄S,刘坤,江J.基于互联网搜索引擎的传染病监测与预测研究进展。疾病监测。2018;33(11):945–9.

    谷歌学者 

  23. 第44次中国互联网发展统计报告。http://www.cac.gov.cn/2019-08/30/c_1124938750.htm。于2020年3月15日访问。

  24. 中华人民共和国国家卫生委员会。http://www.nhc.gov.cn/。2020年2月25日访问。

  25. CNTV。http://news.cctv.com/2020/01/09/ARTIwHRH1FDONdbpuIwSucm4200109.shtml。2020年3月24日查阅。新闻。

  26. 新浪网。http://finance.sina.com.cn/china/gncj/2020-03-19/doc-iimxyqwa1748367.shtml。2020年3月19日查阅。新闻。

下载参考资料

鸣谢

没有。

基金

这项工作得到了国家重点研发计划(批准号:2021YFC2302004)、北京科技规划项目(批准号为Z201100005420010)和国家自然科学基金(批准号82073616)的资助。

作者信息

作者和附属机构

作者

贡献

H.S、H.T、Z.L和R.H设计了实验。L.W、H.C、S.Q、Y.L、M.Y和X.D收集并分析了数据。L·W和H·S撰写了主要的手稿文本。所有作者都审阅了手稿。

通讯作者

与的通信李振军,郝荣章,田怀玉宋洪斌.

道德声明

伦理批准和参与同意

不适用。

出版同意书

不适用。

竞争性利益

作者声明,他们没有相互竞争的利益。

其他信息

出版说明

Springer Nature在公布的地图和机构关联中的管辖权主张方面保持中立。

补充信息

附加文件1。

表S1。2019年12月30日~2019年12月31日,32个关键词的查询量与冠状病毒新病例数及其查询倍数(查询量增加)的相关系数。

附加文件2。

图S1。图卷积网络模型的验证结果和搜索单词的重要性。(A类)验证集中2020年1月30日至2020年2月11日各省人口中冠状病毒病确诊病例的标准化汇总比例。(B类)已筛选搜索词的排序词重要性。“流行病”、“冠状病毒”和“口罩”具有积极的重要性,表明与疾病的传播进程密切相关。

权利和权限

开放式访问本文是根据Creative Commons Attribution 4.0国际许可证授权的,该许可证允许以任何媒体或格式使用、共享、改编、分发和复制,只要您对原始作者和来源给予适当的信任,提供指向Creative Commons许可证的链接,并指出是否进行了更改。本文中的图像或其他第三方材料包含在文章的Creative Commons许可证中,除非材料的信用额度中另有说明。如果材料未包含在文章的知识共享许可证中,并且您的预期用途不受法定法规允许或超过了允许的用途,则您需要直接获得版权持有人的许可。要查看此许可证的副本,请访问http://creativecommons.org/licenses/by/4.0/.

转载和许可

关于本文

检查更新。通过CrossMark验证货币和真实性

引用这篇文章

Wang,L.、Liu,Y.、Chen,H。等。使用人工智能进行基于搜索引擎的监测,以早期检测冠状病毒疫情。J大数据 10, 169 (2023). https://doi.org/10.1186/s40537-023-00847-9

下载引文

  • 收到:

  • 认可的:

  • 出版:

  • 内政部:https://doi.org/10.1186/s40537-023-00847-9

关键词