数据预处理
由于中国不同城市的情况不同,我们首先通过汇总同一省份城市的查询频率和每日确认案例,将数据合并到该省。我们认为不同省份的发展程度会影响人们的搜索习惯。为了平衡不同省份,我们设计了一个标准化的搜索频率,将每个省份的查询频率除以标准化的人均国内生产总值。随后,通过划分标准化人群,对每日确诊病例进行标准化。将2020年1月24日至29日的数据分割为图卷积网络(GCN)模型的训练集,其余数据作为测试集。删除了所有具体查询词(包括新型冠状病毒、武汉、李文良、新型冠状菌肺炎、武汉疫情、SARS、新型冠病毒肺炎防护措施、新型冠脉病毒防护措施、武汉华南海鲜市场、武汉海鲜市场),以及“疫情”、“口罩”、“流感”等11个关键词“禽流感”、“蝙蝠”、“聚集性肺炎”、“野生动物”、“非典”、“不明原因肺炎”和“冠状病毒”被用于构建GCN模型。
GCN模型
图卷积网络(GCN)引入了一种专为图设计的卷积组件,其中顶点可以有不同于固定网格的不同数量的邻居。关键字选择的框架,包括数据预处理、数据集分割、模型构建和特征分析,如图所示1.
GCN旨在了解一个标准化的每日确诊病例。使用带有平均聚合器的GraphSAGE嵌入节点并提取图形特征,如下所示:
$$h_v^k\leftarrow W\cdot平均值\left({\left\{h_v ^{k-1}}\right\}\bigcup{\left,{h_u^{k-1},对于所有u在N\ left(v\ right)}\rift\}}\right中)$$
(1)
哪里\(W \)是权重矩阵,\(左侧(右侧))指示从焦点节点的邻域采样的节点集\(v\)、和\(hv^{k-1}\)表示层的嵌入\(k-1)焦点节点的\(v\)与\(h_u^{k-1}\).何时\(k=0),\(hv^0)已设置为节点功能\(x_v\)在输入图形中。
然后使用ReLU功能激活这些功能。将两个这样的卷积层堆叠起来,并对输出进行平均,以使特征标准化,如下所示:
$$h_g=\frac{1}{\left|V\right|}\sum\limits_{V\在V}h_V中$$
(2)
哪里\(五)表示节点集。输出最终连接到包含两个完整连接层的MLP层,使用ReLU函数将输入大小减半。作为回归任务,最后一个完整连接层将输出特征大小减少了1。均方误差函数被计算为损失函数:
$${\text{MSE}}=\frac{{\sum_{i=1}^n(y_i-\hat{y} _ i)^2}}{n}$$
(3)
Adam优化器用于训练模型。学习率设置为0.001,批次大小设置为128。该模型经过80个时期的训练,以充分学习数据。
图形表示
以图表的形式表示了每个省的每日数据。每个查询词在图中表示为一个节点,相应的标准化查询频率被设置为节点属性。我们首先使用ERNIE 1.0预处理语言模型将每个查询词嵌入到768大小的向量中。计算每对向量之间的余弦相似性,以测量它们的相关性。
$$\cos\theta_{i,j}=\frac{v_i\cdotv_j}{{left|{v_i}\right|\cdot\left|}$$
(4)
然后,余弦相似性>0.9的节点通过边连接。每个图表对应一个标准化的每日确诊病例。
功能重要性
使用事后解释方法量化特征重要性,并在疫情爆发时发现常用词。首先,我们构建了一个包含与所有查询词对应的节点的图:
$$G_{total}=\left({Node,Edge}\right)$$
(5)
哪里\(N_w\)表示搜索词的总索引数。
每次我们选择一个单词并通过删除节点和剪切连接它的边将其从原始图形中删除:
N_w中的$$G_i=\bigcup\limits_{j\nei}{\left({Node_j,Edge_j}\right),\,\,}j\$$
(6)
在选择所有单词之前,我们获得了一个图集,其大小等于查询单词集的大小。然后,将图形集与原始图形一起输入到模型中,并从原始图形输出中减去图形集中的每个输出:
$$Imp_i=MLP\左({h_{G_{total}}\右)-MLP(h_{G_i})$$
(7)
根据这种差异,对所有单词的重要性进行排序,以判断每个单词的查询外观与疫情的相关性。