跳到主要内容

澳大利亚twitter花粉过敏监测深度学习

摘要

背景

本文介绍了一种基于深度学习的方法,用于实时检测和洞察澳大利亚最常见的慢性病之一——花粉过敏。流行的社交媒体平台用于数据收集,作为公共卫生监测的成本效益高且不引人注目的替代方案,以补充传统的基于调查的方法。

方法

这些数据是根据预先定义的关键字(即“花粉热”或“花粉热“)从推特上提取的,持续了6个月,涵盖了澳大利亚的高花粉季节。实验中采用了以下深度学习架构:CNN、RNN、LSTM和GRU。在训练分类器时,使用了默认(Globe)和领域特定(HF)单词嵌入。为结果验证计算了标准评估指标(即准确度、精密度和召回率)。最后,进行了与天气变量的视觉关联。

结果

基于神经网络的方法能够正确识别症状和治疗的隐含提及,即使是以前从未见过的(对于嵌入300维GloVe的GRU,准确率高达87.9%)。

结论

该系统通过手动特征工程解决了传统机器学习技术的缺点,当暴露于与医学概念相关的大量非标准表达式时,这些缺点被证明是有限的。本案例研究展示了“黑盒”方法在实际问题中的应用,以及其内部工作演示,以实现健康信息领域更透明、可解释和可复制的决策。

同行评审报告

背景

介绍

根据澳大利亚卫生与福利研究所(AIHW)[1]2014年-15月,近1/5的澳大利亚人患有花粉过敏,总计450万公民,主要是工龄成年人。此外,据澳大利亚药店报告,过敏性鼻炎药物的支出在2001年至2010年间翻了一番,从每年1.078亿美元增至2.268亿美元[1]. 总体过敏反应在增加,但观察到增长的原因尚不完全清楚[2,].

社交媒体在公共卫生挖掘方面的潜力已经在之前的药物不良反应研究中得到了证明[48]、滥用抗生素[9],流感检测[1012],过敏监测[1317]尽管如此,当接触到新颖/创造性的短语、讽刺、歧义和拼写错误时,自动方法经常表现不佳[6,18,19]. 因此,传统的机器学习分类器很难正确识别非医学表达,例如“花粉热哭泣”“流鼻涕”社交媒体话语的典型代表。另一方面,大部分用户生成的内容都是商业性的或信息性的,与监视和知识发现目的无关。与疾病相关的新闻、警告、产品和服务广告可以由公共帐户和私人帐户发布,从而限制了相关元数据的可用性。一个关键的挑战在于,在干草热监测的背景下,从高度非结构化的用户生成内容中提取基本信息,以支持来自社交媒体的公共卫生监测。

深度学习作为机器学习的一个子领域出现,已经使许多自然语言处理(NLP)任务受益[20]. 从文本中学习最显著方面的能力自动消除了传统分类器依赖手动特征工程的需要。单词嵌入的进一步应用可以解释单词之间的句法和语义规则,从而提高分类性能。作为最先进的方法,公共卫生采矿领域的深度学习仍处于初级阶段。之前在英国和美国进行的社交媒体过敏监测研究使用了传统的机器学习分类器,如多项式朴素贝叶斯[13,17]或基于词汇的方法[1416]. 文献中尚未探索将深度学习应用于与Hay fever相关的用户生成内容识别和澳大利亚疾病知识发现。

花粉热的患病率和严重程度

花粉过敏,俗称干草热,会显著降低生活质量,影响身体、心理和社会功能。这些症状是由人体对吸入花粉的免疫反应引起的,导致眼睛和鼻腔慢性炎症。鼻塞通常与睡眠障碍有关,导致白天疲劳和嗜睡。在花粉季节,人们经常观察到易怒和自我意识增强,精力和警觉水平下降[21]. 干草热的中度和重度症状会严重损害儿童的学习能力,而成年人则会缺勤和生产力下降[21,22]. 根据世界过敏组织(WAO)[22],花粉热的发病率和严重程度正在增加,并将继续受到关注。

世界各地,无论是发达国家还是发展中国家,环境都在发生深刻变化[]. 空气污染加剧和全球变暖对人口的呼吸健康产生了重大影响。Ziska等人[23]据报道,近几十年来,北美豚草花粉季节的持续时间一直在增加。任何潜在的模式变化,包括花粉季节延长、过敏原强度增加或意外花粉检测,都会直接影响过敏患者的生理、心理和社会功能[22]. 个人对外部因素的反应进一步不同,这在移民率高的国家尤为严重[]. 截至2015年,澳大利亚估计常住人口(ERP)中约30%出生于海外[24].

花粉过敏症进化的不断变化和不可预测的性质要求准确及时地统计病情。传统的、基于调查的方法只涉及一小部分人口,并且会导致重大的报告延误(如果是官方政府报告,大约为1年[1]). 替代方法包括入院人数和全科医生(GP)关于花粉症病例的报告。根据在澳大利亚新南威尔士州进行的研究[25],“患者认为过敏性鼻炎是一种应该自我管理的疾病”。忽视医疗保健专业人员(HCP)和依赖非处方药可能导致服务低估统计数据。此外,药店提供的口服抗组胺药(常见的海草热药物)数据也用于指示每年的开始和旺季[1,2]. 尽管很有见地,但由于需要从全国各地的药品制造商/药店收集数据,因此没有系统地进行此类分析。最后,花粉率有助于估计过敏季节的开始和峰值。尽管如此,由于个体对特定过敏原的反应不同,实际患病率可能会有所不同。

社交媒体的过敏监测

鉴于传统过敏症监测方法的局限性,替代数据来源的重要性日益增加,以更准确地反映人群中的状况。近年来,社交媒体是一个增长迅速且持续增长的领域[6,26]. 在线平台吸引并鼓励用户讨论他们的健康问题、药物使用、副作用和替代疗法[6]. 更新内容包括不满意的一般迹象(例如。“花粉热糟透了”)具体症状描述(例如。“我的头疼死了”). 此外,据观察,个人往往更喜欢与同龄人分享他们的健康相关经验,而不是在临床研究期间,甚至是医生[27]. 因此,社交媒体已成为有价值数据的来源,越来越多地用于实时检测和知识发现[28].

此前在英国和美国进行的研究已经调查了推特用于过敏监测的潜力。De Quincey等人[15]观察到推特用户正在自我报告症状和药物,与花粉热相关的推特数量与英国皇家全科医生学院(RCGP)同年内报告的花粉热事件密切相关(r=0.97,p<0.01)。Cowie等人发表的著作中发现了另一种相关性[17],在一年的时间里,英国收集的花粉过敏相关推文数量与花粉计数模式相似,尤其是草花粉。在美国进行的这项研究也报告了类似的发现——花粉率与报道花粉热症状的推特之间有很强的相关性(第页=0.95),以及(2)花粉率和使用抗组胺药的推文(第页=0.93) [16]. Lee等人[13]进一步观察了天气条件(每日最高温度)和推特上关于过敏的对话数量之间的关系。此外,还采用了实际过敏事件的分类和提高公众意识,以及特定过敏类型的提取。在澳大利亚的一项小规模研究中,还进行了环境因素与干草热相关推文之间的相关性研究[29]发现温度、蒸发量和风对过敏发展的关键因素有较强的依赖性。

文本分类的深度学习

Gao等人[30]与传统方法相比,演示了深度学习方法如何提高非结构化癌症病理报告中多个信息提取任务的模型性能。对2505份报告的语料库进行手动注释,用于(1)主要部位(9个标签)和(2)组织学分级(4个标签)识别。测试的模型是RNN、CNN、LSTM和GRU,并实现了单词嵌入以实现单词到向量的表示。另一项研究探讨了从社交媒体中提取药物不良反应(ADR)时,领域特定词嵌入对分类性能的影响[5]. 这些数据是从推特和DailyStrength(专注于健康问题的在线支持社区)收集的,随后对总共7663篇帖子进行了注释,内容包括:(1)不良反应,(2)有益影响,(3)所患疾病,以及(4)其他症状。单词嵌入的使用使得即使是非医学表达也能在高度非正式的社交媒体流中正确识别。在ADRs相关的分类中也证明了在特定区域嵌入物开发后的性能改进[12](医学嵌入)和危机相关推文[31](危机嵌入)。前者使用双向LSTM模型检测ADR、药物实体和其他。后者使用美国有线电视新闻网(CNN)模型,在危机事件中对有用帖子和无用帖子进行二元识别。同样,CNN也成功应用于人格识别[32]、讽刺检测[33],方面提取[34]或情绪识别[35].

CNN通过卷积和最大池操作捕获最显著的n-gram信息。就NLP任务而言,RNN特别适合处理可变长度输入以及长距离单词关系[36]. 在文本分类中,中心词和远距词之间的依赖关系可能很有意义,有助于提高性能[37]. 作为RNN的变体,LSTM(长-短期记忆)可以利用短和长单词关系[37]. 与LSTM不同,GRU(门控递归单元)在每个时间步长完全暴露其内存内容,并且每当先前检测到的特征或内存内容被认为对以后使用很重要时,更新门将关闭,以在多个时间步长上携带当前内存内容[38]. 根据经验结果,GRU在CPU时间收敛方面,以及通过对选定数据集上的所有模型使用固定数量的参数进行参数更新和推广方面,都优于LSTM[39].

贡献

本研究的主要贡献如下:

  • 我们在社交媒体花粉过敏监测的背景下引入深度学习应用程序,取代当前主流的传统机器学习分类器;

  • 我们注重挑战非正式词汇,如果不解决传统的基于关键字/词汇的有限方法,就会导致低估/高估的情况;

  • 我们提出用细粒度分类代替最常见的二元分类器,将其分为4类,即与干草热相关/干草热非相关;

  • 我们用广泛的天气变量列表来丰富数据,以便识别潜在的模式,之前的研究主要集中在温度和花粉率上。

方法

研究设计

研究目标如下:

  • 推特定量和定性监测干草热的框架开发;

  • 多种深度学习体系结构对在线用户生成内容分类的评估;

  • 针对特定领域的嵌入式培训和评估,以提高准确性和性能;

  • 通过预测概率和嵌入向量调查演示内部工作;

  • 与天气变量的相关性,用于模式识别和未来预测。

高级方法框架如图所示1,具体步骤将在以下小节中详细介绍。

图1
图1

方法。数据收集、推文分类和天气关联的概念框架

数据提取

提取阶段包括以下阶段:

嵌入式开发

为了开发HF嵌入式,从流行的在线平台上搜索相关帖子和评论。考虑的来源包括:推特、YouTube和Reddit。为了仅包括与干草热相关的数据,搜索了以下关键字:“花粉热”“花粉热”“花粉过敏”就Twitter而言,需要在内容中包含预定义的关键字。至于YouTube和Reddit,从视频/帖子中提取了相关的评论/帖子,这些评论/帖子的标题中包含列表中的一个或多个关键词。总共收集了大约22000个帖子。

基于使用的数据源应用了以下web爬行方法:(i)Twitter-Twitter R包,(ii)Reddit-RedditExtractoR R包和(iii)YouTube-NVivo。使用了用于Python的Gensim库,该库提供了对Word2Vec训练算法的访问,窗口大小设置为5。为了提高结果的再现性并为未来的研究提供信息,表中给出了所实施的特定嵌入式开发方案的详细信息1.

表1嵌入开发模式

目标数据

由于本研究的目的是澳大利亚的干草热监测,因此使用以下位置的地理坐标提取了这些位置:(1)爱丽丝泉(半径=2000英里),以及(2)悉尼、墨尔本和布里斯班(半径=300英里)。鉴于如果禁用地理标记选项,准确的位置提取实际上是不可行的,因此为(1)整个澳大利亚和(2)其主要城市创建了单独的数据集。数据集1用于分类器训练,而数据集2用于推文量与特定地区天气条件的相关性。使用自定义脚本,使用R编程语言和“TwitteR”包提取数据。每隔一段时间对这些桩进行回顾性采集,参数如下:

  • 搜索词:“花粉热”“花粉热”;

  • 最大推文数:n个=1000(由于符合规定标准的职位数量有限,从未达到);

  • 自/至日期:=2018/06/01,单位=2018年12月31日,遵循每周计划;

  • 地理坐标:爱丽丝·斯普林斯(-23.698,133.880)、悉尼(-33.868,151.209)、墨尔本(-37.813,144.963)和布里斯班(-27.469,153.025)。

高精度优先于高召回率,因此搜索词的范围非常狭窄。在初步的数据探索之后,更广泛的搜索查询列表给数据集带来了过多的噪音。例如,通用术语“过敏”包括其他常见的过敏类型(即猫、花生),以及“打喷嚏”、“流鼻涕”和“流泪眼”等特定症状,通常指其他常见症状(即感冒、流感)。

在总共214天中,获得了191天的数据(89%)。由于技术问题,剩余23天的帖子没有被捕获脚注1然而,对于定量分析,缺失值被考虑在内,以确保结果的有效性。补偿方法在天气相关性小节中详细介绍,提取日历如图所示2,其中“x”表示数据收集中的差距。定性分析未受影响。

图2
图2

数据提取日历。数据收集期间,“x”表示缺少值

注释过程

两名活跃于健康信息领域的研究人员对4148个帖子(悉尼-1040,墨尔本-1928)和布里斯班-222)的完整数据集进行了注释。注解人员使用推文进行评估,如果文本不清楚,则链接到在线推文版本,其中某些常见的表情符号为推文解释提供了进一步的上下文,例如鼻子或眼泪。该方法遵循了Colditz等人概述的开展推特研究的方法学考虑[40]. 如果存在潜在分歧,要么达成共识,要么选择“无关/模糊”类。采用Cohen的kappa统计量计算了后验信度[41]考虑到偶然达成协议的可能性。取得的分数是κ=0.78,且被视为重要[42]. 出于隐私考虑,这些用户名已从帖子中删除。

Lee等人进行的研究[13]将过敏相关岗位分为实际发生的情况和提高公众意识。类似地,这些帖子被标注为信息性和非信息性,详见表2引入信息性类别划分,以允许(1)个人详细报告和(2)个人通用报告分离。第1类被进一步用于症状和/或治疗提取,而第1类和第2类被用于病情流行率估计的定量分析。非信息类包括公共广播(3)和无关内容(4)。

表2注释类

培训和测试

由于之前的研究在不同的数据集上获得了不同的性能,因此使用4种深度学习架构进行了实验。执行的预处理很少,包括删除URL、非字母数字字符和小写。在删除标点符号后,表情符号的数字表示保留下来。模型按照单词出现的顺序对单词序列进行操作,因此没有进行过多的预处理。由于单词的上下文相关表示,单词以其原始形式保留,没有词干/词缀化。“过敏”,“过敏”,“过敏原”此外,Sarker等人[6]提出了停止词对分类器性能的积极影响。为嵌入式开发实现了类比预处理步骤。

对于特征提取,采用词到向量表示是因为它能够有效地捕捉单词之间的关系,因此在文本分类任务中表现出色。此外,单词嵌入的使用自然扩展了特征集,这在小到中等数据集的情况下尤其有利。实现了两个单词的嵌入变体(1)GloVe嵌入(默认)和(2)HF嵌入(可选)。预先训练的Common Crawl 840B代币GloVe嵌入已从网站下载脚注2测试了50个维度(最小)和300个维度(最大)选项。假设训练数据大小适中,使用10次迭代和50个向量维生成HF嵌入。以前的研究[4]据报道,在训练领域特定嵌入时,50个维度的分类性能得到了改进。

在参数方面,迷你背带尺寸设置为默认值32,选择了最流行的非线性激活函数ReLU,重复单元数量设置为标准值128,并使用了Nadam优化器。这些模型经过长达50个时代的训练,并使用开源神经网络库Keras实现脚注.

最后,采用了标准的评估指标,如准确性、精确度(精确性)和召回率(完整性)。进行了5次交叉验证,训练和测试按80:20的比例进行[43]. 进一步制作了混淆矩阵,以详细检查特定类的性能。

天气相关性

至于模式调查,天气因素被叠加在6个月(2018/06/01−2018/12/31)的推特流量图上。悉尼、墨尔本和布里斯班的信息性帖子(1+2级)数量的周平均值被考虑在内。该方法遵循了Gesualdo等人先前进行的研究[16]推文的周平均值用于避免每日波动与花粉率和抗组胺药处方之间的相关性。环境数据来自气象局脚注4(BOM)-澳大利亚官方天气预报和天气雷达。提取了以下变量:最低温度[C] ,最高温度[C] ,平均温度[C] 、日照[hrs]、降雨量[mm]、蒸发[mm],相对湿度[%]、最大风速[km\h]、平均风速[km\ h]和压力(hPa)。类似地,考虑了周平均值。

如果数据收集存在差距(图2),采用了补偿方法,即给定一周内丢失1天的数据,计算剩余6天的平均值,并将其视为第7天的推特量。然后根据完整的7天记录估计周平均值。

结果

准确性评估

RNN、LSTM、CNN和GRU模型获得的精度如表所示。考虑了默认(Globe)和可选(HF)单词嵌入选项。就Globe而言,实现了最小(50)和最大(300)维度数。使用300维GloVe嵌入的GRU模型获得了最高的精度(87.9%)。针对GloVe/300和HF/50选项制定了进一步的评估指标(精度和召回),并包含在表中4.

表3准确度指标
表4精度和召回指标

分类输出

表中列出了具有相应类别、类别ID、预测概率和职位含义的示例职位5每个帖子都强调了对症状或治疗的隐含引用。官方的干草热症状列表摘自澳大利亚临床免疫与过敏学会(ASCIA)[21].

表5分类产出

此外,还生成了GloVe和HF嵌入的单词-单词共现统计形式的输出样本。6显示了与以下关键字关联度最高的前15个术语:“花粉热”,“抗组胺药”(作为最常见的干草热药物),“眼睛”“鼻子”(作为受影响最严重的身体部位)。

表6单词嵌入

误差分析

为了研究特定类别的分类性能,生成了GloVe/300和HF/50选项的混淆矩阵(图). 根据表中的输出选择性能最高的深度学习架构4即Globe/300-GRU和HF/50-CNN。给定与类相关的不同权重,细粒度性能检查有助于根据当前任务选择最合适的分类器。例如,第1类和第2类(信息性)的性能优先于第3类和第4类(非信息性)。分析的可视化格式进一步有助于结果解释。

图3
图3

混淆矩阵。各类别之间的标准化精度值。带GloVe嵌入的GRU(300尺寸)。b条带HF嵌入件的有线电视新闻网(50维)

为了更好地理解错误分类的来源,返回了不准确预测的示例以及相应的分类概率(表7). 该方法允许获得分类器混淆背后的见解,并可能重新注释错误识别的帖子,作为主动学习的一部分,以提高分类性能。

表7错误分类示例

天气相关性

对于环境因素和HF相关推特活动之间的潜在模式,生成了表示选定天气变量的周平均值的图表,以及整个6个月期间信息推特(1+2级)的周平均数。一种交互式方法,可以直观地检查悉尼、墨尔本和布里斯班的新兴相关性。图中给出了最显著的示例4式中,(a)湿度[%]和推特体积之间的反向关系,以及(b)蒸发[mm]和推特体积之间的关系。上述示例的皮尔逊相关系数如下(a)第页=−0.24,=0.009和(b)第页=0.22,=0.027,考虑到阈值<0.05[参见附加文件1]. 采用归一化程序计算推断统计量。此外,基于推特的自我报告显示了花粉热季节的开始和高峰,例如墨尔本:9月初-开始,10月和11月-高峰。

图4
图4

视觉相关性。天气状况(灰色区域)和HF相关推文量(蓝线)之间的模式。墨尔本湿度[%]与推文数量。b条蒸发量[mm]与布里斯班推文数量

讨论

深度学习方法验证

为了解决基于词汇的机器学习技术和传统机器学习技术在准确识别Hay热背景下社交媒体中的非标准表达方面的局限性,采用了深度学习方法。对于具有300维的预训练GloVe嵌入的GRU模型,实现了最大的分类精度(87.9%)。HF单词嵌入的应用并没有提高分类器的性能,这可以归因于相对适度的训练数据集大小(20k个帖子)。未来的工作将调查大规模特定领域的发展,包括来自在线健康社区的数据(例如DailyStrength)。

分类输出的第一部分(表5)分类器能够正确识别对综合征的非正式和通常隐含的引用(例如。“哭了”,“眼泪”,“嗅”,“鼻涕”),并将其归类为信息-症状(1)。仅包含以下内容的帖子“花粉热”“花粉热”关键词被考虑以确保它们与研究范围相关。此外,“新”症状(例如。“咳嗽”,“失声”)已被识别并归类为信息性症状(1)。为了一致性,“新”被定义为综合征出现在澳大利亚临床免疫学和过敏学会官方网站上[21]. 此外,与药物相关的术语从粒度级别的通用术语到(“喷洒”,“平板电脑”等),具体品牌名称(“Sudafed”,“Zyrtec”等)被视为治疗方法,证明了该方法的灵活性。尽管分类正确,但对于非常罕见的表达,如“花粉热呜咽”-0.588(水眼)或“让我彻夜未眠”0.503(睡眠障碍)。

分类输出的第二部分(表5),给出了尽管内容含混但分类准确的帖子示例。例如,广告帖子包括明显的花粉热症状,如“红鼻子”“眼睛发痒”被正确地归类为非信息营销(3),避免了进一步分析和条件流行率过高估计。

使用相对较小的训练数据集(约4000),该模型证明了其在捕捉数据集中细微规律方面的稳健性。由于缺乏对外部预定义词汇的依赖,它适合检测新出现的症状和治疗方法。深度学习消除了手动功能工程工作,促进了更自动化和系统化的方法。鉴于社交媒体数据的高噪声特性,生成文本表示的能力对于区分重要方面具有选择性,但对无关因素具有不变性是至关重要的。传统方法通常被称为“浅层处理”,仅允许表面级特征提取,这对于结构良好的文档来说是有效的,但当暴露于更具挑战性的用户生成内容时,往往会失败。因此,如果次要的和经常是潜在的细节决定了正确的课堂分配,那么就需要先进的技术。

为了更好地了解分类过程,为以下关键字生成了单词嵌入输出“花粉热”,“抗组胺药”,“眼睛”“鼻子”(表6). “花粉热”,主要是同义词(例如。“鼻炎”)、复数(例如。“过敏原”)或衍生产品(例如。“过敏”)被抓获,说明了他们的相互依赖性。通用术语“抗组胺药”与特定的干草热药物(例如。“西替利嗪”、“氯雷他定”、“兹特克”),证明在识别未事先确定的治疗方面有效。等效表达式如下“眼皮”,“鼻孔”已发现与花粉过敏最常见的身体部位有关,如眼睛和鼻子。尽管社交媒体上有丰富的语言多样性,但基于深度学习的单词嵌入系统显示了其识别概念之间联系的能力,这对于任何NLP任务都至关重要。

另一方面,HF包埋物返回的症状大多与特定器官有关(例如发痒、流涎、堵塞等),这可以被视为症状监测的信息。尽管如此,由于提取的帖子中同时出现了许多症状,因此很难区分特定症状与哪个身体部位有关。此外,嵌入输出分析可以发现有利于非正式健康相关表达挖掘。如Velardi等人所述[44],对所经历的症状的了解与描述它们的语言同等重要。最后,基于社交媒体上流行的因果语言训练的模型有助于更强大的症状驱动的而非疾病驱动的监测方法[44].

为了持续改进绩效,纳入了主动学习的概念。错误分类的帖子将与相应的预测概率一起返回,以便识别分类器混淆的来源和潜在的类细化。表中给出了错误识别的帖子样本以及简要说明7.

关于花粉热的知识发现

基于深度学习的分类可以有效地从大量流数据中提取相关信息。实时分析对于疾病监测至关重要。将帖子分为信息类和非信息类后,丢弃新闻、广告或模棱两可的内容即可准确估计流行率。对(1)详细症状/治疗与(2)一般性干草热的提及进行细粒度识别,可以从相关类别(1)中进一步了解病情严重程度。组合的类别1和2允许进行定量流行率估计。例如,墨尔本与HF相关的推文量在10月和11月达到峰值,与澳大利亚健康与福利研究所的调查结果平行[1]关于全年销售的抗组胺药批发供应。由于花粉季节的不可预测性和不断变化的模式,研究结果对花粉季节估计的季节性很有用。

至于与天气因素的相关性,在墨尔本的湿度[%]和干草热自我报告之间观察到了相反的关系。此外,在布里斯班也发现了密切的相关性,那里与HF相关的帖子的数量接近蒸发变量的模式[mm]。这可以归因于这样一个事实,即植物最有可能在晴天而不是雨天向空气中释放花粉[29]. 因此,证明了未来预测模型的概念。

结论

最先进的深度学习方法在推特的澳大利亚花粉热监测中得到了应用和验证,因为它在文本分类任务上的性能优于传统的机器学习技术。社交媒体作为数据源的基本原理是基于实时事件会立即反映在此类平台上的假设[12],显示出相对于基于时间和成本消耗的调查方法的优势。花粉过敏监测系统(PASS)的引入进一步解决了基于词典的方法的挑战,该方法依赖于预定义的词典,并且其检测新出现症状/治疗的能力有限。基于深度学习的单词嵌入方法允许捕获两种句法(例如。“过敏”,“过敏原”)和语义(例如。“花粉过敏”,'过敏性鼻炎')单词之间的关联,从而证明在高度非结构化的社交媒体流中有效。对症状和治疗以及非医学表达的隐含参考已被正确识别(准确率高达87.9%)。此外,与干草热无关的内容,如新闻或广告,也被认为是非信息性的。

总的来说,该框架包括(一)定量分析(用于流行率估计的每个时间/空间的相关职位数量)和(二)定性分析(基于文本挖掘的严重性评估)。通过对实际示例中的预测概率和嵌入权重的深入研究,可以深入了解分类器的内部工作原理。例如,制作了与HF相关关键字相关的顶级相似术语,以证明为什么?所选择的方法奏效了,即“抗组胺药”的载体包括广泛的特定药物品牌,证明适合新兴的治疗发现-为强大的花粉过敏监测系统开发提供有价值的信息。最后,该系统允许将低估/高估花粉热的风险降至最低,同时将越来越流行的社交媒体数据用于公共卫生探索目的。

数据和材料的可用性

本研究中使用的数据集可根据合理要求从通讯作者处获得。

笔记

  1. “Until date”参数不包括在该日期发布的推文,而作者并不知道这些推文(因此存在周末间隙)。自10月起,这一问题已得到解决和纠正。

  2. https://nlp.stanford.edu/projects/glove网站/

  3. https://keras.io网址/

  4. http://www.bom.gov.au/

缩写

美国存托凭证:

药物不良反应

AIHW公司:

澳大利亚健康与福利研究所

应收账:

过敏性鼻炎

ASCIA公司:

澳大利亚临床免疫学和变态反应学会

美国有线电视新闻网:

卷积神经网络

数据链接:

深度学习

企业资源规划:

估计常住人口

手套:

单词表示的全局向量

GRU公司:

门控递归单元

HCP公司:

健康专业人士

高频:

花粉热

LSTM:

长短期记忆

毫升:

机器学习

自然语言处理:

自然语言处理

注册号:

循环神经网络

世界卫生组织:

世界卫生组织

工具书类

  1. 澳大利亚卫生与福利研究所(AIHW)。过敏性鼻炎(“花粉热”)。2016https://www.aihw.gov.au/reports/chronir-respiratory-conditions/attrimission-r%hinitis-花粉热/内容物/过敏性鼻炎2019年1月30日访问。

  2. Vigo M、Hassan L、Vance W、Jay C、Brass A、Cruickshank S英国呼吸:使用经验抽样方法收集一个国家的季节性过敏症状。2017年美国医学信息协会杂志;25(1):88–92.

    第条 谷歌学者 

  3. D’Amato G、Holgate ST、Pawankar R、Ledford DK、Cecchi L、Al-Ahmad M、Al-Enezi F、Al-Muhsen S、Ansotegui I、Baena-Cagnani CE等。气象条件、气候变化、新出现的因素、哮喘和相关过敏性疾病。世界变态反应组织的声明。世界过敏组织杂志2015;8(1):1.

    谷歌学者 

  4. 夏露,王佳,范伟。一种基于深度学习的命名实体识别方法,用于健康社交媒体中的药物不良事件识别和提取。参加:智能健康国际会议。香港:施普林格出版社:2017年。第237-48页。

    谷歌学者 

  5. Nikfarjam A、Sarker A、O'connor K、Ginn R、Gonzalez G。社交媒体的药物警戒:使用带有单词嵌入聚类特征的序列标签挖掘药物不良反应提及。2015年美国医学信息协会杂志;22(3):671–81.

    谷歌学者 

  6. Sarker A,Gonzalez G.通过多中心训练检测药物不良反应的便携式自动文本分类。生物信息杂志。2015; 53:196–207.

    第条 谷歌学者 

  7. Patki A、Sarker A、Pimpalkhute P、Nikfarjam A、Ginn R、O’Connor K、Smith K、Gonzalez G。从社交媒体中挖掘药物不良反应信号:超越提取。程序BioLinkSig。2014; 2014:1–8.

    谷歌学者 

  8. Jonnagaddala J,Jue TR,Dai H-J。不良药物反应推特帖子的二进制分类。摘自:美国HI大岛生物计算太平洋研讨会社交媒体挖掘共享任务研讨会论文集。HI大岛屿:PSB:2016。第4-8页。

    谷歌学者 

  9. Scanfeld D、Scanfell V、Larson EL。通过社交网络传播健康信息:推特和抗生素。《美国传染病控制》2010;38(3):182–8.

    第条 谷歌学者 

  10. Byrd K、Mansurov A、Baysal O。挖掘推特数据用于流感检测和监测。摘自:《国际医疗系统软件工程研讨会论文集》。奥斯汀:ACM:2016。第43-9页。

    谷歌学者 

  11. Culotta A.通过分析推特信息来检测流感疫情。收录:社交媒体分析第一次研讨会论文集。华盛顿特区:ACM:2010年。第115-22页。

    谷歌学者 

  12. Wang C-K,Singh O,Tang Z-L,Dai H-J。使用递归神经网络模型对推文进行分类,以传达与流感相关的信息。摘自:2017年利用社交媒体进行数字疾病检测国际研讨会论文集(DDDSM-2017)。台北:亚洲自然语言处理联合会:2017。第33-38页。

    谷歌学者 

  13. Lee K、Agrawal A、Choudhary A。挖掘社交媒体流以改进公共卫生过敏监测。在:2015年IEEE/ACM国际社会网络分析与挖掘进展会议(ASONAM)。巴黎:IEEE:2015。第815-22页。

    谷歌学者 

  14. de Quincey E.社交媒体确定花粉热季节和药物疗效的潜力。星球@风险。2014; 2(4):293–97.

    谷歌学者 

  15. de Quincey E、Kyriacou T、Pantin T。#干草热;对英国花粉热相关推文的纵向研究。摘自:第六届数字健康国际会议论文集。蒙特利尔:ACM:2016。第85-9页。

    谷歌学者 

  16. Gesualdo F、Stilo G、D'Ambrosio A、Carloni E、Pandolfi E、Velardi P、Fiocchi A、Tozzi AE。推特可以作为过敏信息的来源吗?花粉计数与报告过敏性鼻结膜炎症状和抗组胺药物名称的推文的相关性。公共科学图书馆一号。2015; 10(7):0133706.

    第条 谷歌学者 

  17. Cowie S、Arthur R、Williams H.@choo:利用社交媒体追踪英国的花粉和花粉热。传感器。2018; 18(12):4434.

    第条 谷歌学者 

  18. Leaman R、Wojtulewicz L、Sullivan R、Skariah A、Yang J、Gonzalez G。走向互联网药物警戒:从健康相关社交网络的用户帖子中提取药物不良反应。摘自:2010年生物医学自然语言处理研讨会论文集。乌普萨拉:计算语言学协会:2010年。第117-25页。

    谷歌学者 

  19. Edwards IR,Lindquist M.药物警戒中的社交媒体和网络。药物安全。2011; 34(4):267–271.

    第条 公共医学 谷歌学者 

  20. Collobert R、Weston J、Bottou L、Karlen M、Kavukcuoglu K、Kuksa P。从头开始的自然语言处理(几乎)。J Mach Learn Res.2011;12(8月):2493–537。

    谷歌学者 

  21. 澳大利亚临床免疫与过敏学会(ASCIA)。花粉过敏。2017年。https://www.allergy.org.au/images/pcc/ASCIA_pcc_Pollen_allergy_2017.pdf。访问时间:2019年1月30日。

  22. 世界过敏组织(WAO)。2016年世界过敏周。2016https://www.worldallergy.org/UserFiles/file/WorldAllergyWeek2016FactSheet%.pdf。访问时间:2019年1月30日。

  23. Ziska L、Knowlton K、Rogers C、Dalan D、Tierney N、Elder MA、Filley W、Shropshire J、Ford LB、Hedberg C等。最近纬度变暖与北美中部豚草花粉季节的延长有关。Proc Nat科学院。2011; 108(10):4248–51.

    第条 中国科学院 公共医学 谷歌学者 

  24. 澳大利亚统计局(ABS)。移民,澳大利亚,2014-15。2016http://www.abs.gov.au/AUSSTATS/abs@.nsf/Lookup/3412.0Main+功能12014-1%5?开放文档格式。访问时间:2019年1月30日。

  25. Cvetkovski B、Kritikos V、Yan K、Bosnic-Anticevich S。告诉我你的花粉热:从患者角度对过敏性鼻炎管理进行定性调查。NPJ初级护理呼吸医学,2018年;28(1):3.

    第条 谷歌学者 

  26. Ginn R、Pimpalkhute P、Nikfarjam A、Patki A、O’Connor K、Sarker A、Smith K、Gonzalez G。药物不良反应推特挖掘:语料库和分类基准。摘自:第四届健康和生物医学文本处理资源构建和评估研讨会论文集。Citeser:2014年。

  27. Davison KP、Pennebacker JW、Dickerson SS。谁在说话?疾病支持群体的社会心理。《美国心理学》2000;55(2):205.

    第条 中国科学院 谷歌学者 

  28. Tuarob S,Tucker CS,Salathe M,Ram N.一种用于发现社交媒体消息中健康相关知识的集成异构分类方法。生物信息杂志。2014; 49:255–68.

    第条 谷歌学者 

  29. Subramani S、Michalska S、Wang H、Whittaker F、Heyward B。推特数据的文本挖掘和实时分析:澳大利亚花粉热预测案例研究。参加:国际卫生信息科学会议。凯恩斯:施普林格出版社:2018年。第134–45页。

    谷歌学者 

  30. Gao S,Young MT,Qiu JX,Yoon H-J,Christian JB,Fearn PA,Tourassi GD,Ramanthan A.癌症病理报告信息提取的分级关注网络。2017年美国医学信息协会杂志;25(3):321–30.

    第条 谷歌学者 

  31. Nguyen DT、Al Mannai KA、Joty S、Sajjad H、Imran M、Mitra P.使用卷积神经网络对社交网络上危机相关数据进行稳健分类。参加:第十一届国际AAAI网络和社交媒体会议。蒙特利尔:AAAI:2017。

    谷歌学者 

  32. Majumder N,Poria S,Gelbukh A,Cambria E.基于深度学习的文档建模,用于从文本中检测个性。IEEE智能系统。2017; 32(2):74–9.

    第条 谷歌学者 

  33. Poria S、Cambria E、Hazarika D、Vij P。使用深度卷积神经网络深入研究讽刺推文。arXiv预打印arXiv:1610.08815。2016

  34. Poria S,Cambria E,Gelbukh A.使用深度卷积神经网络进行观点挖掘的方面提取。基于知识的系统。2016; 108:42–49.

    第条 谷歌学者 

  35. Poria S、Chaturvedi I、Cambria E、Hussain A.基于卷积mkl的多模态情感识别和情感分析。在:2016年IEEE第16届国际数据挖掘会议(ICDM)。巴塞罗那:IEEE:2016。第439-48页。

    谷歌学者 

  36. Goller C,Kuchler A.通过结构反向传播学习任务相关的分布式表示。摘自:神经网络国际会议论文集(ICNN'96),第1卷。华盛顿特区:IEEE:1996。第347-52页。

    谷歌学者 

  37. Gers FA、Schmidhuber J、Cummins F。学会忘记:用lstm持续预测。第九届国际人工神经网络会议:ICANN’99。爱丁堡:IET:1999。第850-55页。

    谷歌学者 

  38. Cho K,Van Merriönboer B,Gulcehre C,Bahdanau D,Bougares F,Schwenk H,Bengio Y.使用rnn编码器-解码器学习短语表示,用于统计机器翻译。arXiv预打印arXiv:1406.1078。2014

  39. Chung J,Gulcehre C,Cho K,Bengio Y。门控递归神经网络对序列建模的实证评估。CoRR.2014;abs/1412.3555。http://arxiv.org/abs/1412.3555。https://dblp.org/rec/bib/journals/corr/ChungGCB14.

  40. Colditz JB、Chu K-H、Emery SL、Larkin CR、James AE、Welling J、Primack BA。推特健康消息的实时信息发布。美国公共卫生杂志。2018; 108(8):1009–14.

    第条 谷歌学者 

  41. Carletta J.评估分类任务的一致性:kappa统计。计算语言学。1996; 22(2):249–54.

    谷歌学者 

  42. Viera AJ、Garrett JM等,《理解观察者之间的协议:kappa统计》。Fam Med.2005;37(5):360–3.

    公共医学 谷歌学者 

  43. 塞族人O、Thapen N、Magnnis B、Hankin C、Foot V。使用哨兵实时处理社交媒体:一个综合征监测系统,其中包括健康分类的深度学习。信息处理管理。2019; 56(3):1166–84.

    第条 谷歌学者 

  44. Velardi P、Stilo G、Tozzi AE、Gesualdo F.针对精细症状监测的推特挖掘。Artif Intell Med.2014;61(3):153–63.

    第条 公共医学 谷歌学者 

下载参考资料

致谢

我们特别感谢审稿人对我们的稿件评审所投入的兴趣、时间和精力,使其最终版本有了相当大的改进。谢谢您。

基金

不适用。

作者信息

作者和附属机构

作者

贡献

JR和HW对研究进行了概念化,并对项目进行了监督。SS和JD进行了实验。SM解释了结果并撰写了手稿。所有作者阅读并批准了最终手稿。

通讯作者

与的通信桑德拉·米查尔斯卡.

道德声明

道德批准和参与同意

这项研究不是人体研究,不需要IRB批准。

出版同意书

不适用。

相互竞争的利益

作者声明,他们没有相互竞争的利益。

其他信息

出版商备注

Springer Nature在公布的地图和机构关联中的管辖权主张方面保持中立。

补充信息

附加文件1

皮尔逊系数与天气变量的相关性。

权利和权限

开放式访问本文根据Creative Commons Attribution 4.0 International License的条款分发(http://creativecommons.org/licenses/by/4.0/),它允许在任何媒体上不受限制地使用、分发和复制,前提是您对原始作者和来源给予适当的信任,提供知识共享许可的链接,并指明是否进行了更改。知识共享公共领域专用豁免(http://creativecommons.org/publicdomain/zero/1.0/)适用于本文中提供的数据,除非另有说明。

转载和许可

关于本文

检查更新。通过CrossMark验证货币和真实性

引用这篇文章

Rong,J.、Michalska,S.、Subramani,S。等。从澳大利亚推特上深入学习花粉过敏监测。BMC Med通知Decis Mak 19, 208 (2019). https://doi.org/10.1186/s12911-019-0921-x

下载引文

  • 收到:

  • 认可的:

  • 出版:

  • 内政部:https://doi.org/10.1186/s12911-019-0921-x

关键词