跳到主要内容

从社交媒体中获得历史和国际关系见解:使用推特进行时空真实世界新闻分析

摘要

社交网络的巨大发展使大量用户数据变得容易和公开,为社会行为科学的研究开辟了一个全新的领域。然而,随着社交媒体内容的数量以非常快的速度增长,从这些数据中系统地获取高级信息变得极其困难。因此,尚未探索基于社交媒体数据分析历史新闻事件的相关任务,这限制了任何类型的比较历史研究、因果关系分析以及从聚合社交媒体事件信息中提取的模式中发现知识。

在这项工作中,我们针对这一问题提出了一种使用社交媒体信息对新闻事件进行紧凑的高层表示。该表示明确包括事件的时间信息和地点信息,尤其是地缘政治实体的信息。我们称之为时空上下文事件表示我们的假设是,通过在事件表示中包含社会、时间和空间信息,我们能够从社会和地缘政治的角度分析历史世界新闻。这有助于完成与历史事件信息提取和国际关系分析相关的新信息检索任务。我们通过展示这一理念的两个应用来支持我们的主张:第一,一个名为Galean的可视化工具,用于检索和探索地缘政治和时间背景下的历史新闻事件。第二,对美国和英国媒体报道的两年推特新闻事件数据集进行定量分析,我们使用数据挖掘技术对事件表示进行探索。我们介绍了两个使用Galean进行事件探索的案例研究和该工具的用户评估,以及我们的数据挖掘实证结果的详细信息。

1介绍

随着在线社交网络的普及,它们被用作可靠和高效的新闻来源。许多用户利用社交媒体平台获取信息,尤其是突发新闻[1]. 即使是报纸和电视新闻频道等传统的大众媒体组织,现在也使用社交媒体平台来更快地通知受众。社交媒体用户不仅是这些信息的消费者,也是制作人和广播公司。来自世界各地的数百万人承担了报道和评论有新闻价值的事件的任务。特别是社交平台Twitter[2]已成为用户查找最新信息的首选来源。推特上发布的消息称为推文和限制为140个字符。当突发新闻发生时,推特用户通过生成内容和生成交互来快速做出反应。推特消息的特殊性质,以及推特大多数用户从移动设备使用该平台的事实,促进了极其快速的信息传播。

推特为社会行为分析以及比较历史研究以及许多其他社会和科学学科提供了极好的条件。特别是比较历史研究将历史事件与其他历史事件进行比较,以获得超越特定事件的一般知识[]. 迄今为止,历史研究仅限于传统档案数据和历史学家对过去事件的书面叙述。然而,不可否认的是,涌入社交媒体的有关世界事件的数据对社会具有巨大价值。证据在于围绕回溯性微博数据的科学研究越来越多。仅举几个例子:Castillo等人[4]Sakaki等人提取信息来预测社交媒体中谣言的可信度[5]使用Twitter进行实时地震探测,Pak和Paroubek[6]研究了Twitter消息作为情绪分析的语料库,以及Saravanou等人[7]使用tweet坐标查找受洪水影响的位置。

尽管从社交媒体中提取的历史信息很有用,但对这些数据进行回顾性分析的研究并不多。一般来说,社交媒体,尤其是推特,产生的流数据是不稳定的,这很可能解释了为什么现有研究只关注特定事件,如地震或预定义数据集。

我们通过引入可视化工具和新的数据挖掘任务来解决这个问题,这些任务基于真实世界新闻事件的紧凑表示。该表示旨在从社交媒体数据中总结关于真实世界事件的信息,该数据随着事件的地理和时间背景而增强。

我们的事件表示包含关于事件的两种类型的空间数据:(1)直接位置卷入的在现实世界中发生的事件中(即关于事件的消息中提到的主要位置),我们称之为主角位置和(2)社交网络用户所在的位置评论关于事件(即评论用户所在的地方),我们称之为感兴趣的地点例如,2015年4月尼泊尔发生地震时,大多数信息都提到了尼泊尔,这表明这就是事件发生的地点。因此,如果我们考虑国家层面的位置,尼泊尔可以被视为主角位置那件事。然而,发布尼泊尔消息的用户分布在世界各地,表明这一事件具有全球影响。此外,一些国家对该活动感兴趣的用户比其他国家多,例如邻国和受害者中有公民的国家。这些将被视为感兴趣的地点关于那件事。

我们的工作基于这样一种假设,即通过将时空背景添加到新闻事件中,例如主角和感兴趣的地点,以及事件发生的时间,我们可以仅基于社交媒体数据发现新信息。特别是,事件表示的应用使我们能够找到事件之间和位置之间的关系,例如:

  1. (i)

    事件相似性:

    • 基于主角的位置,即检索发生在某个位置的所有事件,或直接涉及类似位置组的事件;

    • 基于对活动感兴趣的地点,即检索在其他位置产生类似兴趣的所有事件。

  2. (ii)

    位置相似性:

    • 基于地点为主角的事件即,检索同一事件中主角的位置;

    • 基于他们对事件的兴趣也就是说,检索在相同事件中表现出相似兴趣级别的位置集。

  3. (iii)

    上述各项的任何组合。

这些相似关系和时间上下文可以帮助实现新的信息检索任务。这些任务包括:事件搜索、事件理解、地缘政治分析、国际关系分析(当考虑国家一级的地点时)、历史比较分析等。

我们的贡献:

  1. 1

    我们引入了一个名为Galean的可视化工具,用于根据我们提出的方法探索历史新闻事件集合。该工具允许用户查看事件长期演变、参与事件的地缘政治实体之间的关系以及突发模式;

  2. 2

    我们提出了一种基于从社交媒体中提取的信息的新闻事件的新型高级表示。这种表述强调新闻的地理和时间背景。

  3. 我们对两年的数据收集进行了探索性分析,其中我们使用我们提出的事件表示法来确定国家之间的联系和相似模式。

在本文中,我们描述了我们的新闻事件表示、我们的视觉探索工具以及对真实世界集合的探索性分析。我们提供了一个用户评估,证明了Galean在与时空事件探索相关的信息检索任务中的有用性。我们提供了两个真实世界新闻事件的案例研究,以说明我们工具的使用。我们展示了我们的可视化如何基于社交媒体,随着时间的推移促进手动事件或位置(地缘政治实体)跟踪。此外,我们对从推特中提取的真实世界新闻事件集合进行了实证分析。我们讨论了我们关于国际关系的主要发现,这些发现可以从完整的数据集中获得。这些关系显示了众所周知的国家之间的关系,以及反映推特社区如何受到不同事件影响的新信息。

本文的其余部分组织如下。章节2描述了与我们的方法相关的研究。章节提出了我们提出的时空上下文软件新闻事件表示。章节4描述了可视化工具和应用程序框架。第节6描述了我们使用建议的高级事件表示进行的探索性数据挖掘分析。章节7讨论了我们的发现和已知的工作局限性。最后,第节8提出了结论和未来的工作。

与以前出版的作品的关系。本文是我们在时空上下文事件表示和可视化方面初步工作的扩展版本[8,9]. 具体而言,第节扩展了Quezada等人[8]通过提供更正式和详细的事件表示描述。章节4是Pena-Araya等人在演示论文中引入的可视化的扩展[9],我们通过增加系统设计的更多细节、两个新的案例研究以及定量评估对其进行了扩展。章节6提供了一种全新的数据挖掘分析,它使用了所建议的事件抽象。此外,我们还提到了我们早期的工作,Maldonado等人[10]和Kalyanam等人[11],它也研究新闻事件,但我们在本文中不扩展这些工作。本文的其余部分都是全新的。

2相关工作

在本节中,我们讨论了我们主要研究主题的相关前期工作,这些主题是:(1)使用网络和/或社交媒体,利用时空上下文信息,对真实世界的事件进行建模,(2)定量历史事件分析,以及(3)在地理和时间范围内对新闻和事件进行可视化。我们注意到,虽然我们的工作还涉及事件检测、事件数据收集和对这些信息进行地理定位,但我们当前的贡献并不是集中在这些领域。因此,与这些主题相关的文献将根据需要在其他章节中进行讨论,以了解具体细节。

2.1使用社交媒体的事件模型

社交媒体事件分析的大多数研究都是针对特定任务创建事件模型,例如社交媒体流中事件的检测、跟踪、摘要和特征描述。然而,使用上下文信息(如时空信息)进行高级事件建模的工作并不多。

在Kamath等人的工作中[12],推特标签(即,用户在推文中添加前缀为#的用户生成字符串,作为将其与事件或主题关联的方式)在一项大规模的时空动态研究中进行了分析模因在这项工作中,哈希标签被表示为一个元组,该元组由哈希标签位置随时间变化的坐标组成。他们使用一个简单的模型来发现关于模因在社交媒体中的采用和传播的有趣见解。模因是从社交网络中出现并以病毒的方式传播的信息。然而,模因传播并不一定与其他类型的信息传播方式相似,例如关于源自网络之外的事件(即外源事件)的信息。根据这一动机,Kalyanam等人[11]研究了外生事件(在本例中是真实新闻)如何在社交媒体中传播。在他们的工作中,他们根据社交媒体帖子之间的间隔时间对新闻事件进行建模,而不考虑与事件相关的任何地理信息。他们的目标是建立由真实世界新闻事件触发的用户活动强度模型。尽管如此,在我们目前的工作中,我们也使用与Kalyanam等人相同的数据提取技术来研究真实世界的新闻[11],我们的方法不同,因为我们的事件模型不是基于tweet的到达间隔时间,而是基于社交媒体信息的地理环境。

在另一项研究中,Leetaru[13]对30年来的数字化新闻文章进行了大规模分析。作者计算了每篇文章的情感得分和地理位置。研究表明,过去的一些关键事件,如社会革命,可以通过观察情绪得分来预测。此外,作者通过分析涉及两个或两个以上国家的新闻,对国家图表进行社区检测。从这个意义上讲,我们的方法是相似的,因为我们根据国家在新闻中的共现性对其进行建模。然而,我们的工作重点是从在线社交流中自动提取信息,并创建更通用的表示。我们的重点不是分析来自正式新闻媒体的编辑内容的情绪,而是基于社交平台用户的聚合反应和意见,分析地点之间的互动。

还有其他用于事件信息建模的方法,它们来自自动文本摘要领域。查克拉巴蒂和普奈拉[14]例如,在使用推特数据描述的更广泛事件中,使用隐马尔可夫模型表示子事件。该模型基于输入数据流的突发性和主事件的单词分布来识别子事件。Quezada和Poblete提出了另一种方法[15],它关注于通过使用社交媒体帖子作为多媒体文档的替代文本来自动总结多媒体内容。Alonso等人使用了类似的方法[16],它基于社交签名文档(即指向文档的社交媒体消息的一组关键字),以增加文档信息。

值得一提的是,社交媒体上用于建模事件的其他几个功能,例如,参与事件的用户[17],公布信息的可信度[4]以及内容的潜在情感[18]等等。此外,事件的时间特征已用于任务中,例如基于社交媒体中事件提及的时间动态检测事件[19],也用于事件分类[20]. 然而,我们目前不使用这些功能。

某些研究特别侧重于检测事件并标记其相关地理位置的任务。特别是,一些工作以检测局部事件为目标[2125]、其他全球事件检测[26]以及检测关键事件[5,27]. Dong等人[28]具体来说,考虑到事件具有不同的时空尺度,提出了一种针对社交媒体的多尺度事件检测方法。这种方法侧重于检测和报告具有地理定位功能的事件。我们目前的方法与现有工作的不同之处在于,我们创建了关于真实世界事件的信息的聚合表示,产生了包括事件地理背景的高级表示,该地理背景是从社交媒体中提取的。此外,我们通过使用发布事件信息的用户的位置来丰富有关事件的信息。

Wang等人[17]基于从tweet文本中提取地理实体的可视化主题。他们没有使用这些信息来确定事件的位置,而是用于事件探索。传感器位置2[29]是一个可视化分析工具,允许用户浏览一组推文,并通过显示两种地理类型的信息对其进行建模:用户讨论主题的位置和推文中提到的位置。然而,与我们的工作不同,这些信息仅在单个tweet级别使用,而不是在事件级别。

在网络物理系统领域,事件被视为利益条件[30]在一个网络物理系统中,或者两个人在同一个物理位置同时出现[31]. 通常,事件根据系统中对象的状态建模,并考虑属性、时间和位置。Tan等人提出的工作[30]与我们自己的事件有一些相似之处,因为他们认为一个事件包含了关于系统中感兴趣的条件的多个信息(在我们的案例中是在线社交网络),包括时间和物理位置。此外,作者为他们的事件定义了不同类型的时间和地理范围,这与我们对事件影响主要区别在于,我们的方法旨在捕获社交网络用户如何以聚合方式感知复杂外部事件(如新闻事件)的高级信息。因此,我们将地缘政治划分作为聚合空间信息的单位,并将其作为地缘政治互动的代表。

尽管将时空背景添加到社交媒体数据中的想法并不新颖,但据我们所知,我们的工作是首次正式引入主角感兴趣的高级事件表示中的位置。我们方法的新颖性依赖于空间上下文概念的扩展,首先通过将真实世界的新闻与一个或多个主角的位置关联,其次通过将现实世界的新闻与其产生兴趣的位置关联。此外,我们的工作并不像以前大多数关于事件分析的工作那样专注于事件检测、分类或总结。

2.2定量历史事件分析

我们提供了关于定量历史研究应用于事件分析和社交媒体。定量历史是一种利用定量和数字工具进行历史研究的方法[32]. 据我们所知,我们的工作是首次利用社交媒体数据进行定量历史研究。

之前的工作使用数字化报纸和书籍来提取定量知识[13,33,34]. Michel等人[33]建立了一个包含500万本书籍的语料库,并使用词频对其进行分析,以调查文化趋势,并将这种研究称为“文化学”。利塔鲁[13]对30年来的数字化报纸进行了大规模研究,如前一节所述。查德福[34]使用谷歌新闻档案中的数据集预测军事冲突。

另一个研究领域涉及数字化写作和语义网。Suchanek和Preda[35]提出了“语义文化学”的研究,在这项研究中,为了整合知识库(如DBPedia[36])回答复杂的用户查询。其他研究使用了知识库和人类写作,如报纸[37,38]. Meroño-Peñuela等人提供了关于这一主题的调查[39]。

与之前的工作相比,我们的方法是第一个考虑用户生成的信息网络,例如在线社交网络,这是一个规模更大的不断增长的数据源。我们认为,社交媒体可以为新闻文章和书籍中的信息提供更多新颖的信息。用户生成的内容反映了与当前世界事件相关的社会观点和观点。这些内容是实时生成的,不需要编辑,也不依赖于正式新闻媒体的编辑路线。我们认为,这些独特的特点使社交媒体成为具有挑战性和价值的历史信息来源。我们的方法结合了社交媒体平台关于真实世界新闻的内容,以及传达这些事件重要性和范围的聚合地理信息。

2.3基于地理的社交网络数据可视化

有几种可视化工具可以显示新闻事件发生的地点或社交媒体用户评论的来源。在本节中,我们将回顾与我们的工作相关的工具,主要关注它们传递的地理信息类型以及用户可以从中获得什么。

如果事件表示为一组文档,那么理解此事件的一种方法是使用文档元数据。有几个基于这种思想的可视化工具,可以显示文档的地理分布,允许用户回答特定的问题。例如TwitInfo[40]、茉莉花[21]、和其他[4143]. 有些系统为用户提供过滤器,以选择在特定时间从特定地点发布的文档。例如,ScatterBlogs2[44]是一个用于理解推特消息的可视化分析系统,允许用户使用消息发出位置的坐标,根据地理和时间上下文交互过滤消息。此外,Bosch等人[45]创建了一个系统,旨在帮助用户使用各种来源分析社交媒体,包括在空间和时间维度上搜索和过滤消息的功能。所有这些系统都使用地图来显示消息(或用户)的地理分布,以便描述主题或事件。耳语[46]使用了一个不同的比喻:通过将事件的消息表示为向日葵的种子,用户可以通过查看人们对事件发表评论的位置或重新发布消息的位置来了解信息的传播方式。与这些以用户消息为中心的方法相比,我们的可视化工具侧重于事件的整体特征,根据需要提供详细信息(消息)。

还有用于描述事件的可视化系统。签证[47]提供了一个可视化界面来表示来自不同数据源的实体,例如ACM WWW会议记录或社交新闻网站Global Voices Online[48]. 用户可以按时间、空间和关键字搜索和筛选实体。Visgets使用实体元数据按地理位置表示实体。引线[17]是一个交互式视觉分析系统,支持探索从新闻和社交媒体自动检测到的事件。LeadLine系统提取消息中提到的位置,以识别与新闻相关的位置。事件注册表[49]是一个监控媒体来源以检测十多种语言的新闻事件的系统。它还提供了一个地图可视化,将每个事件显示为发生位置上方的气泡。我们的方法通过利用事件信息及其信息在社交媒体中的影响来补充这些系统。

传感器位置2[29]是一个web系统,显示推文中提到的位置以及发布这些推文的位置。从这个角度来看,SensePlace2是一个允许用户提问的系统:“活动涉及哪些地方,人们从哪里评论?”因此,它是与本文中介绍的工作最相似的系统。然而,正如SensePlace2的作者在他们自己的作品中所描述的那样,他们的工具的主要局限性在于它更多地关注事件的维度,而不是事件本身。我们的工作通过以下方式补充SensePlace2:(1)关注整体事件信息,(2)允许用户探索国家之间的关系,以及(3)向用户显示新闻事件是本地的还是国际的。另一个与我们类似的系统是新闻共现全球[50]它在3D地图上显示新闻媒体报道中国家的共现情况。然而,它目前没有提供将焦点放在事件上的功能。我们的工作允许用户关注事件,以了解国家之间的关系是如何随着时间的推移而建立和发展的。

总之,为了在地理-时间上下文中表示事件,大多数可视化系统要么显示讨论新闻事件的文档的地理分布,要么显示关于事件本身的信息。然而,如果用户需要检索新闻事件或提出诸如事件发生在哪里 x个 发生了吗?,世界各地的人们对这一事件的反应如何 x个 在社交媒体上?,dod事件 x个 仅对当地产生影响还是对全球产生影响?,哪些国家对该活动表现出最大兴趣 x?个?其他国家是否也参与了类似的活动 x?个?特别是,据我们所知,我们是第一个考虑到事件可能与多个地点相关,反映地缘政治实体之间互动的方法。总的来说,我们的工具是第一个允许考虑用户和事件的时间和空间上下文的历史新闻探索和检索的工具。此外,提供了手动探索大量使用社交媒体数据描述的情境化事件的方法。

事件表示法

我们引入了一种新的高级事件表示,称为时空上下文事件表示目的是从社交媒体以及这些事件引发的地点和影响之间的关系中了解真实世界的新闻。具体来说,我们定义了事件表示,以及如何使用它来研究位置之间的关系。

3.1事件表示定义

我们将事件表示为一个复杂的信息单元,它包含与某个新闻主题相关的所有可用社交媒体内容,以及其聚合的空间和地理信息。特别是,我们合并了事件发生所涉及的位置信息,以及发布事件消息的用户的位置信息。此表述仅基于在线社交网络中围绕活动的社交媒体活动,不包括任何外部信息来源。具体来说,我们定义了两种类型的空间上下文,我们称之为:

  1. 1

    主角位置活动涉及的地点,以及

  2. 2

    感兴趣的地点,这是用户对事件进行评论的位置。

例如,考虑一下关于智利和秘鲁在荷兰海牙海事纠纷的新闻[51]. 如果我们在国家一级定义地点,那么这是一个推特用户在讨论活动时主要提到三个国家的活动:智利、秘鲁和荷兰(其他提到的国家可以忽略不计)。因此,根据我们的定义,该事件被视为有三个主角位置。然而,对此次活动发表评论的用户大多位于:智利、秘鲁、阿根廷和玻利维亚。因此,该活动被认为有四个感兴趣的地点。

更正式地说,我们定义一个事件E类作为以下形式的元组:

$$E=(K,D,T,\mathbf{P},\mathbf{I})$$
(1)

哪里K(K)是一组简洁地描述新闻主题的关键词,D类是事件检测的日期,T型是一组关于此次活动的推特,由在线社交网络用户发布。此外,考虑\(L={L_{1},L_{2},\ldots,L_}\vert L\vert}\}\)是现有位置的集合。我们通过明确地将事件的空间上下文包含在向量中来增加有关事件的信息P(P),对应于主角感兴趣的事件的位置值E类。这是j个-向量的第th维P(P)包含位置的次数\(l{j}\)中的推文提到了T型另一方面j个-向量的第th维包含中的推文数T型用户在该位置发布的\(l{j}\).

使用矢量引入的信息P(P)我们可以导出事件的范围E类从两个角度,起源影响,定义如下:

  • 产地:指示事件所涉及的位置是本地、区域还是全球。我们认为事件是本地种源如果它只涉及一个主角的位置。我们认为事件是区域起源如果涉及两个或多个来自同一地区的主角位置(例如,对于国家而言,这意味着邻国或来自同一大陆脚注1). 我们认为事件是全球起源如果它涉及两个或多个主角位置,其中至少一个不来自同一区域。矢量P(P)包含给定事件的此信息E类.

  • 影响:根据有多少个地点对某事件感兴趣,指示该事件是本地的、区域的还是全球的。我们将事件视为局部影响如果它只在一个位置(即一个感兴趣的位置)生成用户的对话。我们认为事件是区域影响如果它生成来自多个感兴趣位置的用户的对话,则所有用户都来自同一区域。我们认为事件是全球影响如果它从多个感兴趣位置的用户生成对话,其中至少一个位置不来自同一区域。矢量包含给定事件的此信息E类.

例如,消息“澳大利亚确认中国“一致”w/#MH370黑匣子检测到的信号”,讨论了澳大利亚和中国参与的活动。因此,澳大利亚和中国可以被视为此次活动的主角。另一方面,美国、加拿大、哥伦比亚、英国、印度、尼日利亚、南非、印度尼西亚、澳大利亚、法国、德国、中国和意大利等国的用户广泛讨论了这一特定新闻事件。因此,这是一个全球起源(即来自不同地区的多个主角位置)和全球影响(即来自不同地区的多个感兴趣的国家)。

应该注意的是,“全球影响”可能会有不同程度的影响,这取决于有多少不同的地点对该活动感兴趣(例如,一场影响巨大的全球活动将在许多国家引发对话)。此外,位置可以是任何类型的地缘政治划分粒度,例如城市、区域、国家、大陆等。然而,对于我们的工作,我们将重点放在以下位置国家一级因此,有时我们可以互换使用“地点”和“国家”的概念。特别是,在下一节中,我们定义了位置之间关系的表示,我们在第6以获取国际关系。

3.2表示位置之间的关系

时空上下文软件事件表示允许我们提取给定事件集合位置之间的不同类型的关系。特别是,我们定义了一个主角感兴趣矢量圆周率对于某个位置\(l{j}\),这代表了其他地点对\(l{j}\)作为主角。我们定义圆周率对于\(l_{j}\)作为:

$$\mathbf{pi}(l_{j})=\bigl[w(l_}j},l_{1}),w(l_1{j},l_2})$$
(2)

哪里,

$$\begin{aligned}[b]&w(l_{j},l_{k})=f(\text{\#以}l_{j}\text{为主角的事件,其中}l_{k}\text}显示兴趣}),对于l中的所有l_{j}、l_{k},四元$$
(3)

同样,我们也定义了共同主角矢量内容提供商对于该位置\(l{j}\)如下:

$$\mathbf{cp}(l_{j})=\bigl[w'(l_}j},l_{1}),w'(l_{j{,l_2})$$
(4)

哪里

$$\begin{aligned}[b]&w'(l_{j},l_{k})=f(\text{\#of events}l_{j}\text{作为主角,其中}l_{k}\text}也是主角}),\\&\quad\对于l中的所有l_{j}、l_{k.}$$
(5)

位置之间的关系,由圆周率内容提供商,允许我们识别位置之间的相似关系,例如:

  • 产生类似兴趣的地点:圆周率我们可以根据它们在其他位置(国家)产生的兴趣级别,提取出相似的位置集(国家)。例如,可以使用k个最近的邻居或通过聚类位置圆周率向量。

  • 同一事件的主角所在地:内容提供商我们可以根据它们与其他地点(国家)的互动(即它们是同一事件的主角)来确定哪些地点(各国)相似。例如,可以使用k个最近的邻居或通过聚类位置内容提供商向量。

重量,\(w(l{j},l{k})\)\(w'(l{j},l{k})\),表示为函数\(f(x{j,k})\),其中\(x_{j,k}\)对应于#其中的事件 \(l{j}\) \(l{k}\) 相互作用特别是第节中描述的可视化工具4,用户表达了可视化绝对的两国互动的事件数量(即。,\(f(x{j,k})=). 然而,在其他情况下,分析员可能更喜欢权重来反映两个国家相互作用的事件相对于两个地点之一的事件总数的分数(例如。,\(f(x{j,k})=x{j). 在不同地点参加的活动数量非常集中在特定地点的情况下,这可能很有用。我们将在第节中探讨此类案例6,其中我们分析了第节中描述的数据集5.1这对某些国家有偏见。

我们注意到,权重也可以表示为#共条推文或者#个用户(共个)此外,建议的表示还允许我们指定利息利益主角向量,类似于圆周率内容提供商然而,我们目前并不关注这些变化。

事件位置的精确性和召回率。经验上,我们观察到,被视为事件主角的位置的准确度和召回率主要取决于一个比率,我们称之为α。对于事件E类我们定义了包含多个位置的α作为必须指向某个位置的推文的最小百分比\(l{i}\)与提及最多的位置相关\(l{\mathrm{max}}\),为了\(l{i}\)包含在P(P)向量。1显示了对α对100个事件样本中主角位置的准确度、召回率和F1指标进行了研究。精确性和召回率是根据对这些事件的主角位置的手动评估进行评估的。基于这种变化α可以设置为在F1和召回之间提供最佳权衡的值(\(α=19\%\)在我们的实验中)。

图1
图1

准确度、精密度、召回率和F1测量的多标签分数的平均值和标准偏差 α 从我们的数据集中随机选择100个事件的比率。

接下来,在第节4我们介绍了我们的可视化工具,用于使用我们刚才介绍的事件和国际关系的表示进行事件探索。此外,在第节6我们通过展示一个探索性数据分析来说明我们方法的使用,该分析基于可视化工具收集的数据,利用了上述表示所包含的信息。

4可视化工具

我们展示了Galean,这是我们的视觉分析工具原型,用于基于我们提出的地理-时间上下文感知事件表示来探索和检索新闻事件。我们介绍了系统的接口和高级架构。我们通过两个案例研究展示了我们的工具的有用性,并通过评估其在新的信息检索任务中的有效性,例如:检索以特定国家为主角的事件,以及跟踪国家间的国际关系。

4.1接口设计

Galean的界面设计基于视觉信息寻求咒语:首先概述,缩放和过滤,然后根据需要提供细节[52]. 其界面(图2)由三个主要组件组成:(i)过滤器和搜索(图2(a) ,顶部);(ii)事件列表和主地图(图中段的b和c2); 和(iii)时间表(图2(d) ,位于底部)。此工具的视频演示位于https://vimeo.com/150260355此外,仅关注智利新闻的Galean原型可在http://galean.cl。未来,国际版《加利安语》将与智利版在同一地点发售。接下来,我们详细描述接口及其组件。

图2
图2

加利亚概况。 (a)过滤器和关键字搜索选项位于顶部。在中间部分,(b)按日期和日期范围列出的事件列表,以及(c)主地图。(d)底部的时间表显示了一段时间内新闻事件的数量。

首先概述:主地图和时间线。主地图、新闻事件表和时间线提供了数千条关于新闻事件的推文的简单概述。主地图显示了地缘政治背景下的事件,表现为国家或其来源国的泡沫。如果活动地点位于国内某个特定城市,那么泡沫就位于该城市。另一方面,如果只有国家一级的信息可用于该活动,那么泡沫就存在于该国首都。每个气泡的大小代表了事件的相关性,通过与之相关的推文量来衡量。紫色气泡(图2(e) )代表起源于当地的事件(即只有一个国家是主角的事件)。绿色气泡(图2(f) )代表区域起源(即,参与活动的国家不止一个,但所有国家都对应于同一个大陆)。橙色气泡(图2(g) )代表起源于全球的活动(即,参与活动的国家不止一个,并且至少属于两个不同的大陆)。如果将光标放置在气泡上,将显示一个弹出窗口,其中包含有关事件的信息。当光标放在绿色或橙色气泡(区域或全球事件)上时,会出现链接,指示与该事件相关的其他国家。例如,在图22014年5月6日,我们在美国观察到了几起当地事件,这些事件以位于该地理区域的紫色气泡为标志。特别是,影响最大的活动位于西海岸。一些地区性活动(绿色气泡)位于韩国和文莱,一些全球性活动(橙色气泡)位于印度、中国和美国。此外,我们强调了一个将美国和尼日利亚联系在一起的全球事件,这与美国打算向尼日利亚提供援助的意图相符,以应对2014年博科圣地声称的一大批女学生遭到绑架。

在主地图的左侧,界面包含一个事件列表,这些事件由最具代表性的关键字和推文数显示。底部的时间线显示了事件随时间的总体分布,提供了每个日期事件的历史概览。它被构建为数据库中所有新闻事件的focus-plus-context组件。如果选择了日期,主地图将更新,仅显示当天的事件。地图和时间表是使用小册子实现的[53]和D3.js[54]。

缩放和过滤。如果应用了界面的顶级过滤器,则会根据这些过滤器更新映射、事件列表和时间线。事件可以通过以下方式进行筛选:(i)它们是否有一个或多个主角国家,(ii)它们的来源范围(本地、区域或全球,定义见第节)和/或(iii)通过关键字。特别是,如果选择了多个主角国家,则系统仅检索这些国家互动的事件。例如,我们可以通过选择国家过滤器中的两个国家和单词“博科”。通过手动检查时间轴中的一些日期,我们可以检索与该主题相关的几个事件。

按需详细信息:选择新闻事件。为了深入检查特定的新闻事件,用户可以点击地图中或显示的事件列表中的相应气泡。选择事件时,如图所示地图更新后,根据对活动感兴趣的国家(用户发布活动推文的国家)显示推文的地理分布。该活动的主角国家以较暗的轮廓突出显示。活动的其他信息可以在地图的右侧找到。此信息由一般事件摘要和事件推文组成,按来源分类(即常规推特帐户或新闻发布帐户),如图所示(b) ●●●●。通过选择这些不同的来源,用户可以查看事件的一组标题(即在选择新闻发布推文时),或者将人们的观点与媒体的观点进行比较。最后,如果从choropleth中选择了一个国家,那么推文将被过滤,以按时间顺序仅显示来自所选国家的推文。在该工具的未来版本中,我们希望包括一种改进的摘要技术来显示推文,例如按子主题或像ThemeRiver这样的可视化方法来组织推文[55]。

图3
图3

关于美国打算在绑架女学生期间向尼日利亚提供援助的新闻活动的详细信息(2014年5月6日)。它显示了(a)推文的地理分布,(b)按类别划分的新闻主题的附加信息,以及(c)与事件相关的推文。

特别是图显示,与女生绑架事件有关的推文大多来自美国、尼日利亚、加拿大和英国。特别是图中所示的tweet反映媒体对事件的反应。

值得一提的是,我们的事件探索工具目前既不提供事件排名,也不提供推特排名功能。该工具显示与用户定义的时空过滤器匹配的所有事件,推文按时间顺序列出。目前排名不在我们的工作范围内,但在未来的版本中解决这个问题可能会很有趣。

4.2系统架构

我们概述了生成事件表示的体系结构,以便在应用程序中使用它们。架构如图所示4,由以下三部分组成:“输入”,“事件表示生成器”、和“可视化”第一个组成部分(1)“输入”不是我们贡献的一部分,目前通过使用现有方法来实现,只要满足下面详述的要求,就可以透明地替换现有方法。另一方面,其他两个组件,(2)“事件表示生成器”和(3)“可视化”,是我们贡献的核心,因此对我们的系统至关重要。

图4
图4

框架由三部分组成:(1)输入,从社交媒体中收集与新闻事件活动相关的数据并提取其地理信息;(2) 事件表示生成器,它生成输入事件的表示;(3)可视化,它使用这些事件。我们的贡献与后两个模块有关,第一个模块可以根据任务和/或最新技术进行更换。

给定来自Twitter数据流的输入,我们指定框架的以下组件(我们建议的应用程序的特定设置在第节中详细说明5.1):

  1. 1

    输入:本模块需要两个子部分,即“新闻事件提取器”“地理上下文提取器”.

    1. (a)

      新闻事件提取器:此子模块必须输出多组推文,其中每组推文T型应该代表一个连贯的新闻主题E类特别是,集合中的大多数推文T型事件的E类必须以特定新闻事件为主题。然而,当我们使用事件的高级表示时,可以容忍一些噪音(即与事件不对应的推文)。

    2. (b)

      地理上下文提取器:此子模块将空间上下文与中的每个推文关联T型每个事件的E类由“新闻事件提取器”模块生成。因此,它必须提供电文中提到的地点的地理位置和电文作者的地理位置(即分别是主角和感兴趣的地点)。此模块必须找到中的大多数推文E类基于GPS坐标和/或文本内容正确(即具有良好的精度),以便可以对推文中提到的位置进行地理标记,也可以对用户进行地理标记(用户可以使用GPS坐标或使用自然文本设置其位置)。

  2. 2

    事件表示生成器:此组件创建事件表示E类对于“输入”模块提供的每一组tweet。特别是,此模块必须创建元组E类根据我们在第节中的定义3.1。这意味着它必须生成日期D类在第一条推文中,有一组关键字K(K)描述事件、场景T型推文和P(P)事件的位置向量。

  3. 可视化:该模块使用“事件表示生成器”模块生成的事件表示,并生成事件可视化界面。

5可视化工具验证

我们描述了可视化工具的验证,详细说明了我们的实验设置、案例研究和用户研究。

5.1经验设置

我们概述了我们用于“输入”我们架构中的模块。以下模块负责创建输入数据集,在接下来的步骤中,将从中创建事件表示。我们强调,如第节所述4.2虽然输入数据对最终应用程序的结果很重要,但我们认为事件检测和提取超出了我们当前的工作范围。实际上,这意味着未来可以用另一种方法取代提取事件的方式。然而,此时我们选择依赖于现有的方法,该方法检索一组足够全面和内聚的事件来测试我们的系统。然而,我们承认当前设置收集的事件类型存在局限性,如第节所述7,但我们认为这些局限性不会影响所建议系统结果的推广。

新闻事件提取设置。新闻事件提取模块对应于Kalyanam等人使用的模块[11],它包括一个持续的过程,定期检索关于真实世界新闻的推文。我们概述了这一过程,它产生了一组连贯的关于新闻主题的推文,尽管我们的系统能够很好地容忍一定程度的噪音。特别是,这是一个两阶段迭代过程,包括(1)新闻主题识别(即检测)和(2)事件推文提取接下来,我们对其进行了简要描述(关于该方法的更多详细信息,包括结果事件的内聚性验证,可在Kalyanam等人[11]):

  1. 1

    主题识别。这种方法不直接检测事件,而是将自己限制在主流新闻媒体帐户在推特上发布的主题。该系统定期(每小时)检索一组人在推特上发布的头条新闻种子新闻报道,必须提供。通过对循环中收集的标题集进行关联规则分析,系统输出高支持度的关键字集(\({K{1},K{2},\ldots,K{n}\})). 这些关键词构成了一个小时内多个新闻媒体在标题中发布的术语。

    在这个特定的设置中,新闻账户的种子集对应于55家著名的国际新闻媒体(具有经验证的账户)。这些账户大多来自美国和英国的英语来源,如@BreakingNews、@CNN、@NYTimes、@Jerusalem_Post、@AJEnglish、@NDTV等。脚注2

  2. 2

    数据收集。此阶段迭代获取(1)中生成的关键字集,并使用每个关键字集\(K\in\{K_{1},K_2},\ldots,K_{n}\})查询推特搜索API以检索推特T型常规用户它还包含关键字集(即评论与标题相同的新闻主题)。搜索是在检索标题的同一小时内完成的,删除了几个小时以上的推文,缩小了由于事件的时间相关性而不属于新闻主题的推文数量。原则上,每个关键字集K(K)被认为与一个独特的新闻主题有关E类然而,多个关键字集可能指的是同一个新闻主题(在一个周期内或跨多个收集周期),因此需要应用额外的步骤,在一天的时间窗口内将一组或多组推文合并为一组推文。

地理上下文提取设置。我们创建了一种方法来提取主角和感兴趣的位置,以及它们在事件中的频率E类有一组推文T型。地名(即位置名称)提取和解析阶段使用现成的地理解析器CLAVIN执行[56]. 然而,由于tweet很短,并且没有为地名消歧提供太多上下文,我们的方法通过在中添加来自其他tweet的上下文来提高地理解析器的性能E类.

详见第节,此方法依赖于一个名为α根据图,我们根据经验将其设定为19%,这是F1和召回之间的最佳权衡1也就是说,一个地点必须至少有19%的活动最频繁地点被提及,才能被视为该活动的一部分。否则,我们认为该地点实际上与事件无关。

数据集描述。使用上述数据提取技术,我们收集了2013年8月至2015年6月期间的新闻事件数据集。该数据集包括20066个新闻事件,其中包含26127624个不同用户生成的193445734条推文。脚注

我们注意到,我们的事件表示和应用程序独立于数据提取方法。因此,为了提高我们未来事件收集的代表性,可以使用偏差较小的事件提取方法,例如自动事件检测技术[57,58]和/或整合更全面的种子新闻来源,如Maldonado等人对智利新闻的分析[10]。

5.2案例研究

我们使用Galean探索两个选定的新闻事件:乌克兰危机大约从2013年11月到今天尼泊尔地震2015年4月。

乌克兰危机。这一事件与乌克兰的长期冲突相对应,乌克兰政府于2013年11月下令暂停签署《结盟协议》,双方达成了共识[59]与欧盟合作。我们使用Galean通过选择乌克兰国内过滤器和术语危机在关键字过滤器中。这只检索了发生在乌克兰的事件,其中包含带有该词的社交媒体消息危机2013年11月至2015年3月。为了了解本地、区域和全球事件的差异,我们使用Galean的过滤器来选择每个事件的范围。一开始(2013年12月),大多数事件都属于当地范围(图5(a) ),这意味着乌克兰是当时唯一的主角国家。几个月后(2014年3月),区域和全球事件开始出现,表明其他国家也卷入了危机(图5(b) 和图5(c) ),2014年5月晚些时候开始下降。更准确地说,加利安展示了36个关于乌克兰危机的地区性事件,28个以乌克兰和俄罗斯为主角的国家。另一方面,我们发现48起全球事件,其中12起仅涉及乌克兰和美国,31起涉及乌克兰、俄罗斯和美国。

图5
图5

2013年12月至2014年9月期间乌克兰危机中当地、区域和国际事件的时间表。根据我们的分析,俄罗斯和美国是卷入乌克兰危机最多的外部国家。

此外,我们跟踪了一些当地事件,特别是那些与基辅抗议演变有关的事件[60]以及其后果,例如乌克兰总理当时辞职[61](图中标记了这两个事件5(a) 作为(1)(2))。

据加利安称,俄罗斯和美国是乌克兰危机的重要参与者。因此,我们更详细地探讨了一些区域和全球事件。我们发现了一系列与俄罗斯和乌克兰相关的事件,例如,2014年3月21日,俄罗斯议会承认克里米亚为俄罗斯的一部分(图6)因此,2014年5月9日,俄罗斯总统弗拉基米尔·普京首次访问克里米亚,庆祝胜利日。这两项活动都对推特产生了巨大影响,共有7660个和11647相关推文。

图6
图6

俄罗斯议会承认克里米亚为俄罗斯的一部分(点 (4) 在图中 5 (a) )。2014年3月21日检测到事件。推文总数:7660条。

涉及美国的事件包括对俄罗斯的制裁[62]或者指责俄罗斯向乌克兰分离主义分子提供军事援助[63]. 我们使用Galean提供的过滤器查找特定事件的相关主角国家,并及时跟踪这些事件。在这个案例研究中,我们观察到国际、区域和全球范围内的事件的总体趋势是产生比本地范围内事件更大的影响。

2015年尼泊尔地震。在第二个案例研究中,我们展示了Galean如何通过查看特定事件的原因来帮助用户进行危机管理。此次搜索的起点是关于日本于2015年12月签署协议,为尼泊尔地震恢复项目提供贷款的新闻事件[64]. 我们通过选择尼泊尔作为主角国家和地震作为关键字过滤器。就范围而言,我们获得了24项本地活动、7项区域活动和18项全球活动。

关于地震在社交媒体上的影响,我们观察到,随着事件的发展,人们的兴趣也在增加,相关推文的数量以及用户表现出兴趣的国家的数量都在增加。此外,由于为余震提供了外部援助,我们发现除尼泊尔之外的其他国家之间正在形成关系,例如美国和印度。

鉴于我们的数据集只持续到2015年6月,我们无法跟踪此次事件的整个生命周期。我们数据库中存储的最近一次与尼泊尔地震有关的全球事件发生在2015年5月16日,这是美国海军陆战队直升机在帮助受害者时失踪的机组人员尸体的找回原因[65]. 然而,在清除关键字过滤器以便仅按国家使用过滤器之后,我们发现2015年6月25日发生了一次区域活动,内容是关于几个国家之间的捐赠者重建尼泊尔的活动[66]. 此次活动以尼泊尔和印度为主角,因为最大的捐款来自印度(图7). 这一特殊事件的另一个协议是日本向尼泊尔提供贷款,这实际上与启动本案例研究的最初消息相符。因此,通过从这则过去危机局势的后果新闻开始,我们能够追踪其起源和随后的事件。

图7
图7

关于尼泊尔重建捐助者秘密会议的地理分布和样本推文。2015年6月25日检测到事件。推文总数:2565条。

5.3关于可视化工具的专家反馈

我们使用Pair Analytics与六位领域专家对Galean进行了定性研究[67]. 调查了两个具体方面:(i)该工具的直观性和易用性,以及(ii)该工具是否可以用于专家在长期新闻分析中的日常工作。值得注意的是,对于本研究,我们的原型仅实现了两种来源类别:本地和国际(后来添加了区域)。国际类别包括区域和全球活动。

研究设计。六名使用者(两名男性和四名女性)参与了这项研究,年龄从25岁到35岁不等。四名参与者是记者,其他人的工作严重依赖新闻分析。他们没有得到经济补偿,自愿参加了这项研究。

在详细解释了研究目标和简短的培训课程后,参与者被要求执行三项简短任务,以测试他们是否理解了该工具(例如。,确定大多数事件发生的日期,按本地和国际影响筛选事件,并指出这些范围中包含的新闻事件最多). 在完成最初的任务后,参与者被要求执行四项更复杂的任务,旨在进行更长期的新闻分析。两项任务侧重于Galean的探索能力以及它如何呈现新闻事件随时间的演变。在这些任务中,参与者被问及以下问题查找2014年克里米亚危机的相关新闻,并描述其演变过程最后两项任务旨在观察用户是否能发现新闻事件的模式及其在推特上的传播。对于这些任务,用户必须回答以下问题与美国和智利的关系相比,美国和伊拉克的关系随着时间的推移是如何演变的?最后,他们被要求讨论使用该工具的经验。

结果。在可用性方面,所有参与者都能够在没有实质性问题的情况下完成所有任务,大多数人都认为经过实践,该工具很容易使用。参与者能够随着时间的推移跟踪新闻,尽管这并不容易,因为过程是手动的。此外,一些参与者表示他们喜欢使用该工具。特别是,与会者有兴趣探讨国际活动中各国之间的联系,以及新闻在社交媒体中的影响是如何随着时间的推移而变化的。报告了两个主要的可用性问题:对于一些参与者来说,不清楚按日期筛选是如何工作的,有些人提到,当几个新闻事件显示在同一位置时,地图上的事件会变得杂乱无章,即使应用了策略来克服气泡的重叠。

关于使用Galean完成日常任务,所有参与者都同意该工具对分析新闻很有用,但大多数记者表示,这取决于他们需要进行的分析类型。对于大多数参与者来说,了解推特上发布特定信息的来源很重要,Galean在研究时没有提供的功能。事实上,一位参与者评论道:“在不知道某一事件在新闻媒体中的重要性的情况下,我无法说它对推特有多大影响。“鉴于此反馈,在该工具的较新版本中,我们包含了发布推文的用户的姓名,以及该用户帐户是否与已知的新闻发布点对应。

与会者提到了两种主要模式。首先,一般来说,国际活动对推特的影响比本地活动更大。第二,一些国家在社交媒体上的影响力大于其他国家。例如,一位参与者说:“好吧,美国将永远在放大镜下[……]还记得那个在弗格森被杀的男孩吗?[68]每个人都知道这一点。但在国际上,谁还记得在智利圣地亚哥佩尼亚洛林被警察杀害的男孩?

5.4用户研究

我们进行了一项更广泛的用户研究,以获取用户对该视觉工具的感知证据,以及该工具在根据推特上报道的新闻检索国际关系信息方面的效率和有效性。与专家反馈评估部分一样,我们仅将活动分为本地和国际来源范围。我们在两个主要假设下工作:(H1)用户将使用Galean以更高效的方式检索新闻事件背景下国家间关系的信息;(H2)用户在进行新闻事件分析时,对Galean有更好的主观感知,认知负荷更低。

研究设计。这项研究采用了内部受试者设计,参与者必须使用Galean以及基于SensePlace2的竞争性基线界面来分析新闻事件[29]. 会议开始时,向参与者描述了研究目标,并要求他们用人口统计信息填写一份学前调查。接下来,研究分为两个阶段的新闻事件分析,每个阶段都要求参与者使用其中一个界面。在每个阶段开始时,参与者遵循指定界面的简短教程,并得到如何完成任务的指示。完成后,他们被要求填写NASA任务负荷指数[69]以及指定接口的研究后调查。一旦他们准备好了,受试者就用第二个界面用不同的新闻事件重复同样的程序。我们选择了两个新闻事件供用户分析,然后提出了有关这些事件的问题,例如“这件事是什么时候发生的?“或”哪些国家参与了这次活动?”. 为了防止学习效果,我们平衡了每个界面和每个事件的呈现顺序。此外,该界面一次只能访问一条新闻事件的推文。

所有评估都是在装有Intel Core i5 CPU、8 GB RAM和Ubuntu 14.04的计算机上使用Chromium Web Browser进行的。参与者花了将近一个小时完成整个研究。

基线。我们基于SensePlace2建立了基线[29],如图所示8。我们选择此工具作为在显示的地理信息方面与我们最相似的工具。在上部,用户可以通过日期和关键字进行搜索。在左下角,用户可以阅读与搜索匹配的推文。在右侧,界面以与SensePlace2类似的方式显示地理信息,其中地图显示了国家发布的推文数量以及推文内容中发现的地理实体。由于我们的重点是在国家一级,推文的地理分布并没有显示为网格,而只是显示为合唱。推文中的地理实体表示为位置地理坐标中的气泡。乡村地区和地图上的气泡都可以用作过滤器。

图8
图8

基线接口。顶部显示按日期和按文本选项搜索。在左下角,它显示了与用户搜索匹配的推文。最后,在右下角,它显示了一张地图,其中显示了推特的地理分布(作为合唱)和出现在推特内容中的地理实体(作为气泡出现在已解析位置上)。choropleth和表示位置的气泡都可以用作推文的过滤器。

参与者。参与者是通过电子邮件和在线论坛在智利大学工程学院招募的。鉴于我们的数据集是英语的,我们要求他们具有良好的非技术英语水平。从总共招募的30名参与者中(其中3人是女性),其中5人不满20岁,20人在21岁至30岁之间,5人在31岁至40岁之间。此外,其中10人为本科生,8人为硕士生,12人为博士生。参与者没有获得经济补偿,但在研究期间提供了茶点。

结果。我们的研究仅部分支持假设上半年,通过效率和有效性的客观行为指标进行评估,但它完全支持氢气根据用户对研究期间执行的任务的感知进行评估。

上一页效率和有效性的客观衡量标准:在效率方面,用户使用Galean完成任务的时间更少(\(M=895.58),\(\mathit{SD}=317.9))而不是使用基线接口(\(M=955.65),\(\mathit{SD}=416.57\)),尽管这一差异并不显著(\(p=0.18\)). 我们认为,这种差异不显著的一个原因是学习效应,因为完成任务的界面上的一些关键组件在不同条件下是相似的,例如搜索框、地图和推文列表。因此,我们调查了这种可能的学习效果,并观察到用户确实用较少的时间使用第二个界面,但当Galean为第二个时,这种差异更为明显。通过比较Galean作为第二界面时的时间差异(\(p<0.001),科恩的\(d=0.74))与第二次使用基线接口时相比(\(p=0.013),科恩的\(d=0.6)),我们观察到当Galean排名第二时,影响更大。这个结果很有趣,因为Galean有更多的组件和交互需要学习,这表明Galean在这项任务中比我们的基线更有效。

关于有效性,在回忆加利安之间(\(M=0.36\),\(\mathit{SD}=0.2\))和基线(\(M=0.35 \),\(\mathit{SD}=0.2\)),\(p=0.4\),用于检索国家/地区时。依据精度,Galean取得了更好的成绩(\(M=0.952),\(\mathit{SD}=0.11\))比基线(\(M=0.871),\(数学{SD}=0.24)),\(p=0.062)在检索新闻事件中涉及的国家时,尽管这种差异几乎不显著。

下表2受试者对界面的感知。我们的研究支持假设H2,表明用户普遍认为Galean优于基线。我们通过应用NASA任务负荷指数获得主观指标[69]以及研究后调查。参与者还显示出完成任务所需的努力更少,挫折感更少的趋势(\(p<0.05))使用Galean时。关于使用Likert 1-5量表进行的最终研究后调查,人们对Galean中显示的信息比基线中的信息更有信心(\(p<0.05)),他们表现出更大的满意度(\(p<0.05))而且他们更可能建议将其用于新闻事件的最终分析(\(p<0.05)).

用户协议为了衡量用户对Galean的感知与基线界面之间的一致程度,我们使用了类内相关系数(ICC)[70]. 我们通过研究后调查问题(样本)计算了用户(评分员)之间的ICC,并使用Koo等人描述的准则报告和解释这些值[71]. ICC值小于0.5表示一致性较差,介于0.5和0.9之间表示一致性中等到良好,大于0.9表示一致性良好。

国际商会的结果显示,用户之间的一致性处于中等至良好水平。就加利安而言,协议水平很高(\(\mathrm{ICC}=0.887))95%置信区间为0.722至0.977(\(F(6210)=8.88),\(p<0.001)). 对于基线界面,测得的平均ICC为中等(\(\mathrm{ICC}=0.723))95%置信区间为0.317至0.943(\(F(6210)=3.61),\(p=0.002)). ICC估计值及其95%置信区间使用内部收益率包裹脚注4R统计包版本中的版本0.84\(3.3.1\)基于平均分(\(k=31\))绝对协议和双向随机效应模型。

讨论。我们的结果表明,在用户感知指标方面,Galean明显优于基线,但在客观性能指标方面,仅显示出比基线更高效和有效的趋势。

为了进一步研究这些结果,我们进行了主成分分析(PCA),以整合客观和主观指标(图9)我们用双点图分析了它们。biplot是一种基于投影的图形显示,它允许我们分析多元数据[72]. 单词“bi”是指原始数据矩阵的行和列的联合显示,它已被投影为具有秩的低秩近似\(n=2)(2D biplot)或\(n=3)(3D biplot)。在我们的示例中,行是用户主题,列是变量,例如精度、召回率或在界面上花费的时间。我们通过主成分分析获得了原始矩阵的秩二和秩三近似。Biplot用于社会学等领域的多元数据分析[73],遗传学[74]和文献计量学[75]. Gabriel演示了双位显示器的解释[72]最近由Greenacre报道[76]. 例如,biplot中向量之间的角度越近,向量表示的变量之间的相关性就越大。

图9
图9

两个界面的客观和主观指标的主成分分析的3D双标图。为了清晰起见,删除了一些指标。受试者的知识,如参与者对可视化的熟悉程度(know_vis)和他们阅读新闻的频率(read_news),都是蓝色的。时间、准确度和召回率的客观指标为红色。用户感知性能的主观指标为绿色。虽然精确性和召回率与基线上以前的用户知识相关,但加载在PC1的同一方向上,在加利亚,精确性和撤回率与用户的感知性能更相关,与以前的用户信息几乎无关。

从这一分析中,我们强调了支持这一讨论的两个主要结果。首先,对于Galean来说,绩效的主观和客观指标比基线更一致。事实上,我们在图中观察到9与基线相比,精度和召回更接近于彼此(就向量之间的角度而言),也更接近于Galean的TLX性能问题。其次,在基线的biplot中,我们观察到变量“对可视化的熟悉程度”(know_vis)和“他们阅读新闻的频率”(read_news)更接近第一主成分(水平轴,它解释了数据中较大的方差)相同方向上的精度、召回率和负载向量,这可能表明用户以前的知识影响了他们的性能,而不是界面本身,虽然进一步的分析和更大样本量的用户研究是必要的,以支持这一说法。

总之,通过客观和主观指标收集的其他证据表明,Galean在几个方面都超过了竞争基准。

6探索性分析

我们提出了一种探索性数据挖掘分析,该分析使用时空上下文软件事件表示提供的信息。我们描述了我们的实证结果,这说明了我们提出的事件表示法的有用性。该分析考虑了国家级地缘政治划分中事件的位置背景。这使我们能够探索当前数据集所提供的国际互动。我们注意到,此分析的源代码以及其他信息可以在线获得[77]。

事件提取过程,如第节所述5.1是基于以英语发布信息的国际知名新闻媒体帐户的种子集。这在我们的活动收集中引入了一定的偏见,倾向于使用英语国家的活动,并且倾向于使用比其他语言更多的英语推文。例如,对于事件“记者晚宴”我们目前的方法主要是从全球用户那里检索英语推文。另一方面,用一组关键字描述的事件,包括“巴拉克·奥巴马”将检索多种语言的推文。

必须考虑这些偏差,因为它们会限制我们的数据挖掘分析结果的代表性。尽管如此,我们相信这些结果不会使我们的结果无效,因为我们的结果显示了以美国和英国报道的新闻为中心的社交网络子集的观点。因此,我们的结果反映了这两个过度代表性国家的世界观,以及英语使用者的世界观。此外,其他使用完整推特流的研究,如Poblete等人[78]显示了与我们相似的数据分布,表明这种偏见可能是推特本身固有的。

此外,对我们数据集中偏见的深入探索表明,事件期间产生的推文数量并不取决于报道该事件的种子账户数量。我们的分析表明,整个集合中只有13.5%的用户真正转载了种子新闻媒体帐户的推文,这给人的总体印象是,这些帐户对用户表达的兴趣量没有太大影响。此外,我们还发现,分享活动的种子账户数量与参与活动的国家数量在来源或影响方面没有关系。

如第节所述3.2我们对向量进行了归一化圆周率内容提供商,在方程式中定义2,4,5分别是。这种标准化使我们能够以减轻代表人数过多国家的偏见的方式比较主要利益方和共同利益方。特别是,对于圆周率我们定义的向量\(w(l{j},l{k})\)作为:

$$w(l{j},l{k})=f(x{j,k}{x}_{\cdot,k})}{\sigma(\mathbf{x}_{\cdot,k})}$$

和用于内容提供商我们定义了\(w'(l{j},l{k})\)作为:

$$w'(l{j},l{k})=f\bigl(x'{j,k}\bigr)=\frac{x'{j,k}}{x'_j}}$$

哪里\(x{j,k}\)是具有\(l{j}\)作为主角,其中\(l{k}\)感兴趣;\(\mathbf{x}_{\cdot,k}\)是包含事件数量的向量,事件发生在哪个位置\(l{k}\)感兴趣,\(对于l\中的所有l_{j}\);μσ分别是事件分布的平均值和标准偏差;\(x'{j,k}\)是两者都适用的事件数\(l{j}\)\(l{k}\)是主角,并且\(x'_{j}\)是发生的事件数\(l{j}\)作为主角。

我们首先描述了我们收藏的空间分布,以描述其在地理覆盖方面的代表性。就主角位置而言,美国和英国是大多数事件的主角,其次是印度、澳大利亚、乌克兰和俄罗斯(图10(a) )。国家参与的事件中位数为18.5,表明只有少数国家是大多数事件的主角。10(a) 显示了各国参与的事件数量的分布。当我们计算\(\mathbf{cp}(c{i})\)选定向量\(c{i}\)国家(等式4,根据一个国家发生的事件数量进行标准化\(c{i}\)我们观察到,美国和英国是大多数国际事件的主角(图11). 但也有一些例外,例如乌克兰,在许多国际活动中,只有俄罗斯参与其中(图11(d) )。

图10
图10

兴趣和主角的摘要地图。

图11
图11

选定国家的相对共同主角指标。

就全球关注度而言,对大多数活动表现出兴趣的国家是美国、英国和印度(图10(b) )。此外,这些国家也贡献了最多的推文(图12(a) )。

图12
图12

描述每个国家推特和用户数量的偏差。

我们确定了37.3%用户的位置(26127625个用户中有9738538个用户)。这些用户主要分布在美国和英国,其次是加拿大、印度尼西亚和印度(图12(b) )。

国际关系探索。我们探索了数据集,以便根据各国共同参与的事件以及世界其他国家对这些事件的兴趣来确定各国之间的相似性。我们发现,对事件表示中的数据应用标准相似性度量,可以在某些国家之间产生类似于激烈历史互动和/或地理邻近性的关系。

就主角所在地而言,我们发现类似的这意味着他们是同一事件的主角。在本例中,我们使用每对国家之间的雅卡德相似性作为我们的相似性度量,通过它作为主角的一系列事件来代表每个国家。两组之间的雅卡德相似性x个定义为\(\mathit{模拟}_{x,y}=\frac{vert x\cap y\vert}{vert x \cup y\vert})。我们筛选出了130个以下事件的主角国家(对应于国家主角事件的80%)。

我们研究了相似性度量的分布,以确定国家之间的重要关系。我们安装了相似性到使用R包的理论概率分布Fitdistplus公司 脚注5我们发现,最佳拟合是带参数的伽玛分布\(\mathit{shape}=0.8721\)\(\mathit{rate}=85.7683)。根据此分析,如果S公司是一个随机变量,其伽玛分布代表国家之间的相似性,然后我们定义了两国之间的相似x个作为存在重要的如果其值在分布的95个百分位中,(即,如果\(P(S<\mathit{模拟}_{x,y})>0.95\)). 使用此标准,我们确定了相似性阈值\(\mathit{sim}^{*}=0.032\),我们认为其价值重大。该阈值可以在研究人员认为合适的第80、90或99百分位参数化。1显示了基于这种相似性的前20个最相似的国家,使其达到了我们数据集的97.181个百分点。

表1大多数类似国家都是同一事件的主角( 共同主角 向量),使用Jaccard相似性。 \(\pmb{x'{i}}\) 是哪个国家的赛事数量 是主角

我们发现以色列和巴勒斯坦是最相似的国家,其次是俄罗斯和乌克兰、朝鲜和韩国、英国和美国、伊拉克和叙利亚(表1). 它们的相似性高于我们数据集中99.25%的成对相似性。这些国家之间存在现实世界中的历史和地理关系,可以解释这些相似之处(例如乌克兰危机[79]或以色列-巴勒斯坦冲突[80]). 另一方面,一些相似之处可以用某些赛事的优势来解释,比如2014年国际足联世界杯。这些结果表明,推特数据中有关于现实世界地缘政治互动的信息,可以使用我们的事件表示法进行进一步研究。

在图中13,我们给出了三个图,其中国家表示节点,边缘基于Jaccard相似性进行加权。随着我们提高将两个国家连接起来的门槛,出现了国家共同体13(c) 可以确定一个由德国、墨西哥、巴西、阿根廷、荷兰、西班牙和意大利组成的小组:其球队参加了2014年国际足联世界杯。此外,还可以观察到马来西亚、印度尼西亚、中国和澳大利亚之间的边界,反映出马来西亚航空公司MH370航班于2014年失踪。例如,这两个长期事件在我们的数据集中引发了几起事件,我们的分析反映了主要国家之间的相互作用。

图13
图13

使用Jaccard相似度作为边缘权重的国家的相似度图。每个节点都是一个国家,两个节点之间的边对应于这两个国家之间的雅卡相似性。如果相似度高于给定阈值,则会出现边缘。节点大小和颜色表示每个国家作为主角的事件数量,而厚度和边缘表示相似性。

我们通过分析各国长期的相似性,进一步探讨了共同保护主义的趋势。给定两个国家,我们基于一周时间窗口内的事件计算了它们的雅卡相似性。14显示了美国与英国、马来西亚与澳大利亚、俄罗斯与乌克兰之间的时间序列。每对国家在其相似性如何随时间演变方面表现出不同的特征。尽管美国和英国的雅卡德总体相似性很高,但随着时间的推移,两国并没有出现臭名昭著的相似性爆发(表1)这表明,尽管他们是几个事件的共同主角,但没有一种特殊情况会在短时间内突然增加他们的相似性。另一方面,马来西亚航空公司MH370航班失踪后不久,马来西亚和澳大利亚于2014年3月开始爆发(考察与印尼和中国的关系时也出现了类似的情况)。最后,从2013年12月开始,俄罗斯和乌克兰在一段时间内表现出较高的相似性,并且这些模式在整个2014年都保持不变。这种情况与第节中报告的案例研究密切相关5.2.

图14
图14

一段时间内,选定国家对的共同主角向量之间的雅卡德相似性时间序列。计算给定周内所有事件的相似性值。2014年10月和2014年12月的数据不可用。

我们探讨的另一个方面是不同国家对发生在不同地理区域的事件的兴趣。换句话说,我们探索了主角感兴趣国家之间的关系。为此,我们代表每个国家\(c{i}\)作为其对应项\(\mathbf{pi}(c{i})\)向量(方程式2).

我们调整了主角感兴趣向量的原始表示(方程式2)为了减少数据偏差,这反映在一些国家的代表人数过多,因为他们发布的推文比其他国家多得多(图12(a) )。因此,不是用\(c{j}\)作为主角\(c{i}\)表达了兴趣,我们倾向于衡量\(c{i}\)在里面\(c{j}\)作为其他国家的平均事件数之差,其中\(c{i}\)感兴趣的是\(c{j}\)在哪儿\(c{i}\)很感兴趣。换言之,我们最初的利息衡量标准是由\(c{i}\)在其他国家。使用这种新的利率度量方法,我们应用欧几里德距离来确定国家\(c{2}\)与最近的圆周率传播到另一个国家\(c{1}\)(表2). 考虑到有些国家只对少数事件感兴趣,或者他们自己是极少数事件的主角,我们只报告了至少167个事件的主角国家(即我们数据集中每个国家的主角事件平均数)。15显示了使用上述度量的选定国家的主角兴趣图。

图15
图15

选定国家的代表性兴趣图。每个图都显示了感兴趣的程度(-轴)由世界其他国家显示(沿x个-轴心国)在这对“主角国家”的活动中。中的国家/地区标签x个-出于可读性目的,省略了轴。

表2最接近的国家对 圆周率 根据欧几里德距离的向量。 \(\pmb{x'{i}}\) 是哪个国家的赛事数量 是主角

我们注意到,土耳其与其他国家有着密切的关系,根据各方利益关系,土耳其与几个其他国家关系密切,例如印度尼西亚、也门、阿富汗、利比亚和马来西亚。此外,其他类似的国家有意大利和日本、巴西和西班牙(以及巴西和德国);2014年国际足联世界杯引发的事件解释了这些相似之处。值得注意的是,俄罗斯和乌克兰再次脱颖而出,这不仅表明他们是大致相同事件的主角,而且也表明世界其他国家对他们有着相似的兴趣,这使得乌克兰危机对新闻的影响更加明显。我们还注意到,这些国家中的大多数地理位置较近,其他国家大多来自亚洲。我们认为,这些结果是我们数据集中偏见的另一个迹象:英语国家对国际新闻的看法。

最后,考虑到国际(表)和本地(表4)事件。为了进行分析,我们考虑了所有国际事件(区域和全球)。我们计算了每个事件的不同感兴趣位置的数量,但只考虑了数据集99%范围内的兴趣度量。从这一分析中,我们可以观察到,总体影响最大的活动涉及多个主题,而重复性最强的活动是体育和娱乐。演员罗宾·威廉姆斯(Robin Williams)去世等事件造成的国际影响最大,共有202个国家发布了大量推文。随后是体育赛事,如2014年国际足联世界杯、2013年超级碗以及弗洛伊德·梅威瑟和曼尼·帕奎奥之间的拳击比赛。其他影响较大的活动包括2013年除夕查理周刊在巴黎拍摄,2015年格莱美奖。我们还发现,不同新闻媒体对这些事件的报道更高。另一方面,除自然灾害和体育赛事外,具有地方影响力的活动大多是政治活动,如政治选举和辩论。我们观察到,在这种情况下,与影响较大的国际事件以及所涉及的推文数量相比,不同新闻来源的报道较少。

表3国际影响力最大的事件,以表现出兴趣高于总体兴趣的99个百分点的国家数量衡量
表4对当地影响最大的活动,以只有一个感兴趣国家的活动推文数量来衡量,该国家的兴趣高于总体兴趣的99个百分点。2015年发生的所有事件

7已知限制

我们认为有几个限制需要解决。特别是,这些限制与我们提出的事件表示、框架和应用程序的实现无关,而是与依赖于外部功能的数据提取方法有关。

新闻事件提取方法依赖于新闻媒体帐户发布的标题。这种技术在报告真实世界中确实存在的事件方面提供了很高的精确度,但可能会忽略未收到媒体报道的信息性事件。因此,当前的数据提取方法可能无法检索公民运动和其他仅通过社交网络通知的重要事件。此外,如第节所述6在当前的数据提取设置中,事件收集的初始种子来自于一个减少的新闻媒体帐户列表,其国家报道和语言有限。尽管新闻事件数据集可能代表了推特上发布的绝大多数新闻事件和相关推特,但该集合将错过在全球其他代表性较低的国家产生影响的事件的长尾。我们注意到,未来可以通过多种方式缓解这种偏见(参见第节6),所有这些都与在框架的数据输入阶段替换外部模块有关。

此外,我们注意到,虽然我们提出的事件表示可以被认为适用于其他社交媒体平台,但除了推特之外,我们还没有在其他信息源上验证它。对于其他社交媒体平台,我们还不能确定是否有足够的用户位置和数据可用性信息来生成准确的事件表示。

总的来说,我们今后工作的基本改进应考虑:

  • 实现基于数据流和网络属性的推特自动事件检测技术,以及更全面的微博事件提取方法。

  • 提高地理定位工具的准确性。尽管CLAVIN作为一种地理定位工具已经成熟,但它不能识别英语以外的语言中的位置名称(尽管该工具的文档表明它可以识别其他位置名称[56]).

  • 为我们系统的地理上下文提取器添加更精细的粒度,以便包括更精确的行政区划,如城市和州。

  • 将用不同语言讨论同一新闻主题的事件合并。跨语言微博检索的最新方法[81]可以在我们的框架内集成用于新闻事件检索。

然而,所有这些改进都超出了我们当前的工作范围,我们的工作重点是提供所建议的事件表示以及交互式用户界面的有用性证明。尽管如此,我们仍在努力改进应用程序未来版本中的所有这些功能。例如,我们已经开始为智利提供更精细的地点和全面的当地新闻来源,正如马尔多纳多等人(Maldonado et al[10]。

关于我们的可视化工具,我们注意到,尽管它是一个事件检索工具,但它并不关注事件排名或推文排名。目前,该工具以时空过滤器中的事件探索为中心。未来,事件和推文排名功能可以作为可选功能添加,并结合这些领域的最新算法。到目前为止,我们已经看到证据表明,按时间顺序显示完整的事件集和推文似乎足以进行事件探索。

8结论和未来工作

我们为社交媒体中的新闻事件提供了时空上下文软件表示。使用这种表示法,我们引入了一个名为Galean的可视化分析工具,它允许通过聚合社交媒体用户发布的信息对真实世界的事件进行回顾性分析。我们的工具和事件表示的主要目标是允许从地理和时间角度对事件进行探索和定量分析。我们特别介绍了事件的两种地理背景:(1)主角位置,(2)感兴趣的位置。第一个对应于活动本身所涉及的地点,在本例中是地缘政治部门,第二个对应于事件信息影响最大的地点。

Galean旨在允许用户手动浏览全球新闻事件及其影响和国际关系含义。使用此工具,我们表明,拟议的事件表示允许我们对事件和国家随时间的变化进行历史分析。此外,可视化使用户能够发现事件中的非琐碎信息和模式。据我们所知,这是第一个明确显示给定真实事件的地点之间的地缘政治联系的工具,允许用户通过这些关系检索新闻。

此外,我们引入了一项针对两年推特数据集的定量数据挖掘研究,在该研究中,我们探索了社交媒体中新闻事件的属性以及这些事件引发的国际关系。我们的研究结果表明,确实有一些新的信息可以大规模提取,这些信息涉及国家之间的关系以及不同地方对信息的感知。最有趣的是,这些关系反映了现实世界中发现的历史关系,表明社交媒体数据对历史研究具有价值。总的来说,我们的代表使我们能够执行与探索国际关系和历史事件检索相关的新IR任务。

未来,我们将扩展我们的表示,以纳入事件的高级时间属性,如Tan等人的工作中定义的事件是长期的、准时的或重复的[30]. 此外,我们有兴趣研究如何自动和可视化地支持发现事件随时间变化的因果关系。我们正在研究有效的方法来显示变量(如事件影响)随时间的地理和时间演变。

未来工作的另一个有趣的研究方向是研究国家之间的成对相似性如何随时间演变。这对于自动发现何时出现新关系以及何时出现偏离正常模式的情况很有用。

最后,我们正在研究基于Hasan等人报告的技术改进新闻事件数据提取的技术[82]以更好地表示不同的位置,并改进地理位置。此外,我们还致力于在社交媒体上创建事件的自动摘要,探讨如何跟踪和可视化事件随时间的演变,特别是这些事件导致的主角国家之间的关系,以及整合跨语言信息检索方法[83]获取微博上的新闻事件推荐。

笔记

  1. 根据划分,共考虑7大洲:亚洲、非洲、欧洲、北美、南美、南极洲和澳大利亚。

  2. 每个Twitter帐户都可以在中访问https://twitter.com/accountname,其中帐户名是帐户的名称。

  3. 此数据集将在发布后通过联系作者获得,受Twitter服务条款的限制。

  4. https://cran.r-project.org/package=irr

  5. https://CRAN.R-project.org/package=fitdistrplus

工具书类

  1. Rogers R(2013)《解密推特:研究对象的转变》。收录:第五届ACM网络科学年会论文集。WebSci’13。ACM,纽约,第356-365页

    第章 谷歌学者 

  2. Inc.,T.(2016)。https://twitter.com(推特)2016年11月22日访问

  3. 维基百科(2016)比较历史研究。https://en.wikipedia.org/wiki/Comparative_historical_research。访问日期:2016年11月22日

  4. Castillo C、Mendoza M、Poblete B(2011)《推特上的信息可信度》。收录于:第20届万维网国际会议论文集。WWW’11。ACM,纽约,第675-684页

    谷歌学者 

  5. Sakaki T、Okazaki M、Matsuo Y(2013)实时事件检测和地震报告系统开发的推文分析。IEEE Trans Knowl Data Eng 25(4):919-931

    第条 谷歌学者 

  6. Pak A,Paroubek P(2010)推特作为情感分析和意见挖掘的语料库。摘自:第七届语言资源与评价国际会议(LREC’10)会议记录。瓦莱塔欧洲语言资源协会(ELRA)

    谷歌学者 

  7. Saravanou A、Valkanas G、Gunopulos D、Andrienko G(2015)《下雨时推特洪水:2014年初英国洪水案例研究》。收录于:第24届全球网络伙伴国际会议记录。WWW’15伙伴。日内瓦共和国和州国际万维网会议指导委员会,第1233-1238页

    第章 谷歌学者 

  8. Quezada M,Peña-Araya V,Poblete B(2015)社交媒体中新闻事件的位置感知模型。在:第38届ACM SIGIR信息检索研究与开发国际会议论文集。SIGIR’15。ACM,纽约,第935-938页

    谷歌学者 

  9. Peña-Araya V,Quezada M,Poblete B(2015)《加利安:社交媒体地理定位新闻事件的可视化》。在:第38届ACM SIGIR信息检索研究与开发国际会议论文集。15年。ACM,纽约,第1041-1042页

    谷歌学者 

  10. Maldonado J,Peña-Araya V,Poblete B(2015),社交媒体中智利新闻事件的时空特征。输入:TAIA’15

    谷歌学者 

  11. Kalyanam J、Quezada M、Poblete B、Lanckriet G(2016)预测和描述现实世界新闻引发的社交媒体中的高活动事件。公共科学图书馆·综合11(12):1-13。数字对象标识:10.1371/新闻稿.0166694

    第条 谷歌学者 

  12. Kamath KY、Caverley J、Lee K、Cheng Z(2013)《在线模因的时空动态:地理标签推文的研究》。摘自:第22届万维网国际会议论文集。WWW’13。瑞士日内瓦共和国和州国际万维网会议指导委员会,第667-678页

    第章 谷歌学者 

  13. Leetaru K(2011)《文化学2.0:利用全球新闻媒体在时间和空间上的基调预测大规模人类行为》。第一个星期一16(9)

  14. Chakrabarti D,Punera K(2011)使用推文的事件摘要。参加:网络和社交媒体国际AAAI会议

    谷歌学者 

  15. Quezada M,Poblete B(2013)通过基于社会指标的多媒体摘要了解真实世界事件。In:合作与技术。柏林施普林格,第18-25页

    第章 谷歌学者 

  16. Alonso O、Bannur S、Khandelwal K、Kalyanaraman S(2015)《世界对话:从社会资源生成网页元数据》。摘自:第24届万维网国际会议记录。WWW’15伙伴。瑞士日内瓦共和国和州国际万维网会议指导委员会,第385-395页

    第章 谷歌学者 

  17. Wang X,Dou W,Ribarsky W,Skau D,Zhou MX(2012)领导力:通过事件识别和探索对文本数据进行交互式可视化分析。收录:2012年IEEE视觉分析科学与技术(VAST)会议记录。VAST’12。IEEE计算。Soc.,华盛顿,第93-102页

    谷歌学者 

  18. Wang H、Can D、Kazemzadeh A、Bar F、Narayanan S(2012)2012年美国总统选举周期实时推特情绪分析系统。摘自:ACL 2012系统演示程序。ACL’12。计算语言学协会,斯特劳德斯堡,第115-120页

    谷歌学者 

  19. Guille A、Favre C(2015)《推特中的事件检测、跟踪和可视化:一种基于语义的常规方法》。CoRR公司。1505.05657

  20. Ritter A、Mausam、Etzioni O、Clark S(2012),从推特中提取开放域事件。摘自:第18届ACM SIGKDD知识发现和数据挖掘国际会议论文集。2012年KDD。ACM,纽约,第1104-1112页

    第章 谷歌学者 

  21. Watanabe K、Ochi M、Okabe M、Onai RJ(2011)基于传播到微博的地理位置信息的实时本地事件检测系统。摘自:第20届ACM信息和知识管理国际会议记录。CIKM’11。ACM,纽约,第2541-2544页

    谷歌学者 

  22. Abdelhaq H、Sengstock C、Gertz M(2013)《EvenTweet:Twitter的在线本地化事件检测》。VLDB Endow程序6(12):1326-1329

    第条 谷歌学者 

  23. Walther M,Kaisser M(2013)推特流中的地理空间事件检测。In:信息检索的进展。施普林格,柏林,第356-367页

    第章 谷歌学者 

  24. Lee C-H,Yang H-C,Chien T-F,Wen W-S(2011)通过挖掘微博上的时空信息进行事件检测的新方法。主题:社交网络分析与挖掘进展(ASONAM),2011年国际会议,第254-259页

    第章 谷歌学者 

  25. Krumm J,Horvitz E(2015)《目击者:通过推特订阅中的时空信号识别当地事件》。收录:第23届SIGSPATIAL地理信息系统进展国际会议记录。GIS’15。ACM,纽约,第20:1-20:10页

    谷歌学者 

  26. Sankaranarayanan J、Samet H、Teitler BE、Lieberman MD、Sperling J(2009)推特站:推特新闻。收录:第17届ACM SIGSPATIAL地理信息系统进展国际会议记录。ACM,纽约

    谷歌学者 

  27. De Longueville B,Smith RS,Luraschi G(2009)“OMG,从这里,我可以看到火焰!”:一个挖掘基于位置的社交网络以获取森林火灾时空数据的用例。摘自:2009年基于位置的社交网络国际研讨会论文集。伦敦银行编号'09。ACM,纽约,第73-80页

    第章 谷歌学者 

  28. Dong X,Mavroeidis D,Calabrese F,Frossard P(2015)社交媒体中的多尺度事件检测。数据最小知识发现29(5):1374-1405

    第条 数学科学网 谷歌学者 

  29. MacEachren AM、Jaiswal A、Robinson AC、Pezanowski S、Savelyev A、Mitra P、Zhang X、Blanford J(2011)Senseplace2:GeoTwitter分析支持态势感知。In:视觉分析科学与技术(VAST),2011年IEEE会议,第181-190页

    第章 谷歌学者 

  30. Tan Y,Vuran MC,Goddard S(2009),网络物理系统的时空事件模型。参加:分布式计算系统研讨会,2009年。2009年ICDCS车间。第29届IEEE国际会议,第44-50页

    第章 谷歌学者 

  31. Lauw HW,Lim E-P,Pang H,Tan T-T(2010)Stevent:社交网络发现的时空事件模型。ACM传输信息系统28(3):15:1-15:32

    第条 谷歌学者 

  32. 维基百科(2016)定量历史。https://en.wikipedia.org/wiki/Quantitative_history网站2016年11月22日访问

  33. Michel J-B、Shen YK、Aiden AP、Veres A、Gray MK、Pickett JP、Hoiberg D、Clancy D、Norvig P、Orwant J、Pinker S、Nowak MA和Aiden EL(2011)使用数百万数字化书籍进行文化定量分析。科学331(6014):176-182

    第条 谷歌学者 

  34. Chadefaux T(2014)新闻中的战争预警信号。和平研究杂志51(1):5-18

    谷歌学者 

  35. Suchanek FM,Preda N(2014)《语义文化组学》。VLDB Endow程序7(12):1215-1218

    第条 谷歌学者 

  36. 数据库(2016)http://dbpedia.org2016年11月22日访问

  37. Huet T、Biega J、Suchanek FM(2013)《世界报》采矿史。摘自:2013年自动化知识库构建研讨会会议记录。AKBC’13。ACM,纽约,第49-54页

    第章 谷歌学者 

  38. Robertson B(2009)“Fawcett”:启动历史语义网的工具包。数字螺柱1(2)

  39. Meroño-Peñuela A、Ashkpour A、Van Erp M、Mandemakers K、Breure L、Scharnhorst A、Schlobach S、Van Harmelen F(2014)《历史研究的语义技术:一项调查》。Semant网站6(6):539-564

    第条 谷歌学者 

  40. Marcus A、Bernstein MS、Badar O、Karger DR、Madden S、Miller RC(2011)Twitinfo:聚合和可视化事件探索微博。摘自:SIGCHI计算机系统人为因素会议记录。2011年。ACM,纽约,第227-236页

    谷歌学者 

  41. Jadhav A、Purohit H、Kapanipathi P、Anantharam P、Ranabahu AH、Nguyen V、Mendes PN、Smith AG、Cooney M、Sheth A(2010)Twitris 2.0:语义授权系统,用于理解社会数据中的感知。In:语义网络挑战,国际语义网络会议(ISWC)

    谷歌学者 

  42. Purohit H,Sheth AP(2013)Twitris v3:从公民感知到分析、协调和行动。收录人:Kiciman E、Ellison NB、Hogan B、Resnick P、Soboroff I(编辑)ICWSM。门罗公园AAAI出版社

    谷歌学者 

  43. Hassan S、Sanger J、Pernul G(2014)《SoDA:大社会数据的动态可视化分析》。In:大数据和智能计算(BIGCOMP),2014年国际会议,第183-188页

    第章 谷歌学者 

  44. Bosch H,Thom D,Heimerl F,Püttmann E,Koch S,Krüger R,Wörner M,Ertl T(2013)Scatterblogs2:通过用户引导过滤实时监控微博消息。IEEE Trans-Vis计算图19(12):2022-2031

    第条 谷歌学者 

  45. Ertl T、Chae J、Maciejewski R、Bosch H、Thom D、Jang Y、Ebert DS(2012)使用季节趋势分解进行异常事件检测和检查的时空社交媒体分析。收录:2012年IEEE视觉分析科学与技术(VAST)会议记录。VAST’12。IEEE计算。华盛顿特区,第143-152页

    谷歌学者 

  46. 曹恩,林毅,孙X,拉泽D,刘S,曲H(2012)《耳语:实时追踪信息扩散的时空过程》。IEEE Trans-Vis计算图18(12):2649-2658。数字对象标识:10.1109/TVCG.2012.291

    第条 谷歌学者 

  47. Dörk M,Carpendale S,Collins C,Williamson C(2008)《愿景:基于网络的信息探索和发现的协同可视化》。IEEE Trans-Vis计算图14(6):1205-1212

    第条 谷歌学者 

  48. 《全球之声》(2016)http://globalvoicesonline.org/2016年11月22日访问

  49. 事件注册表(2015)事件注册表系统。http://eventregistry.org/2017年8月22日访问

  50. GDELT(2013-2014)《新闻合作全球》。全球事件数据库,语言。和Tone(GDELT)项目。2017年8月23日访问

  51. BBC新闻(2014)海牙联合国法院确定的秘鲁-智利边界。http://www.bbc.co.uk/news/world-europe-25911867。访问日期:2016年11月22日

  52. Shneiderman B(1996)The eyes have it:信息可视化的数据类型分类任务。1996年IEEE视觉语言研讨会论文集,第336-343页。数字对象标识:10.1109/VL.1996.545307

    第章 谷歌学者 

  53. 传单(2015)http://flueljs.com/2016年11月22日访问

  54. D3.js(2015)https://d3js.org/2016年11月22日访问

  55. Havre S,Hetzler B,Nowell L(2000)Themeriver:主题随时间变化的可视化。信息可视化,2000年。InfoVis 2000。IEEE研讨会,第115-123页

    第章 谷歌学者 

  56. Berico Technologies(2012-2016)CLAVIN:地图位置和附近索引。http://clann.bericotechnologies.com/2016年11月22日访问

  57. Metzler D,Cai C,Hovy E(2012)通过微博档案进行结构化事件检索。在:计算语言学协会北美分会2012年会议记录:人类语言技术。NAACL HLT’12。计算语言学协会,斯特劳德斯堡,第646-655页

    谷歌学者 

  58. Choi J,Croft WB(2012),微博的时间模型。摘自:《21世纪学报》。ACM信息和知识管理国际会议。CIKM’12。ACM,纽约,第2491-2494页

    谷歌学者 

  59. Aljazeera(2013)乌克兰放弃欧盟计划,转而关注俄罗斯。http://www.aljazeera.com/news/europe/2013/11/ukraine-drops-eu-plans-looks-russia-2013121145417227621.html2016年11月22日访问

  60. 天空新闻(2013)乌克兰抗议者现在想要领导人的头。http://www.aljazeera.com/news/europe/2013/11/ukraine-drops-eu-plans-looks-russia-2013121145417227621.html2016年11月22日访问

  61. 雅虎新闻(2014)乌克兰总理在动乱中辞职,议会撤销反抗议法律。https://www.yahoo.com/news/ukraine-39-azarov-offers-resignation-government-press-083057414–sector.html2016年11月22日访问

  62. 福克斯新闻(2016)奥巴马总统取消了俄罗斯对乌克兰的贸易利益。http://www.foxnews.com/politics/2014/05/07/president-obama-removing-trade-benefits-for-russia-over-ukraine.html。2014年11月22日查阅

  63. 《纽约时报》(2014)俄罗斯向乌克兰分离主义分子派遣坦克。美国称。http://www.nytimes.com/2014/06/14/world/europe/ukraine-claims-full-control-of-port-city-of-mariupol.html?_r=02016年11月22日访问

  64. 《喜马拉雅时报》(2015)日本援助尼泊尔地震恢复。http://thehimalayantimes.com/business/japan-assistance-for-nepal-quake-recovery/2016年11月22日访问

  65. 喜马拉雅时报(2015)尼泊尔军方表示,在坠毁的美国海军陆战队直升机上发现的8具尸体。http://www.foxnews.com/world/2015/05/16/all-8-bodies-found-at-crashed-us-marine-chopper-nepal-army-ays.html2016年11月22日访问

  66. 梵蒂冈电台(2015)捐助者承诺提供数十亿美元重建尼泊尔。http://en.radiovaticana.va/news/2015/06/25/donors_pledge_billions_of_dollars_to_rebuild_epal/11539062016年11月22日访问

  67. Arias-Hernandez R、Kaastra LT、Green TM、Fisher B(2011)《配对分析:捕获协作视觉分析中的推理过程》。2011年第44届夏威夷系统科学国际会议,第1-10页。数字对象标识:10.1109次/次。2011.339

    谷歌学者 

  68. 福克斯2新闻(2014)《青少年》在弗格森公寓大楼枪击身亡。http://fox2now.com/2014/08/09/man-shot-killed-in-ferguson-apartment-complex/2016年11月22日访问

  69. Hart SG,Staveland LE(1988)NASA-TLX(任务负荷指数)的发展:实证和理论研究的结果。收录:Hancock PA,Meshkati N(编辑)人类精神负荷。心理学进展,第52卷。阿姆斯特丹霍兰德北部,第139-183页

    第章 谷歌学者 

  70. Shrout PE,Fleiss JL(1979)《类内相关性:用于评估评分员的可靠性》。精神斗牛86(2):420

    第条 谷歌学者 

  71. Koo TK,Li MY(2016)可靠性研究类内相关系数的选择和报告指南。脊椎动物医学杂志15(2):155-163

    谷歌学者 

  72. Gabriel KR(1971)矩阵的双位图形显示及其在主成分分析中的应用。生物特征58(3):453-467

    第条 数学科学网 数学 谷歌学者 

  73. Galbraith J、Moustaki I、Bartholomew DJ、Steele F(2002)《社会科学家多元数据的分析和解释》。博卡拉顿CRC出版社

    数学 谷歌学者 

  74. Yan W(2001)Ggebiplot-多环境试验数据和其他类型双向数据的图形分析的windows应用程序。《农业杂志》93(5):1111-1118

    第条 谷歌学者 

  75. Torres-Salinas D、Robinson-García N、Jiménez-Contreras E、Herrera F、López-Cózar ED(2013)《关于对多元文献计量学和科学指标进行双标分析的使用》。美国社会科学与技术杂志64(7):1468-1479

    第条 谷歌学者 

  76. Greenacre MJ(2010)Biplots在实践中。BBVA基金会

    谷歌学者 

  77. Quezada M(2016)探索性分析。http://dcc.uchile.cl/~mquezada/galean/analysis.html2016年11月22日访问

  78. Poblete B,Garcia R,Mendoza M,Jaimes A(2011)所有的鸟都会发推吗推特在世界各地的特点。摘自:《20世纪学报》。ACM信息和知识管理国际会议。CIKM’11。ACM,纽约,第1025-1030页。数字对象标识:2014年10月14日/2006年6月357日/2006年6月3724日

    谷歌学者 

  79. 维基百科(2016)乌克兰危机。https://en.wikipedia.org/wiki/Ukrainian_crisis网站2016年11月22日访问

  80. 维基百科(2016)以色列-巴勒斯坦冲突。https://en.wikipedia.org/wiki/Israeli-Palestinian_conflict网站2016年11月22日访问

  81. Godavarthy A,Fang Y(2016)使用潜在语义建模的跨语言微博检索。2016年ACM信息检索理论国际会议论文集。ICTIR’16。ACM,纽约,第303-306页

    谷歌学者 

  82. Hasan M、Orgun MA、Schwitter R关于Twitter数据流实时事件检测的调查。《信息科学杂志》。数字对象标识:10.1177/0165551517698564

  83. Grefenstette G(2012)《跨语言信息检索》,第2卷。柏林施普林格

    谷歌学者 

下载参考资料

致谢

不适用。

数据和材料的可用性

有关数据及其说明,请访问https://doi.org/10.6084/m9.图5092678.v1.

作者信息

不适用。

基金

本研究部分由千禧年核心语义网络研究中心(Millennium Nucleus Center for Semantic Web Research)在NC120004资助下创建,由CONICYT项目FONDEF ID16I10222资助,PCHA/Doctorado Nacional 2013/21130470(VPA)、PCHA/Doctorado Natcional 2015/21151445(MQ)和Fondecyt Iniciacion 2015/11150783(DP)。

作者信息

作者和附属机构

作者

贡献

概念化:VPA MQ BP。数据管理:MQ.可视化工具:VPA。模型形式化:MQ BP。调查:VPA MQ。方法:BP DP。用户研究:VPA DP。软件:VPA MQ。数据分析:MQ VPA。项目管理:英国石油公司。资金收购:英国石油公司。监督:BP。写作-原始草稿:VPA MQ BP DP。写作-审查和编辑:BP DP。所有作者阅读并批准了最终手稿。

通讯作者

与的通信瓦妮莎·佩尼亚·阿拉亚.

道德声明

道德批准和参与同意

所有参与我们两项用户研究的用户都提供了书面同意书,并充分了解他们提供的数据将如何使用。智利大学不需要道德证书,因为我们的研究不涉及敏感用户信息。

竞争性利益

没有宣布相互竞争的利益。

出版同意书

所有作者均已同意出版。

其他信息

缩写

不适用。

出版商备注

Springer Nature在公布的地图和机构关联中的管辖权主张方面保持中立。

权利和权限

开放式访问本文根据Creative Commons Attribution 4.0 International License的条款分发(http://creativecommons.org/licenses/by/4.0/),它允许在任何媒体上不受限制地使用、分发和复制,前提是您对原始作者和来源给予适当的信任,提供知识共享许可的链接,并指明是否进行了更改。

转载和许可

关于本文

检查更新。通过CrossMark验证货币和真实性

引用这篇文章

佩纳-阿拉亚(Peña-Araya),V.,奎扎达(Quezada),M.,波布利特(Poblete),B。等。从社交媒体获取历史和国际关系见解:使用推特进行时空现实世界新闻分析。EPJ数据科学。 6, 25 (2017). https://doi.org/10.1140/epjds/s13688-017-0122-8

下载引文

  • 收到:

  • 认可的:

  • 出版:

  • 内政部:https://doi.org/10.1140/epjds/s13688-017-0122-8

关键词