摘要
1 介绍
-
(i) 事件相似性: -
基于主角的位置 ,即检索发生在某个位置的所有事件,或直接涉及类似位置组的事件; -
基于对活动感兴趣的地点 ,即检索在其他位置产生类似兴趣的所有事件。
-
-
(ii) 位置相似性: -
基于地点为主角的事件 即,检索同一事件中主角的位置; -
基于他们对事件的兴趣 也就是说,检索在相同事件中表现出相似兴趣级别的位置集。
-
-
(iii) 上述各项的任何组合。
-
1 我们引入了一个名为Galean的可视化工具,用于根据我们提出的方法探索历史新闻事件集合。 该工具允许用户查看事件长期演变、参与事件的地缘政治实体之间的关系以及突发模式; -
2 我们提出了一种基于从社交媒体中提取的信息的新闻事件的新型高级表示。 这种表述强调新闻的地理和时间背景。 -
三 我们对两年的数据收集进行了探索性分析,其中我们使用我们提出的事件表示法来确定国家之间的联系和相似模式。
2 相关工作
2.1 使用社交媒体的事件模型
2.2 定量历史事件分析
2.3 基于地理的社交网络数据可视化
三 事件表示法
3.1 事件表示定义
-
1 主角位置 活动涉及的地点,以及 -
2 感兴趣的地点 ,这是用户对事件进行评论的位置。
-
产地: 指示事件所涉及的位置是本地、区域还是全球。 我们认为事件是 本地种源 如果它只涉及一个主角的位置。 我们认为事件是 区域起源 如果涉及两个或多个来自同一地区的主角位置(例如,对于国家而言,这意味着邻国或来自同一大陆 脚注 1 ). 我们认为事件是 全球起源 如果它涉及两个或多个主角位置,其中至少一个不来自同一区域。 矢量 P(P) 包含给定事件的此信息 E类 . -
影响: 根据有多少个地点对某事件感兴趣,指示该事件是本地的、区域的还是全球的。我们将事件视为 局部影响 如果它只在一个位置(即一个感兴趣的位置)生成用户的对话。 我们认为事件是 区域影响 如果它生成来自多个感兴趣位置的用户的对话,则所有用户都来自同一区域。 我们认为事件是 全球影响 如果它从多个感兴趣位置的用户生成对话,其中至少一个位置不来自同一区域。 矢量 我 包含给定事件的此信息 E类 .
3.2 表示位置之间的关系
-
产生类似兴趣的地点: 从 圆周率 我们可以根据它们在其他位置(国家)产生的兴趣级别,提取出相似的位置集(国家)。 例如,可以使用 k个 最近的邻居或通过聚类位置 圆周率 向量。 -
同一事件的主角所在地: 从 内容提供商 我们可以根据它们与其他地点(国家)的互动(即它们是同一事件的主角)来确定哪些地点(各国)相似。 例如,可以使用 k个 最近的邻居或通过聚类位置 内容提供商 向量。
4 可视化工具
4.1 接口设计
4.2 系统架构
-
1 输入: 本模块需要两个子部分,即 “新闻事件提取器” 和 “地理上下文提取器” . -
(a) 新闻事件提取器: 此子模块必须输出多组推文,其中每组推文 T型 应该代表一个连贯的新闻主题 E类 特别是,集合中的大多数推文 T型 事件的 E类 必须以特定新闻事件为主题。 然而,当我们使用事件的高级表示时,可以容忍一些噪音(即与事件不对应的推文)。 -
(b) 地理上下文提取器: 此子模块将空间上下文与中的每个推文关联 T型 每个事件的 E类 由“新闻事件提取器”模块生成。 因此,它必须提供电文中提到的地点的地理位置和电文作者的地理位置(即分别是主角和感兴趣的地点)。 此模块必须找到中的大多数推文 E类 基于GPS坐标和/或文本内容正确(即具有良好的精度),以便可以对推文中提到的位置进行地理标记,也可以对用户进行地理标记(用户可以使用GPS坐标或使用自然文本设置其位置)。
-
-
2 事件表示生成器: 此组件创建事件表示 E类 对于“输入”模块提供的每一组tweet。 特别是,此模块必须创建元组 E类 根据我们在第节中的定义 3.1 。这意味着它必须生成日期 D类 在第一条推文中,有一组关键字 K(K) 描述事件、场景 T型 推文和 P(P) 和 我 事件的位置向量。 -
三 可视化: 该模块使用“事件表示生成器”模块生成的事件表示,并生成事件可视化界面。
5 可视化工具验证
5.1 经验设置
-
1 主题识别。 这种方法不直接检测事件,而是将自己限制在主流新闻媒体帐户在推特上发布的主题。 该系统定期(每小时)检索一组人在推特上发布的头条新闻 种子 新闻报道,必须提供。 通过对循环中收集的标题集进行关联规则分析,系统输出高支持度的关键字集( \({K{1},K{2},\ldots,K{n}\}) ). 这些关键词构成了一个小时内多个新闻媒体在标题中发布的术语。 在这个特定的设置中,新闻账户的种子集对应于55家著名的国际新闻媒体(具有经验证的账户)。 这些账户大多来自美国和英国的英语来源,如@BreakingNews、@CNN、@NYTimes、@Jerusalem_Post、@AJEnglish、@NDTV等。 脚注 2 -
2 数据收集。 此阶段迭代获取(1)中生成的关键字集,并使用每个关键字集 \(K\in\{K_{1},K_2},\ldots,K_{n}\}) 查询推特搜索API以检索推特 T型 从 常规用户 它还包含关键字集(即评论与标题相同的新闻主题)。 搜索是在检索标题的同一小时内完成的,删除了几个小时以上的推文,缩小了由于事件的时间相关性而不属于新闻主题的推文数量。 原则上,每个关键字集 K(K) 被认为与一个独特的新闻主题有关 E类 然而,多个关键字集可能指的是同一个新闻主题(在一个周期内或跨多个收集周期),因此需要应用额外的步骤,在一天的时间窗口内将一组或多组推文合并为一组推文。
5.2 案例研究
5.3 关于可视化工具的专家反馈
5.4 用户研究
6 探索性分析
7 已知限制
-
实现基于数据流和网络属性的推特自动事件检测技术,以及更全面的微博事件提取方法。 -
提高地理定位工具的准确性。 尽管CLAVIN作为一种地理定位工具已经成熟,但它不能识别英语以外的语言中的位置名称(尽管该工具的文档表明它可以识别其他位置名称[ 56 ]). -
为我们系统的地理上下文提取器添加更精细的粒度,以便包括更精确的行政区划,如城市和州。 -
将用不同语言讨论同一新闻主题的事件合并。 跨语言微博检索的最新方法[ 81 ]可以在我们的框架内集成用于新闻事件检索。
8 结论和未来工作
笔记
根据划分,共考虑7大洲:亚洲、非洲、欧洲、北美、南美、南极洲和澳大利亚。 每个Twitter帐户都可以在中访问 https://twitter.com/accountname ,其中 帐户名 是帐户的名称。 此数据集将在发布后通过联系作者获得,受Twitter服务条款的限制。
工具书类
Rogers R(2013)《解密推特:研究对象的转变》。 收录:第五届ACM网络科学年会论文集。 WebSci’13。 ACM,纽约,第356-365页 Inc.,T.(2016)。 https://twitter.com(推特) 2016年11月22日访问 维基百科(2016)比较历史研究。 https://en.wikipedia.org/wiki/Comparative_historical_research 。访问日期:2016年11月22日 Castillo C、Mendoza M、Poblete B(2011)《推特上的信息可信度》。 收录于:第20届万维网国际会议论文集。 WWW’11。 ACM,纽约,第675-684页 Sakaki T、Okazaki M、Matsuo Y(2013)实时事件检测和地震报告系统开发的推文分析。 IEEE Trans Knowl Data Eng 25(4):919-931 Pak A,Paroubek P(2010)推特作为情感分析和意见挖掘的语料库。 摘自:第七届语言资源与评价国际会议(LREC’10)会议记录。 瓦莱塔欧洲语言资源协会(ELRA) Saravanou A、Valkanas G、Gunopulos D、Andrienko G(2015)《下雨时推特洪水:2014年初英国洪水案例研究》。 收录于:第24届全球网络伙伴国际会议记录。 WWW’15伙伴。 日内瓦共和国和州国际万维网会议指导委员会,第1233-1238页 Quezada M,Peña-Araya V,Poblete B(2015)社交媒体中新闻事件的位置感知模型。 在:第38届ACM SIGIR信息检索研究与开发国际会议论文集。 SIGIR’15。 ACM,纽约,第935-938页 Peña-Araya V,Quezada M,Poblete B(2015)《加利安:社交媒体地理定位新闻事件的可视化》。 在:第38届ACM SIGIR信息检索研究与开发国际会议论文集。 15年。 ACM,纽约,第1041-1042页 Maldonado J,Peña-Araya V,Poblete B(2015),社交媒体中智利新闻事件的时空特征。 输入:TAIA’15 Kalyanam J、Quezada M、Poblete B、Lanckriet G(2016)预测和描述现实世界新闻引发的社交媒体中的高活动事件。 公共科学图书馆·综合11(12):1-13。 数字对象标识: 10.1371/新闻稿.0166694 Kamath KY、Caverley J、Lee K、Cheng Z(2013)《在线模因的时空动态:地理标签推文的研究》。 摘自:第22届万维网国际会议论文集。 WWW’13。 瑞士日内瓦共和国和州国际万维网会议指导委员会,第667-678页 Leetaru K(2011)《文化学2.0:利用全球新闻媒体在时间和空间上的基调预测大规模人类行为》。 第一个星期一16(9) Chakrabarti D,Punera K(2011)使用推文的事件摘要。 参加:网络和社交媒体国际AAAI会议 Quezada M,Poblete B(2013)通过基于社会指标的多媒体摘要了解真实世界事件。 In:合作与技术。 柏林施普林格,第18-25页 Alonso O、Bannur S、Khandelwal K、Kalyanaraman S(2015)《世界对话:从社会资源生成网页元数据》。 摘自:第24届万维网国际会议记录。 WWW’15伙伴。 瑞士日内瓦共和国和州国际万维网会议指导委员会,第385-395页 Wang X,Dou W,Ribarsky W,Skau D,Zhou MX(2012)领导力:通过事件识别和探索对文本数据进行交互式可视化分析。 收录:2012年IEEE视觉分析科学与技术(VAST)会议记录。 VAST’12。 IEEE计算。 Soc.,华盛顿,第93-102页 Wang H、Can D、Kazemzadeh A、Bar F、Narayanan S(2012)2012年美国总统选举周期实时推特情绪分析系统。 摘自:ACL 2012系统演示程序。 ACL’12。 计算语言学协会,斯特劳德斯堡,第115-120页 Guille A、Favre C(2015)《推特中的事件检测、跟踪和可视化:一种基于语义的常规方法》。 CoRR公司。 1505.05657 Ritter A、Mausam、Etzioni O、Clark S(2012),从推特中提取开放域事件。 摘自:第18届ACM SIGKDD知识发现和数据挖掘国际会议论文集。 2012年KDD。 ACM,纽约,第1104-1112页 Watanabe K、Ochi M、Okabe M、Onai RJ(2011)基于传播到微博的地理位置信息的实时本地事件检测系统。 摘自:第20届ACM信息和知识管理国际会议记录。 CIKM’11。 ACM,纽约,第2541-2544页 Abdelhaq H、Sengstock C、Gertz M(2013)《EvenTweet:Twitter的在线本地化事件检测》。 VLDB Endow程序6(12):1326-1329 Walther M,Kaisser M(2013)推特流中的地理空间事件检测。 In:信息检索的进展。 施普林格,柏林,第356-367页 Lee C-H,Yang H-C,Chien T-F,Wen W-S(2011)通过挖掘微博上的时空信息进行事件检测的新方法。 主题:社交网络分析与挖掘进展(ASONAM),2011年国际会议,第254-259页 Krumm J,Horvitz E(2015)《目击者:通过推特订阅中的时空信号识别当地事件》。 收录:第23届SIGSPATIAL地理信息系统进展国际会议记录。 GIS’15。 ACM,纽约,第20:1-20:10页 Sankaranarayanan J、Samet H、Teitler BE、Lieberman MD、Sperling J(2009)推特站:推特新闻。 收录:第17届ACM SIGSPATIAL地理信息系统进展国际会议记录。 ACM,纽约 De Longueville B,Smith RS,Luraschi G(2009)“OMG,从这里,我可以看到火焰!”:一个挖掘基于位置的社交网络以获取森林火灾时空数据的用例。 摘自:2009年基于位置的社交网络国际研讨会论文集。 伦敦银行编号'09。 ACM,纽约,第73-80页 Dong X,Mavroeidis D,Calabrese F,Frossard P(2015)社交媒体中的多尺度事件检测。 数据最小知识发现29(5):1374-1405 MacEachren AM、Jaiswal A、Robinson AC、Pezanowski S、Savelyev A、Mitra P、Zhang X、Blanford J(2011)Senseplace2:GeoTwitter分析支持态势感知。 In:视觉分析科学与技术(VAST),2011年IEEE会议,第181-190页 Tan Y,Vuran MC,Goddard S(2009),网络物理系统的时空事件模型。 参加:分布式计算系统研讨会,2009年。 2009年ICDCS车间。 第29届IEEE国际会议,第44-50页 Lauw HW,Lim E-P,Pang H,Tan T-T(2010)Stevent:社交网络发现的时空事件模型。 ACM传输信息系统28(3):15:1-15:32 维基百科(2016)定量历史。 https://en.wikipedia.org/wiki/Quantitative_history网站 2016年11月22日访问 Michel J-B、Shen YK、Aiden AP、Veres A、Gray MK、Pickett JP、Hoiberg D、Clancy D、Norvig P、Orwant J、Pinker S、Nowak MA和Aiden EL(2011)使用数百万数字化书籍进行文化定量分析。 科学331(6014):176-182 Chadefaux T(2014)新闻中的战争预警信号。 和平研究杂志51(1):5-18 Suchanek FM,Preda N(2014)《语义文化组学》。 VLDB Endow程序7(12):1215-1218 数据库(2016) http://dbpedia.org 2016年11月22日访问 Huet T、Biega J、Suchanek FM(2013)《世界报》采矿史。 摘自:2013年自动化知识库构建研讨会会议记录。 AKBC’13。 ACM,纽约,第49-54页 Robertson B(2009)“Fawcett”:启动历史语义网的工具包。 数字螺柱1(2) Meroño-Peñuela A、Ashkpour A、Van Erp M、Mandemakers K、Breure L、Scharnhorst A、Schlobach S、Van Harmelen F(2014)《历史研究的语义技术:一项调查》。 Semant网站6(6):539-564 Marcus A、Bernstein MS、Badar O、Karger DR、Madden S、Miller RC(2011)Twitinfo:聚合和可视化事件探索微博。 摘自:SIGCHI计算机系统人为因素会议记录。 2011年。 ACM,纽约,第227-236页 Jadhav A、Purohit H、Kapanipathi P、Anantharam P、Ranabahu AH、Nguyen V、Mendes PN、Smith AG、Cooney M、Sheth A(2010)Twitris 2.0:语义授权系统,用于理解社会数据中的感知。 In:语义网络挑战,国际语义网络会议(ISWC) Purohit H,Sheth AP(2013)Twitris v3:从公民感知到分析、协调和行动。 收录人:Kiciman E、Ellison NB、Hogan B、Resnick P、Soboroff I(编辑)ICWSM。 门罗公园AAAI出版社 Hassan S、Sanger J、Pernul G(2014)《SoDA:大社会数据的动态可视化分析》。 In:大数据和智能计算(BIGCOMP),2014年国际会议,第183-188页 Bosch H,Thom D,Heimerl F,Püttmann E,Koch S,Krüger R,Wörner M,Ertl T(2013)Scatterblogs2:通过用户引导过滤实时监控微博消息。IEEE Trans-Vis计算图19(12):2022-2031 Ertl T、Chae J、Maciejewski R、Bosch H、Thom D、Jang Y、Ebert DS(2012)使用季节趋势分解进行异常事件检测和检查的时空社交媒体分析。 收录:2012年IEEE视觉分析科学与技术(VAST)会议记录。 VAST’12。 IEEE计算。 华盛顿特区,第143-152页 曹恩,林毅,孙X,拉泽D,刘S,曲H(2012)《耳语:实时追踪信息扩散的时空过程》。 IEEE Trans-Vis计算图18(12):2649-2658。 数字对象标识: 10.1109/TVCG.2012.291 Dörk M,Carpendale S,Collins C,Williamson C(2008)《愿景:基于网络的信息探索和发现的协同可视化》。 IEEE Trans-Vis计算图14(6):1205-1212 《全球之声》(2016) http://globalvoicesonline.org/ 2016年11月22日访问 事件注册表(2015)事件注册表系统。 http://eventregistry.org/ 2017年8月22日访问 GDELT(2013-2014)《新闻合作全球》。 全球事件数据库,语言。 和Tone(GDELT)项目。 2017年8月23日访问 BBC新闻(2014)海牙联合国法院确定的秘鲁-智利边界。 http://www.bbc.co.uk/news/world-europe-25911867 。访问日期:2016年11月22日 Shneiderman B(1996)The eyes have it:信息可视化的数据类型分类任务。 1996年IEEE视觉语言研讨会论文集,第336-343页。 数字对象标识: 10.1109/VL.1996.545307 传单(2015) http://flueljs.com/ 2016年11月22日访问 D3.js(2015) https://d3js.org/ 2016年11月22日访问 Havre S,Hetzler B,Nowell L(2000)Themeriver:主题随时间变化的可视化。 信息可视化,2000年。 InfoVis 2000。 IEEE研讨会,第115-123页 Berico Technologies(2012-2016)CLAVIN:地图位置和附近索引。 http://clann.bericotechnologies.com/ 2016年11月22日访问 Metzler D,Cai C,Hovy E(2012)通过微博档案进行结构化事件检索。 在:计算语言学协会北美分会2012年会议记录:人类语言技术。 NAACL HLT’12。 计算语言学协会,斯特劳德斯堡,第646-655页 Choi J,Croft WB(2012),微博的时间模型。 摘自:《21世纪学报》。 ACM信息和知识管理国际会议。 CIKM’12。 ACM,纽约,第2491-2494页 Aljazeera(2013)乌克兰放弃欧盟计划,转而关注俄罗斯。 http://www.aljazeera.com/news/europe/2013/11/ukraine-drops-eu-plans-looks-russia-2013121145417227621.html 2016年11月22日访问 天空新闻(2013)乌克兰抗议者现在想要领导人的头。 http://www.aljazeera.com/news/europe/2013/11/ukraine-drops-eu-plans-looks-russia-2013121145417227621.html 2016年11月22日访问 雅虎新闻(2014)乌克兰总理在动乱中辞职,议会撤销反抗议法律。 https://www.yahoo.com/news/ukraine-39-azarov-offers-resignation-government-press-083057414 –sector.html 2016年11月22日访问 福克斯新闻(2016)奥巴马总统取消了俄罗斯对乌克兰的贸易利益。 http://www.foxnews.com/politics/2014/05/07/president-obama-removing-trade-benefits-for-russia-over-ukraine.html 。2014年11月22日查阅 《纽约时报》(2014)俄罗斯向乌克兰分离主义分子派遣坦克。 美国称。 http://www.nytimes.com/2014/06/14/world/europe/ukraine-claims-full-control-of-port-city-of-mariupol.html?_r=0 2016年11月22日访问 《喜马拉雅时报》(2015)日本援助尼泊尔地震恢复。 http://thehimalayantimes.com/business/japan-assistance-for-nepal-quake-recovery/ 2016年11月22日访问 喜马拉雅时报(2015)尼泊尔军方表示,在坠毁的美国海军陆战队直升机上发现的8具尸体。 http://www.foxnews.com/world/2015/05/16/all-8-bodies-found-at-crashed-us-marine-chopper-nepal-army-ays.html 2016年11月22日访问 梵蒂冈电台(2015)捐助者承诺提供数十亿美元重建尼泊尔。 http://en.radiovaticana.va/news/2015/06/25/donors_pledge_billions_of_dollars_to_rebuild_epal/1153906 2016年11月22日访问 Arias-Hernandez R、Kaastra LT、Green TM、Fisher B(2011)《配对分析:捕获协作视觉分析中的推理过程》。 2011年第44届夏威夷系统科学国际会议,第1-10页。 数字对象标识: 10.1109次/次。2011.339 福克斯2新闻(2014)《青少年》在弗格森公寓大楼枪击身亡。 http://fox2now.com/2014/08/09/man-shot-killed-in-ferguson-apartment-complex/ 2016年11月22日访问 Hart SG,Staveland LE(1988)NASA-TLX(任务负荷指数)的发展:实证和理论研究的结果。 收录:Hancock PA,Meshkati N(编辑)人类精神负荷。 心理学进展,第52卷。 阿姆斯特丹霍兰德北部,第139-183页 Shrout PE,Fleiss JL(1979)《类内相关性:用于评估评分员的可靠性》。 精神斗牛86(2):420 Koo TK,Li MY(2016)可靠性研究类内相关系数的选择和报告指南。 脊椎动物医学杂志15(2):155-163 Gabriel KR(1971)矩阵的双位图形显示及其在主成分分析中的应用。 生物特征58(3):453-467 Galbraith J、Moustaki I、Bartholomew DJ、Steele F(2002)《社会科学家多元数据的分析和解释》。 博卡拉顿CRC出版社 Yan W(2001)Ggebiplot-多环境试验数据和其他类型双向数据的图形分析的windows应用程序。 《农业杂志》93(5):1111-1118 Torres-Salinas D、Robinson-García N、Jiménez-Contreras E、Herrera F、López-Cózar ED(2013)《关于对多元文献计量学和科学指标进行双标分析的使用》。 美国社会科学与技术杂志64(7):1468-1479 Greenacre MJ(2010)Biplots在实践中。 BBVA基金会 Quezada M(2016)探索性分析。 http://dcc.uchile.cl/ ~mquezada/galean/analysis.html 2016年11月22日访问 Poblete B,Garcia R,Mendoza M,Jaimes A(2011)所有的鸟都会发推吗 推特在世界各地的特点。 摘自:《20世纪学报》。 ACM信息和知识管理国际会议。 CIKM’11。 ACM,纽约,第1025-1030页。 数字对象标识: 2014年10月14日/2006年6月357日/2006年6月3724日 维基百科(2016)乌克兰危机。 https://en.wikipedia.org/wiki/Ukrainian_crisis网站 2016年11月22日访问 维基百科(2016)以色列-巴勒斯坦冲突。 https://en.wikipedia.org/wiki/Israeli-Palestinian_conflict网站 2016年11月22日访问 Godavarthy A,Fang Y(2016)使用潜在语义建模的跨语言微博检索。 2016年ACM信息检索理论国际会议论文集。 ICTIR’16。 ACM,纽约,第303-306页 Hasan M、Orgun MA、Schwitter R关于Twitter数据流实时事件检测的调查。 《信息科学杂志》。 数字对象标识: 10.1177/0165551517698564 Grefenstette G(2012)《跨语言信息检索》,第2卷。 柏林施普林格
基金
作者信息
作者和附属机构
贡献
通讯作者
道德声明
道德批准和参与同意
竞争性利益
出版同意书
其他信息
缩写
出版商备注
权利和权限