计算机工程与应用››2021,第57卷››发行(21): 116-122.内政部:10.3778/j.issn.1002-8331.2010-0269

大数据与云计算 • 上一篇   下一篇

交通行业事故文本数据的可视化挖掘分析方法

程宇航,张健钦,李江川,张安  

  1. 北京建筑大学 测绘与城市空间信息学院,北京 100044
  • 出版日期:2021-11-01 发布日期:2021-11-04

交通事故文本数据的可视化挖掘与分析方法

程宇航、张建勤、李江川、张安  

  1. 北京土木工程与建筑大学地理信息与城市空间信息学院,北京100044
  • 在线:2021-11-01 出版:2021-11-04

摘要:

为降低交通行业安全生产风险,深入分析以文本形态隐式存在于事故数据中的时空特征及潜在致因,在用户字典模式对文本数据分词的基础上,使用Word2vec公司Sigmoid激活函数,构建交通安全事故词向量模型,对交通行业安全事故关键词进行分类提取,获得分别包含特征及致因属性的两类关键词,并利用Gephi和Neo4j对特征关键词进行可视化分析以及致因主题总结,对事故时空特征及致因关键因素进行深入挖掘。以北京市为例研究发现:交通安全事故主要集中发生在第三季度,且城六区在事故总量上远高于外环城区,但伤亡比例外环城区较高;通过致因关键词总结,发现人为设备及环境因素是交通安全事故的主要致因因素;结合以上分析结果,提出合理建议,为北京市交通行业安全生产相关管理部门提供信息支持和科学指导。

关键词: 文本数据, 交通安全事故, 词向量, 关键词分类提取, 可视化分析

摘要:

为了深入分析隐藏在交通运输行业安全生产文本数据中的时空特征和成因,选取相关论文中的特征和致使词作为语料库,利用Word2vec构建交通事故词的向量模型,利用Sigmoid函数对北京交通行业安全生产事件的关键词进行分类,得到时空特征和因果因素两类关键词,利用Gephi和Neo4j对特征关键词进行可视化分析,通过因果主题的总结,分析因果因素关键词。结果表明,交通事故主要发生在第三季度,中心城区六个城区的事故总数远远高于其他城区,其他城区的伤亡比例更高。人、设备和环境因素是交通事故的主要原因。基于以上分析,本文提出合理化建议,为北京市交通运输业安全生产相关管理部门提供信息支持和科学指导。

关键词: 文本数据, 运输安全事故, 单词向量, 关键词分类, 目视分析