远东理论统计杂志
第45卷,第1期,第67-89页(2013年10月)
|
|
一种新的二元数据聚类遗传算法及其在基督教道路交通事故中的应用
Sabariah Saharan和Roberto Baragona
|
摘要: 由于事故成本和公共道路安全,交通事故分析变得越来越重要。大量数据集的可用性使得对可能影响事故频率和严重程度的因素的研究成为可能。我们处理2000年至2009年新西兰基督城记录的交通事故二进制数据集。(26440条记录中的50个因素分为4个严重级别。)我们使用聚类分析来衡量因素在整个数据集上的相似性,并分别针对严重级别来概括事故类型和所涉及因素之间的关联。基于众所周知的几个算法k个-means算法和变体是专门为二进制数据设计的。然而,众所周知,它们往往表现出对初始值的依赖性,并倾向于将局部最优解作为解决方案。提出了一种新的遗传算法来提高增量算法的性能k个-均值算法(C.Ordonez,聚类二进制数据流K(K)-是指,ACM SIGMOD DMKD研讨会,2003年,加利福尼亚州圣地亚哥[11])。目标函数基于一些足够的统计数据,这些统计数据可以方便快捷地计算二进制数。结果可能会让我们对因素和事故严重程度之间的相似性或差异性有一个有趣的见解,并表明,虽然与致命事故和严重事故同时记录的因素很少,而且彼此相距遥远,相反,大量类似因素与被归类为轻微或非伤害事故的事故同时记录。 |
关键词和短语: 二进制数据、聚类分析、遗传算法、,k个-均值算法,道路交通事故。 |
|
下载次数:266 |视图数量:705 |
|