?p=34286

原文出处：拓端数据部落公众号

分析师：Shichao Zhong

项目挑战

如何处理庞大的数据集，并对数据进行可视化展示；在后续分析中特征选择是重点之一，要根据事实情况和数据易处理的角度来筛选变量

解决方案

任务/目标

根据已有的车祸数据信息，计算严重车祸发生率最高和最低的地区；并对车祸发生严重程度进行因素分析，判断哪些外界环境变量会影响车祸严重程度，分别有怎样的影响。

数据源准备

数据记录了约350万条车祸信息，我们从中截取2017-2019年三个年份的完整记录来进行分析。其中有用的列信息包括：日期、地区、严重程度、道路方向、温度、湿度、压强、能见度、风速等13列。

因为数据集过大，因此采用Spark（Spark SQL）和MapReduce等进行数据清洗和筛选。计算各地区总共的车祸数量，以及各月份的车祸数量，用于后续的可视化。

如上图所示，条形图显示的是车祸数量减去全国平均值，而折线图描述的是高严重事故发生率（等级1、2为低严重，等级3、4为高严重）。

因素分析

因为数据量足够多，因此直接删除了有缺失值的记录，得到了770,323行数据。为了分析影响车祸严重程度的环境因素，首先需要将每个因素进行处理和筛选：

能见度：当能见度为20-30公里时，能见度为极佳。然而在数据集中，有一些记录具有非常大的能见度，我认为这些值和10英里的值是一样的，因此把这些值改为10英里，以减少异常值。

天气状况：通过counplot计算不同天气状况下的车祸数量，得到了前10个最常出现的天气状况。为了研究环境因素对车祸严重程度的影响，我们只关注天气条件不好时的数据。因此，删除了天气条件良好的行，并删除了重复的行，最终得到360,824条记录。

风寒：通过绘制了pairplot来查看连续变量之间的关联性，其中发现了一些相互之间具有高度相关性的变量(温度和风寒)。因此删除了高相关变量(Wind_chill)，以便使之后的回归分析更准确。

回归分析

在进行了特征选择和处理后，我们将剩下的变量进行回归分析。以车祸严重程度作为因变量（类别变量），以留下的环境变量为自变量，利用广义线性模型做回归分析，得到各变量的p值（如下图所示），结果表明，所有的p值均小于0.05，但其中温度和湿度的系数几乎等于0，说明这两个变量对严重程度的影响不大。民用曙暮光与风速均为正系数，因此可以推断夜间更容易发生严重事故，风速越高发生严重事故的可能性越大。气压和能见度系数均为负，因此气压和能见度越低，事故越严重。