数据分享|用户消费行为分析预测模型、重庆市的政策数据分析

发布时间 2024-01-03 23:41:15作者: 拓端tecdat

原文链接:https://tecdat.cn/?p=34754

原文出处:拓端数据部落公众号

分析师:Xingyu Lan

企业想要发展必须掌握政策的动向。本次研究把握政策的核心要点,利用Python强大的计算生态(pandas,Matplotlib,DataFrame,request_html.Butiful Soup,wordcloud等第三方库),实现对重庆地区政策数据的清洗,可视化以及自然文本分析。从中得到有效的企业政策趋势及特点,同时给不同类型企业提供分门别类的政策信息。

解决方案

任务/目标

根据重庆市的政策数据分析得到不同行业发展建议

特征转换

把不能处理的特征做一些转换,处理成算法容易处理的干净特征举例如下:

销售日期。就时间属性本身来说,对模型来说不具有任何意义,需要把日期转变成到年份,月份,日,周伪变量。

产品特征。从产品信息表里面可以得到款式,颜色,质地以及这款产品是否是限量版等。然而并没有这些变量。这就需要我们从产品名字抽取这款产品的上述特征。

以上例举的只是部分特征。

构造

数据中字段的展示:

image.png

技术细节

image.png

image.png

image.png

image.png

image.png

image.png

image.png

image.png

image.png

基于APP的用户数据分析

本研究是基于以APP用户数据,探讨各个变量对用户是否会下单购买课程的影响。并对已有用户数据的用户是否会下单购买产品进行预测。

解决方案

任务/目标

利用已知数据预测用户是否会下单购买APP产品。利用已知数据预测用户是否会下单购买APP产品。有用户信息表 (user_info.csv) ,用户登录情况表(login_day.csv),用户访问统计表(visit_info.csv),用户下单表(result.csv),利用数据对用户行为进行数据统计与分析: image.png

数据源准备

在数据预处理时进行缺失值分析。

分析结果如下:

QQ截图20231128144503.png

对于缺失值,我选择多重插补法进行缺失值进行3次插补。

特征转换

数据中有部分分类变量的字段,我根据不同变量的特性进行数值化。

数据可视化

image.png

image.png

ANN 神经网络预测用户是否购买产品

image.png

image.png

关于作者

image.png

在此对Xingyu Lan对本文所作的贡献表示诚挚感谢,他专注机器学习、数据采集、数据分析、爬虫领域。擅长Python、SPSS、MATLAB、Excel。

A-winning-operating-model-1536x1536-100.jpg