人工智能运用--我的银行大众客户存款增长预测模型介绍(3)

发布时间 2023-04-27 21:13:37作者: 安顺小意思

前面完成了最初的特征选择,基本没有考虑业务逻辑,我直接使用这些特征开始进行预测了。

基于当前业界对XGBoost的推崇,我准备不走弯路,直接上XGBoost进行预测。

 从打印的“取数据完成”可以看出数据完全读取了。

下面我们用训练集进行预测,看看说明情况

 程序运行了691秒,产生了xgb模型,我们看到在训练集上的F1_score为0.9977,是不是很高兴?其实这个就是用训练题目作为考试题目,因为都做过,肯定很高的分数了。

不过因为当时不是很懂机器学习的特征变换及python语言实现,就用了这个模型直接对A榜和B榜进行了预测,是什么结果呢?

我先用常用的参数优化函数来预测以下实际结果:

 看看把数据带入的结果

我们可以看到在训练集中做预测,使用参数搜索,得到最优参数时,F1_score的取值为0.5468,由于本次比赛的A、B榜的样本分布均与训练集高度相似,实际AB榜得分为0.55,

大约排名在100名左右了,这个也是我提交的最后预测模型。

现在对模型和特征进一步分析,拿到可以指导我们实际客户管理的东西。

先看看哪些特征对客户存款上升有显著影响?我们把所有的特征的重要性用图表的方式显示以下,如下图。

用列表的方式显示以下权重:

我们看到 

('AST_FA_BAL_MAX', 1784.0),
 ('AST_YAVER_FA_BAL', 1631.0),
 ('AST_SAVER_FA_BAL', 1275.0),
 ('AST_DAY_FA_BAL', 1229.0),
 ('TPAY_SEAN_TR_AMT', 1118.0),
 ('AST_YAVER_DPSA_BAL', 1065.0),
 ('IBTF_YEAR_TR_AMT', 1043.0),
 ('AST_MAVER_FA_BAL', 1002.0),

 这些特征的影响排名靠前,他们分别是:金融资产余额最大值、年日均金融资产余额、季日均金融资产余额、当日金融资产余额、第三方交易季交易金额、年日均活期存款余额、

跨行转账年交易金额,月日均金融资产余额。

这为我们“找”客户提供了一个基本的参考,就是先看金融资产余额最大值、、年日均金融资产余额、季日均金融资产余额、当日金融资产余额、第三方交易季交易金额、年日均活期存款余额、

跨行转账年交易金额,月日均金融资产余额。

下一节我根基后期补学的有关知识进一步进行特征优化,看看能把预测F1值提高到那个水平?