逻辑回归思路

发布时间 2023-12-09 14:37:11作者: 广爷天下无双

整体建模思路
1、拿到样本先分训练集和测试集,0.7或0.8,根据样本数量考虑是否增加验证集,本次不增加验证集。
2、对训练集样本进行初筛。iv大于0.01,相关系数低于80%,缺失率根据变量中文名无特殊情况,不得高于80%。
3、对训练集先用决策树分6-8箱。此时对变量进行二次筛选。主要考虑变量是否大体单调、倒挂、具有解释性、是否集中、箱与箱之间是否能拉开差距。
4、对二筛变量考虑衍生变量。
5、进行共线性检查,VIF大于3需要删掉。再进行相关性检测,大于70%的删掉。
6、对变量进行调箱。一般五箱,缺失值视情况决定是否合并到坏样本率相近的箱。
7、转woe编码,对测试集也进行同样操作。
8、对训练集和测试集的变量做稳定性检测psi大于25%的变量画出训练集和测试集的坏样本对比图。若差距较大考虑删掉此变量。
9、建模,观察系数是否为负数,若有则删掉此变量重新建模。
10、评分卡