量化风控知识体系-526互联

1>模型是用历史数据预测未来,必然要求场景/产品/客群在时间上相对稳定,历史规律才有可能适应未来的客群,所以要明确模型的应用场景.

2>好坏客户的确定:　　

坏客户确定方法: 滚动率以及迁徙率
号客户确定方法: 账龄分析

3>确认需求

做什么?
1. 适用于什么产品?
2. 适用于什么客群?
3. 应用于什么场景?
为什么?
1. 解决什么问题?
做么做?
1. 好坏标签怎么确认?
2. 建模样本则么筛选?
3. 特征指标怎么构造?

4>构造特征: 底层数据决定模型预测能力的上限,模型用的特征是在逼近底层数据所决定的上限,而模型算法则是在逼近特征所决定的上限.

5>单特征构造:

针对单行,一般是直接取值数据或简单加工,根据身份证号加工出年龄,性别等,
针对多行数据,则需要先把数据处理成文本型字段和数值型字段,利用多个文本型字段进行自由组合筛选,
1. 对数值型字段进行数学运算(计数,求和,求最大值,最小值,中位数,平均值,分位数,方差,标准差,偏差,偏度,峰度,离散程度)
2. 也可对特定文本字段除重计算(如个人征信中贷款机机构除重计数为贷款机构数),
3. 当多行数据是按时间记录的数据,还可以按一定频率(N天\周\月\季\年)计算环比,同比增降幅
文字性字段处理的几个思路
1. 直接采用原始文本描述, 比如信用卡类型
2. 合并相似的文本描述,例如贷款种类,房屋按揭贷款.公积金贷款可以合并为房贷,贷款机构可以划分为银行和非银等,
3. 根据时间衍生,例如可以衍生为近x天,近x月,也可以近x自然季度
4. 根据数据型字段衍生,借款金额可以衍生x万以上\x万以下
比例类特征的构造:针对上述已构造的常规特征,还可以衍生出比例特征,分为同一数值字段统计比例和不同数值字段的比例
1. 同一数值字段统计的比例类衍生,例如房贷笔数占贷款笔数的比例,近3个月征信查询次数占近一年征信查询查询的比例
2. 不同数值字段统计的衍生,例如近一年查询未放款次数占近一年查询次数的比例,信用类贷款余额占信用类总额的比
组合特征的构造: 上述3点衍生出来的特征,有的可能效果不明显,但组合起来可能会有效果,例如年龄和,分别看可能效果不明显,但是在特定行业内,年龄可能就会有一定的效果了,在说具体一点,不同年龄段的教师,其风险表现差异可能不大,,但是不同年量段的个体户,风险表现就有差异了,组合特征的够早可以来源对业务场景的理解和对风险客户特征的总结.
特征构造注意事项: 特别提醒,在特征构造的时候,,要注意对缺失值的处理,需要区分数据源缺失带来的真确实和加工逻辑带来的假缺失

6>好坏客户的定义

坏客户: 逾期到某个阶段的客户有大概率会继续变坏,一般迁徙率超过70%时,我们就可以定义逾期超过这个阶段的客户定义为坏客户
1. 滚动率: 就是从某个观察点之前的一段时间(观察期)的最坏状态,向观察点之后的一段时期(表现期)的最坏状态的发展变化情况, 滚动率观察的是一段时间内的还款状态的变化
2. 迁徙率: 是指客户从一个还款状态过度到下一个还款状态的比例,观察的是每月还款状态的变化
好客户: 是指经过了足够长的表现期,仍然正常履约的客户
1. 账龄分析:是指每月的放款项目中,在放款以后,每个账龄(还款周期)的坏客户占比,当在某个账龄之后,坏客户占比不在升高,则可定义该账龄为表现期
  1. 严格对每笔项目计算每一个账龄末, 这种方式是对每笔项目自然日对自然日的计算一个月
  2. 对放款月计算至后续每个自然月末,不管几号放款,都计算至本月底为第一个账龄,下月底为第二个账龄

7>样本选择基本要求

结论:
1. 样本选择没有标准的理论要求
2. 如何选择样本才能建出更好的模型,那得跑完模型才知道
3. 最好的办法是多订几套方案,从结果中选择最好的
客户标签,剔除灰客户,因为模型的目的是区分好坏客户,而灰客户介于两者之间,客户特征大概率也是居于好和坏之间,不利于模型学习坏客户的特征
时间范围要求
1. 尽可能选择近期的客户,时间越近的样本,理论上更贴近未来一定时间范围内的客户,则模型的泛化能力更好一点,当然前提是好客户要满足一定的表现期
2. 坏客户样本最好是同一时间区间.因为客群的特征指标会随着时间的推移而发生变化,好坏客户不在同一时间区间,可能会带来一些噪音,当好坏客户数;唉那个不足时,为了挑选合适的样本也可以突破这点限制
坏客户数量要求, 没有明确要求,实践中坏客户数量为200-500以上更好,坏客户样本过少模型可能难以全面学习到坏客户的特征
1. 坏样本不足,解决的办法:
  1. 当还有其他可选样本时,可以从其他时间段补充部分坏客户
  2. 当没有其他可选样本时,可通过坏客户过采样,SMOTE过采样,拒绝推断等方式补充
样本量要求
1. 最小样本量=100+50*n, n为用于模型训练的特征的个数
2. 最小样本量=10*n, n为用于模型训练的特征的个数
3. 逻辑回归最小样本量=500
好坏客户比例要求: 建模规则是建模样本选择时要注意: 建模样本的比例应接近真实业务且不能过低

8>异常值的处理: 我们采用均值填充或者算法拟合的时候,异常值将会对填充结果造成影响,这一点提醒我们异常值的处理应该先于缺值值的处理