LR模型对进入模型变量的要求
1、变量间不存在较强的线性相关性和多重共线性
2、变量具有显著性
3、变量具有合理的业务含义,符合业务逻辑
【信贷风控建模|基于逻辑回归模型的评分卡构建】第1点,可以使用单变量分析和多变量分析得到一定的约束,但是未必充分;
第2点,从系数的P值进行检验;
第3点,从系数的符号进行检验。
变量的显著性
为了获取与目标变量有较高相关性的变量,要求最终入模的变量的系数的P值很小,例如低于0.1。如果发现模型中某些变量不显著,需要检验一下两种可能性:
1、该变量本身不显著;
2、该变量显著,但是由于有一定的线性相关性或者多重共线性,导致该变量在多元回归下不显著。
先检验1的可能性,如果排除,再检验2
检验1的方法:
将该变量单独与目标变量做逻辑回归模型,如果在单变量回归的情况下,系数的P值仍然较高,即表明该变量本身的显著性较低。
注:对于IV值较高的变量,1的可能性较低。
变量的正确性
在WOE的计算公式中,
W O E i = log ? ( G o o d i / G o o d t o t a l B a d i / B a d t o t a l ) = = log ? ( G o o d i B a d i ) ? log ? ( G o o d t o t a l B a d t o t a l ) WOE_i = \log\left(\frac{Good_{i}/Good_{total}}{Bad_{i}/Bad_{total}}\right)==\log\left(\frac{Good_{i}}{Bad_{i}}\right)-\log\left(\frac{Good_{total}}{Bad_{total}}\right) WOEi?=log(Badi?/Badtotal?Goodi?/Goodtotal??)==log(Badi?Goodi??)?log(Badtotal?Goodtotal??)
当WOE为负时,表明当前箱的”危险性“高于平均样本的”危险性“,出现坏样本的概率更高,因此在逻辑回归模型中,所有变量对应的系数应该为负。
反之,如果采取的WOE的计算公式为:
W O E i = log ? ( B a d i / B a d t o t a l G o o d i / G o o d t o t a l ) = = log ? ( B a d i G o o d i ) ? log ? ( B a d t o t a l G o o d t o t a l ) WOE_i = \log\left(\frac{Bad_{i}/Bad_{total}}{Good_{i}/Good_{total}}\right)==\log\left(\frac{Bad_{i}}{Good_{i}}\right)-\log\left(\frac{Bad_{total}}{Good_{total}}\right) WOEi?=log(Goodi?/Goodtotal?Badi?/Badtotal??)==log(Goodi?Badi??)?log(Goodtotal?Badtotal??)
同理,所有变量对应的系数应该为正。
评分卡分数转化
由概率转化为分数需要满足如下条件:
(1)样本总的分数是由每个变量的分数之和累加得到;
(2)模型预测概率的变化会引起分值以某一单位刻度发生变化;
(3)每个样本的取值发生变化会引起样本分值的改变。
为了满足条件(1),而引入几率(Odds)的定义,Odds可以衡量模型预测结果为正例可能性的大小。
O d d s = p 1 ? p Odds = \frac {p}{1-p} Odds=1?pp?
p为模型预测正样本的概率。
l o g p 1 ? p = w T x = w 0 + w 1 x 1 + . . . + w n x n log\frac{p}{1-p}=w^Tx=w_0 + w_1x_1 +... + w_nx_n log1?pp?=wTx=w0?+w1?x1?+...+wn?xn?
等式左边是模型输出概率的对数几率,而等式右边是不同变量的线性加权表示,这正是条件(1)需要寻找的一种解决办法,巧妙地将概率相关表达映射为变量加权的方式。
S c o r e = A ? B l o g ( O d d s ) = A ? B ( w 0 + w 1 x 1 + . . . + w n x n ) Score = A - Blog(Odds)= A - B(w_0 + w_1x_1 +... + w_nx_n) Score=A?Blog(Odds)=A?B(w0?+w1?x1?+...+wn?xn?)
其中,A称为补偿,B称为刻度
变量的分值计算
评分卡模型性能评估
常用的审批策略包括:坏账率与通过率的审批策略,双卡审批策略
模型的在线监控
1、稳定性监控:PSI指标
2、单调性监控:Kendall’s Tau指标
3、性能监控指标:KS值、AUC值、AR值、Recall、Precision等
模型上线监控指标
指标类别 | 指标名称 | 指标偏好 |
---|---|---|
稳定性指标 | PSI | 越小越好 |
单调性指标 | Kendall’s Tau值 | 越接近1越好 |
性能指标 | KS、AUC、AR、Recall、Precision等 | 越接近模型开发时越好 |
业务指标 | 坏账率、通过率 | 越接近模型开发时越好 |
推荐阅读
- 卷积|图解(卷积神经网络数学原理解析)
- 人工智能|Github热榜(2021年33篇最酷AI论文综述!)
- 人工智能|收藏 | 计算机顶会论文投稿指南
- 办公自动化(PDF文件合并器,将多个PDF文件进行合并...)
- python|「薅羊毛」青龙定时面板——京东活动
- python|编程开源_开源社区在编程中的方式和方式
- Python舆论篇|自学Python(做不到这几点,一般人我还是劝你算了吧!)
- python|python学习笔记——day05
- Python实训笔记