woe和iv分析,WOE分析

基于R语言的应用记分卡信用行业常见的记分卡有:应用记分卡、行为记分卡、催收记分卡、反欺诈记分卡,简称为A卡、B卡、C卡、F卡 。Discover和CapitalOne紧随其后,1995年,美国运通的风控模式开始试运行 , 1997年风控系统正式上线,在接下来的几年里,美国运通保持了快速增长,并将不良贷款降至行业最低水平,2008年,Discover将全球数据分析中心迁至上海 。

1、开篇:风控评分卡知识总结卡A一般可以作为2001年贷款的授信分析,卡A一般用于逻辑回归,卡AHPA:卡B在申请人有一定行为且数据较大后使用分析,一般为35年 。(多因素logistic回归)B卡用途:C卡要求数据较多,采集后需要添加客户反应等属性数据 。(多因素logistic回归)记分卡计算:在建立标准记分卡之前,我们需要选择几个记分卡参数:基本分数、PDO(双倍比率的分数)、好坏比率 。

如果极值占比较高,就要分析是否分类iv价值判断标准pyi是该组所有响应客户的比例(在风险模型中对应违约客户,简而言之就是指模型中预测变量值为“是”或“1”的个体) 。Pni是该组未响应客户占样本中所有未响应客户的比例woe:iv:等距装箱卡方装箱最优装箱:这里的决策树装箱应该基于不同的指标,会做出不同的装箱,基于ks,或者给定基尼系数和信息熵 。

2、基于R语言的申请评分卡信用行业常见的记分卡有:申请记分卡、行为记分卡、催收记分卡和反欺诈记分卡,简称为A卡、B卡、C卡和F卡 。一张卡主要用于贷前准入环节的新用户信用评级 。b卡主要用于预测存量用户在贷款管理环节的行为 。卡片C主要用于预测存量用户收贷后是否收贷 。

本文基于历史数据建立Logistic回归模型,预测用户违约的概率,从而建立应用记分卡模型 。本文中的数据来自“klaR”包中的Germancreditdata 。加载要使用的数据,进行初步的数据观察:数据集包含1000个样本,每个样本包含21个变量,变量的含义如下:数据清洗的主要工作包括缺失值和异常值的处理 。检查缺失值:从上面的结果可以看出,这个数据集中没有缺失值 。
【woe和iv分析,WOE分析】
3、信贷评分卡年初的时候,我参考SAS记分卡指南,编了一个如何设计记分卡的文档,后来让同事用R语言重写 。记分卡还有一个很高大上的名字 , 叫做规则引擎 。按理说 , 规则引擎要复杂得多,至少包括模型性能评估和监控、模型管理等 。而在国内,无论是监管部门还是信贷机构,对风控模型的管理要求都很低,所以很多信贷机构,尤其是非银行信贷机构,在规则引擎中除了记分卡,没有其他内容 。

有三个特点:年龄,生活条件,收入 。每个特征又分为几个属性,比如居住情况有两个属性,自有或者租住 。如果一个新用户申请贷款 , 年龄35 , 收入38K,有房,对应的信用分分别是210,225,225,加起来是660 。征信机构对信用的定义是600以上 , 600以下没有信用 , 所以会给这个用户信用 。
4、数据 分析之风控20世纪90年代初,以AmaricanExpress为首的美国信用卡金融公司开始利用数据建模来提高风险控制能力,解决精准营销等问题 。Discover和CapitalOne紧随其后,1995年 , 美国运通的风控模式开始试运行 , 1997年风控系统正式上线 。在接下来的几年里 , 美国运通保持了快速增长 , 并将不良贷款降至行业最低水平,2008年,Discover将全球数据分析中心迁至上海 。

    推荐阅读