您好,欢迎访问三七文档
评分卡模型0引言信用评分模型是消费信贷管理中的先进的技术手段,是银行、信用卡公司、个人消费信贷公司、电信公司、水电服务公司、保险公司等涉及消费信用的企业实体最核心的管理技术之一。被广泛应用于信用卡生命周期管理、汽车贷款管理、住房贷款管理、个人贷款管理、其他消费信贷管理等领域,在市场营销、信贷审批、风险管理、账户管理、客户关系管理等各个方面都发挥十分重要的作用。信用评分模型运用先进的数据挖掘技术和统计分析方法,通过对消费者的人口特征、信用历史记录、交易记录等大量数据进行系统的分析,挖掘数据中蕴含的行为模式、信用特征,捕捉历史信息和未来信用表现之间的关系,发展出预测性的模型,以一个信用评分来总和评估消费者未来的某种信用表现。信用评分本质上是模式识别中的一类分类问题将企业或个体消费者划分为能够按期还本付息(即“好”客户)和违约(即“坏”客户)两类。具体作法是根据历史上每个类别(如期还本付息、违约)的若干样本,从已知的数据中找出违约及不违约者的特征,从而总结出分类的规则,建立数学模型,用于测量借款人的违约风险(或违约概率),为消费信贷决策提供依据。1基于Logistic回归分析的客户信用评价卡模型本文将采用Logistic逻辑回归分析方法对小额贷款公司的客户信用进行评价。首先,建立信用评价模型,给出客户信用评分卡模型,并对客户样本进行初步分类预测。下面的理论基础和变量选择都以该小额贷款公司为例。1.1建模的准备1.1.1目标变量的定义研究的目标变量为客户是否具有“违约”行为,本文是以客户逾期未归还贷款定义为“违约”行为(即“坏”客户)。1.1.2定量指标的筛选方法第一种定量指标的筛选方法:用随机森林法寻找自变量中对违约状态影响最显著的指标。第二种定量指标的筛选方法:计算变量间的相对重要性,并通过相对重要性的排序,获取自变量中对违约状态影响最显著的指标。第三种定量指标的筛选方法:通过自变量间的广义交叉验证法,获取自变量中对违约状态影响最显著的指标。第四种定量指标的筛选方法:通过自变量的逐步回归法,获取自变量中对违约状态影响最显著的指标。第五种定量指标的筛选方法:采用“Boruta”法,获取自变量中对违约状态影响最显著的指标。1.1.3定性指标的筛选方法定性指标的筛选是通过IV值选出适用于建模的指标。IV的全称是InformationValue,中文意思是信息价值,或者信息量。挑选入模变量过程是个比较复杂的过程,需要考虑的因素很多,比如:变量的预测能力,变量之间的相关性,变量的简单性(容易生成和使用),变量的强壮性(不容易被绕过),变量在业务上的可解释性(被挑战时可以解释的通)等等。但是,其中最主要和最直接的衡量标准是变量的预测能力。“变量的预测能力”这个说法很笼统,很主观,非量化,在筛选变量的时候我们总不能说:“我觉得这个变量预测能力很强,所以他要进入模型”吧?我们需要一些具体的量化指标来衡量每自变量的预测能力,并根据这些量化指标的大小,来确定哪些变量进入模型。IV就是这样一种指标,他可以用来衡量自变量的预测能力。类似的指标还有信息增益、基尼系数等等。从直观逻辑上大体可以这样理解“用IV去衡量变量预测能力”这件事情:我们假设在一个分类问题中,目标变量的类别有两类:Y1,Y2。对于一个待预测的个体A,要判断A属于Y1还是Y2,我们是需要一定的信息的,假设这个信息总量是I,而这些所需要的信息,就蕴含在所有的自变量C1,C2,C3,……,Cn中,那么,对于其中的一个变量Ci来说,其蕴含的信息越多,那么它对于判断A属于Y1还是Y2的贡献就越大,Ci的信息价值就越大,Ci的IV就越大,它就越应该进入到入模变量列表中。前面我们从感性角度和逻辑层面对IV进行了解释和描述,那么回到数学层面,对于一个待评估变量,他的IV值究竟如何计算呢?为了介绍IV的计算方法,我们首先需要认识和理解另一个概念——WOE,因为IV的计算是以WOE为基础的。这里以年龄(age)为例来帮组了解WOE和IV值的说明和计算公式。表1按“年龄”各属性的“好”、“坏”统计Age#bad#goodWOE0-1050200=ln((50/100)/(200/1000))=ln((50/200)/(100/1000))10-1820200=ln((20/100)/(200/1000))=ln((20/200)/(100/1000))18-355200=ln((5/100)/(200/1000))=ln((5/200)/(100/1000))35-5015200=ln((15/100)/(200/1000))=ln((15/200)/(100/1000))50以上10200=ln((10/100)/(200/1000))=ln((10/200)/(100/1000))汇总1001000表1中以age年龄为某个自变量,由于年龄是连续型自变量,需要对其进行离散化处理,假设离散化分为5组,#bad和#good表示在这五组中违约用户和正常用户的数量分布,最后一列是WOE值的计算,通过后面变化之后的公式可以看出,WOE反映的是在自变量每个分组下违约用户对正常用户占比和总体中违约用户对正常用户占比之间的差异;从而可以直观的认为WOE蕴含了自变量取值对于目标变量(违约概率)的影响。再加上WOE计算形式与logistic回归中目标变量的logistic转换(logist_p=ln(p/1-p))如此相似,因而可以将自变量WOE值替代原先的自变量值;计算公式如下:𝑊𝑂𝐸𝑖=ln(𝑝𝑦𝑖𝑝𝑛𝑖)=ln(𝐵𝑖𝐵𝑇⁄𝐺𝑖𝐺𝑇⁄)式中:Bi代表第i组“违约”用户的数量,BT代表“违约”用户的总数量,Gi代表第i组“正常”用户的数量,GT代表“正常”用户的总数量,同样,对于每个分组i,都有一个IV值,IV值的计算公式如下:𝐼𝑉𝑖=(𝐵𝑖𝐵𝑇−𝐺𝑖𝐺𝑇)∗ln(𝐵𝑖𝐵𝑇⁄𝐺𝑖𝐺𝑇⁄)𝐼𝑉=∑𝐼𝑉𝑖𝑛𝑘=0IV值衡量的是解释变量对于目标变量的影响显著水平。在使用IV值来考虑解释变量对于目标变量的影响时,解释变量筛选、解释变量赋值编码和模型稳健性评估这些有先后顺序的过程可以同时进行。筛选出能够较好地预测目标变量的解释变量,并同时给出这些解释变量的一个合理的赋值编码结果。在进行建模前选择入模变量一般选择IV值较大的变量。1.1.4WOE值计算对入模的定量和定性指标,分别进行连续变量分段(对定量指标进行分段),以便于计算定量指标的WOE和对离散变量进行必要的降维。对连续变量的分段方法通常分为等距分段和最优分段两种方法。等距分段是指将连续变量分为等距离的若干区间,然后在分别计算每个区间的WOE值(计算的方法和公式在上面一节有介绍)。最优分段是指根据变量的分布属性,并结合该变量对违约状态变量预测能力的变化,按照一定的规则将属性接近的数值聚在一起,形成距离不相等的若干区间,最终得到对违约状态变量预测能力最强的最优分段。1.2基于逻辑回归的标准评分卡实现Logistic回归在信用评分卡开发中起到核心作用。由于其特点,以及对自变量进行了证据权重转换(WOE),Logistic回归的结果可以直接转换为一个汇总表,即所谓的标准评分卡格式。1.2.1基本公式Logistic回归模型其本身是一个非线性回归模型,经过logit转换(连接函数)将相应变量Y和线性自变量相联系,可以得到一个线性的形式,使用线性回归模型对参数进行估计,所以说logistic回归模型是一个广义线性模型。下面简单地介绍下Logistic回归模型。考虑具有n个独立变量的向量x=(x1,x2,…,xn),设条件概率P(y=1|x)=p为根据观测量相对于某事件x发生的概率。那么Logistic回归模型可以表示为:P(y=1|x)=11+𝑒−𝑔(𝑥)这里f(x)=11+𝑒−𝑔(𝑥)成为Logistic函数。其中g(x)=𝑤0+𝑤1𝑥1+⋯+𝑤𝑛𝑥𝑛,那么在x条件下y不发生的概率为:P(y=0|x)=1−P(y=1|x)=1−11+𝑒−𝑔(𝑥)=11+𝑒𝑔(𝑥)所以这个比值称为事件的发生比(theoddsofexperiencinganevent),简记为odds。对odds取对数得到:ln(𝑃1−𝑃)=g(x)=𝑤0+𝑤1𝑥1+⋯+𝑤𝑛𝑥𝑛1.2.2建立模型利用前面的定量指标和定性指标的筛选出来的指标作为建立模型的入模变量,利用这些变量构建Logistic回归模型,得到对应的回归方程和回归模型的系数。1.2.3模型评估通常一个二值分类器可以通过ROC(ReceiverOperatingCharacteristic)曲线和AUC值来评价优劣。很多二元分类器会产生一个概率预测值,而非仅仅是0-1预测值。我们可以使用某个临界点(例如0.5),以划分哪些预测为1,哪些预测为0。得到二元预测值后,可以构建一个混淆矩阵来评价二元分类器的预测效果,如表2所示。所有的训练数据都会落入这个矩阵中,而对角线上的数字代表了预测正确的数目,即TP+TN。表2分类结果混淆矩阵预测10合计实际1TruePostiveTPFalseNegativeFNActualPostive(TP+FN)0FalsePostiveFPTureNegativeTNActualNegative(FP+TN)合计Predictpositive(TP+FN)PredictedNegative(FN+TN)(TP+FN+FP+TN)ROC全称是“受试者工作特征”(ReceiverOperatingCharacteristic)曲线,我们根据模型的预测结果对样本进行排序,按此顺序组个把样本作为正例进行预测,每次计算出两个重要量的值,分别以它们为横、纵坐标作图,就得到了“ROC曲线”。ROC曲线的纵轴是“真正例率”(TruePostiveRate,简称TPR),横轴是“假正例率”(FalsePostiveRate,简称TPR),基于表2中的符号,两者的定义如下:TPR=𝑇𝑃𝑇𝑃+𝐹𝑁FPR=𝐹𝑃𝑇𝑁+𝐹𝑃显示的ROC曲线的图称为“ROC图”,如图1所示。图1ROC曲线和AUCROC绘图过程是:对于给定的样本集,根据建立的模型预测结果对样例进行排序,然后把分类阈值设为最大,即把所有样例均预测为反例此时真正例率和假正例率均为0,然后,将分类阈值设为每个样例的预测值,分别计算它们的TPR和FPR,得到一系列的FPR和TPR值,将它们为坐标画出ROC曲线图。用下面的例子来详细讲解画图步骤。假设已经得出一系列样本被划分为正类的概率,然后按照大小排序,下图是一个示例,图中共有20个测试样本,“Class”一栏表示每个测试样本真正的标签(p表示正样本,n表示负样本),“Score”表示每个测试样本属于正样本的概率。Inst#ClassScoreInst#ClassScore1p0.911p0.42p0.812n0.393n0.713p0.384p0.614n0.375p0.5515n0,366p0.5416n0.357n0.5317p0.348n0.5218n0.339p0.5119p0.3010n0.50520n0.1接下来,我们从高到低,依次将“Score”值作为阈值threshold,当测试样本属于正样本的概率大于或等于这个threshold时,我们认为它为正样本,否则为负样本。举例来说,对于图中的第4个样本,其“Score”值为0.6,那么样本1,2,3,4都被认为是正样本,因为它们的“Score”值都大于等于0.6,而其他样本则都认为是负样本。每次选取一个不同的threshold,我们就可以得到一组FPR和TPR,即ROC曲线上的一点。这样一来,我们一共得到了20组FPR和TPR的值,将它们画在ROC曲线的结果如下图:而AUC(AreaUnderCurve)被定义为ROC曲线下的面积,显然这个面积的数值不会大于1。又由于ROC曲线一般都处于y=x这条直线的上
本文标题:评分卡模型
链接地址:https://www.777doc.com/doc-6685774 .html