您好,欢迎访问三七文档
当前位置:首页 > 临时分类 > 评分卡模型开发技术报告
评分卡模型开发技术报告韩江涛2018年02月12日Contents1前言12评分卡开发流程23数据获取33.1采样范围选择..............................................33.2收集整理数据..............................................33.3GermanCredit数据集.........................................34探索性数据分析74.1统计特性和分布.............................................74.2缺失值处理...............................................114.3离群点处理...............................................145数据准备165.1创建数据集...............................................165.2平衡训练集...............................................165.3数据分箱.................................................175.4证据权重(WoE)转换..........................................205.5相关性分析...............................................235.5.1相关系数分析..........................................235.5.2多重共线性检测.........................................246变量选取和模型开发266.1模型指标变量选择............................................266.2模型训练.................................................266.3Biasv.s.Variance..........................................297模型评价307.1混淆矩阵.................................................307.2ROC、AUC和Gini值........................................317.3KS曲线及KS值............................................328评分卡创建和实施358.1评分卡创建...............................................358.2评分验证.................................................378.3评分卡实施...............................................398.4拒绝推论.................................................399监测4010Appendix4110.1ChangeLog..............................................4110.1.12018-2-12...........................................4110.1.22017-10-20...........................................4110.1.32017-9-6............................................41参考文献42iListofFigures1评分卡开发流程图............................................22名义变量分布统计............................................83数值变量分布统计............................................94类别分布统计..............................................115查看缺失值...............................................136使用Cook距离标记离群点........................................147类别分布统计..............................................178连续变量分箱结果............................................199WoE转换结果.............................................2110信息值..................................................2211相关性分析...............................................2412LASSO回归的交叉验证曲线.......................................2713LASSOTrace.............................................2814学习曲线.................................................2915混淆矩阵及其衍生指标的定义.......................................3016ROC曲线和AUC...........................................3217KS曲线和KS-value..........................................3418GermanCredit的实际得分分布与理论分布对比.............................39ListofTables1评分卡数据介绍.............................................32评分卡刻度表..............................................353评分卡表.................................................364平衡数据集和非平衡数据集的效果对比...................................41ii1前言 信用评分卡是一种常用的信用风险量化工具。主要分为申请评分卡和行为评分卡,前者用于新贷款、授信申请的风险量化,后者主要用于贷后管理,两者具有相似的开发过程。随着中国银行业内部竞争加剧和经营水平的提高,信用评分工具也受到了越来越多的重视。本文以R语言实战的形式简要介绍信用评分卡的开发过程,实际上在开发的各个环节,都有大量值得深入挖掘的优化方法,而某些方法的实施,很可能要花项目10%的时间却只带来1%的效果提升。本文浅尝辄止,望能抛砖引玉。12评分卡开发流程 评分卡的简要开发思路就是使用有监督机器学习中的分类算法,利用已知分类的数据训练模型来预测未知数据的分类。如Figure1所示,主要分为以下步骤:数据获取,探索性数据分析,数据准备,变量选取,模型开发,模型评价,评分卡创建,评分卡实施,监测等。Figure1:评分卡开发流程图23数据获取目的:使后面所有工作能够开展工具:任何你熟悉的工具,Excel,R,SQL…… 收集数据是评分卡建模的第一步。收集数据包含两个方面的问题:数据采样范围和维度(即指标)选择。3.1采样范围选择 数据收集的时候有两个窗口:观察窗口和表现窗口。比如我们将目标变量定义为:有超过90天的逾期为坏客户,否则为好客户,而预测指标中有“近60天的平均余额”,那么在计算这个指标前,就需要对数据窗口进行对齐,比如将违约起始日期作为表现窗口的开始,按照窗口进行对齐,再计算出所需指标。再比如将坏客户定义为未来半年内有逾期可能的客户,表现窗口就会长达半年。所以数据获取,通常并不是按照自然日历获取,而是要按照窗口的定义获取。 对于申请评分卡,我们抽样一些申请通过客户并根据其后期行为标记为好、坏,然而这些客户不包括前期被拒绝的客户,这时,抽样是有偏的。将被拒客户的数据加入模型,被称为“拒绝推论”,这本质上是一个纠偏的问题。3.2收集整理数据 根据信用评分卡不同的应用,需要有经验的业务人员和数据分析人员一起确定相应的指标选取范围。指标一般可分为以下两类:1.原始指标:是指存在于数据库中的原始数据;2.衍生指标:是指分析人员对原始数据进行转换、加工、计算后得到的新指标。 通常,会在条件允许的情况下收集尽量多的指标,并根据业务先验知识,计算衍生指标。在指标严重缺乏的情况下,除了设计有业务含义的衍生指标,还可以考虑加入原始指标的幂。3.3GermanCredit数据集 本文描述了评分卡的开发过程。使用了UCIrvine的GermanCreditData1作为样例。GermanCredit数据集有20个变量,1000个样本。(R的caret包中内置了这些数据,并且经过了One-HotEncoding) 使用GermanCreditData数据集省去了收集整理数据的麻烦。数据集提供了20个特征(Attribute),这些特征中,很多也已经不是原始变量,而是统计量或已经经过分箱,这些操作和方法将在数据准备里详细介绍。一个目标变量:Class。如下表。Table1:评分卡数据介绍特征类型含义取值CheckingAccountStatusNorm.支票账户状态•A11:…0DM(马克)•A12:0=…200DM•A13:…=200DM或有一年以上的工资收入•A14:没有支票账户DurationNum.账龄(月)1著名的数据挖掘数据集,(German+Credit+Data)3特征类型含义取值CreditHistoryNorm.信用历史•A30:无贷款、所有贷款到期前已结清•A31:在本行的所有贷款已结清•A32:有贷款正常还款中•A33:有逾期历史•A34:Critical账户、在他行有未结清贷款PurposeNorm.贷款用途•A40:新车•A41:二手车•A42:家具、设备•A43:音响、电视•A44:家用电器•A45:维修•A46:教育•A47:休假•A48:再教育•A49:商务•A410:其他AmountNum.贷款金额SavingsAccountBondsNorm.储蓄账户、债券余额•A61:…100DM(马克)•A62:100=…500DM•A63:500=…1000DM•A64:…=1000DM•A65:未知、没有储蓄账户EmploymentDurationNorm.工作年限•A71:无业•A72:…1年•A73:1=…4年•A74:4=…7年•A75:…=7年InstallmentRatePercentageNum.还款占收入比例4特征类型含义取值PersonalNorm.个人状态•A91:男,离异、分居•A92:女,离异、分居、已婚•A93:男,单身•A94:男,已婚、丧偶•A95:女,单身OtherDebtorsGuarantorsNorm.其他借方或担保人•A101:无•A102:共同还款人
本文标题:评分卡模型开发技术报告
链接地址:https://www.777doc.com/doc-8542873 .html