您好,欢迎访问三七文档
当前位置:首页 > 金融/证券 > 金融资料 > 数据挖掘在信用卡方面的应用
数据挖掘在信用卡方面的应用【摘要】信用卡业务在中国的发展方兴未艾,竞争也日趋激烈。如何更多地了解客户的信息,并将这种信息转变成“知识”,从而更好地为客户提供高质量的个性化服务,保持和发展高价值的客户,已经成为各银行开展信用卡业务的一个紧迫的课题。目前,应用于信用卡营销中的技术手段包括数据库营销,以及利用最新引入营销领域的数据挖掘技术营销。新兴的数据挖掘技术能够从海量的信用卡业务存储数据中发现一些未知的,有价值的规律,无疑为银行提供个性化地信用卡服务提供了强有力的支持。本文在数据挖掘技术在信用卡客户营销和信用风险管理方面的应用,主要分析了客户细分模型、客户流失模型、客户信用许可模型、客户行动态跟踪模型、欺诈鉴别与管理模型。【关键词】数据挖掘;客户营销;风险管理;响应度模型一、引言随着市场的不断发展,银行之间的竞争也越来越激烈。银行需要更多地了解用户以能在最短的时间里响应他们的需求。银行的主要业务之一——信用卡业务正逐步完善,银行的信用卡业务逐渐体现出发行数量大、客户众多、交易频繁、交易信息全面准确等特点,客观上具备了进行多维数据分析和数据挖掘的条件。同时,信用卡业务数据分析和挖掘能够为业务管理人员和决策者动态地制作各类报表,利用智能数据挖掘工具发现信用卡行为模式,分析信用卡市场并进行市场预测,这也正好与银行提高服务质量、拓展市场、降低经营风险、提高经营效率的目标相符合。基于数据挖掘的信用卡管理系统正是为了适应银行目前的这种需求而研发的。数据挖掘即数据库中的知识发现,就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、潜在有用的信息和知识的过程。二、数据挖掘在信用卡客户营销中应用2.1基于数据挖掘的信用卡营销信用卡营销是指通过激发和挖掘人们对信用卡商品的需求,设计和开发出满足持卡人需求的信用卡商品,并且通过各种有效的沟通手段,使持卡人接受并使用这种商品,从中获得自身最大的满足,以实现经营者的目标。近年来,由于信用卡市场竞争越来越激烈,任何一种信用卡要想抢占更多的市场份额,都必须不断地创新其营销手段。数据挖掘技术被广泛应用到市场营销中是以市场细分原理为基础,假定“消费者过去的行为是其今后消费倾向的最好说明”于数据挖掘的信用卡营销实质是利用数据挖掘方法实现信用卡营销预测的过程。在数据挖掘方法中,回归模型、决策树模型是目前最常应用于营销预测方向的数据挖掘方法。2.2基于数据挖掘的信用卡营销响应度建模这里所定义的信用卡营销响应度是指银行在进行信用卡营销,特别是宣传、促销活动的时候,接受营销活动的客户做出的回应,即客户提出信用卡申请的可能性。本文所要建立的信用卡营销响应度模型,是通过对商业银行目前积累的大量的客户数据进行一系列的处理,利用不同预测类数据挖掘方法对所有银行已有客户的信用卡营销响应度进行预测,通过评估不同模型的预测效果,选择最适合的数据挖掘方法建立完整的数据挖掘流程,从而给出每个客户对信用卡宣传活动的响应度,并同时得到对应于不同响应度的客户群的特征。通过建立这样一个信用卡营销响应度模型,商业银行一方面可以利用模型的预测结果,对具有不同特征、不同响应度的客户群进行有选择和有针对性的宣传活动,从而减少信用卡宣传活动的盲目性;另一方面还可以利用该模型对任意一个或多个新客户进行信用卡营销响应度预测,给出该客户的响应度。以下给出信用卡营销响应度模型的数据挖掘流程示例:1、信用卡营销响应度模型建模数据准备本文所使用的数据源为某银行截止到2006年5月1日的所有客户信息数据,本文所要引用的主要数据库属性如表1所示。其中,信用等级由银行在客户开户的时候根据其内部信用评分系统给出;年龄随系统时间更新;收入水平为年收入。对于有多个账户的客户,经过处理后将该客户的同类账户余额的汇总金额作为账户余额。表1信用卡响应度模型的数据挖掘数据源表属性变量名变量说明变量类型取值说明Cif_num客户编码文本——Name姓名文本——Sex性别文本男,女Certype证件类型文本身份证、护照、军证Cert_number证件号码文本——Birthdate_yyyy出生年数字四位数值Touch_addr联系地址文本——Handset联系方式文本——Credit_level信用等级文本优、良、中、差odate_yyyy档案建立年数字四位数值Psbk_bal存款余额数字连续性数值Loanbin贷款余额数字连续性数值Bin不良贷款数字0、1“1”代表有不良贷款Age年龄数字系统年与出生年之差Income年收入数字连续数值在上述数据基础上进行的数据挖掘建模数据准备是指为实施各种数据挖掘方法而对数据源进行的包括数据探索、抽样、分块、变量转换以及缺失值替换等一系列的数据准备工作。2、信用卡营销响应度数据挖掘建模经过以上数据准备环节后输出的数据集就可以用来建立数据挖掘模型。(1)信用卡营销响应度逻辑回归模型逻辑回归和线性回归的主要区别在于依赖变量(目标变量)是连续的还是离散的。逻辑回归的依赖变量是不连续的,而是离散的或类型变量,例如本文要预测信用卡营销活动中客户的响应只有响应和非响应两个值,所以本文选用逻辑回归进行数据挖掘建模。逻辑回归的原理可以简单地解释为一组前提、假设和结论。前提:依赖(目标)变量非连续,通过对依赖变量进行转换,使之成连续的值,即关于事件发生的概率的函数。假设:p为事件发生的概率;p/(1-p)是事件发生的可能性;ln(p/(1-p))是预测因子的线性函数。结论:通过发现预测因子x与ln(p/(1-p))之间的线性关系:Ln(p/(1-p))=β0+β1X1+……+βnXn,导出预测系数或权重后,最终的概率用公式(1)来计算p:公式(1)结论中的回归系数i(1,2,,)imL的值通常采用极大似然法来估计参数,具体的步骤简述为:第一步,构造一个似然函数L;第二步,取释然函数对数值Lln,对Lln求关于i的一阶偏导数lniL0,1,2,,im;第三步,采用迭代法求解非线性方程组:0ln0ln0ln10mLLL公式(2)由公式(2)解出的01,,m就是模型的参数估计。本文中,设相关客户信息变量为x,客户对信用卡营销的响应概率的预测为p,则在利用SAS/EM回归工具建模的相关设置如下:(1)将credit设为依赖变量;(2)根据逻辑回归原理选择LOGIT为链接方程;(3)由于引入的预测中存在离散的字符型变量,所以在引入回归过程的时候要进行数量化编码,又因为“信用等级”变量包括011011(......)(......)exp/(1exp)nnnnXXXXp四个属性值,所以这里建模的时候选择通用线性模型法进行数量化编码;(4)为了逐一验证客户信息中影响目标变量的因素,选择回归方式为逐步回归法,通过逐个引入数据源中的相关变量,利用上述回归原理,预测该变量与依赖变量之间的关系,最后不仅可以得到反映各个变量与依赖变量之间的关系,同时还可以得到在各个变量的作用下,每一个客户对信用卡营销响应的预测概率。将变量引入或剔除的显著性水平设置为0.05,运行上述逻辑回归设置得到如表2:表2逻辑回归结果ParameterDDFEstimateStandardErrorWaldChi-squarePrChisquareStandardizedEstimateExp(Est)Intercept1-156.00.19476421.3.9.0001.0.000Psbk_bal12.25E-61.31E-7295.28.00011.4599631.000Income10.0001234.43E-6767.24.00011.0842051.000C_credut_level1152.10.0735428.0001.999.000Age1-0.08000.00569197.71.0001-0.6068960.923通过该结果可以看出除了变量loanbin(贷款余额)之外,psbk_bal(存款余额)、income(收入水平)、c_credit_level(信用等级)、age(年龄)四个变量作为回归方程中的主要变量对目标变量credit(营销响应)都具有很强的预测能力,其卡方概率都低于0.0001。说明在数据源中,客户的存款余额、收入水平、信用等级、年龄四个变量是影响客户在接受信用卡营销时所做出的响应的主要因素。利用Estimate值可以得到预测credit的回归方程。(2)信用卡营销响应度决策树模型建立决策树的目的是要将所有的数据对象划分到不同的组,划分的原则是极大化响应变量在每一个组中的相似性。使用决策树建模的最大好处是结果易于解释。本文使用决策树建模的目的是将所有的客户按照一定的分类算法生成决策树,从而得到不同营销响应率的分组人群,同时还可以进一步考察不同分组人群的分组特征,为进一步制定营销计划提供帮助。本文利用SAS/EM工具构建的CART分类树模型得到如下分类规则:①IF30007.5=年收入30036.5THENN:91:13.1%0:86.9%②IF1352755.5=存折余额AND档案建立年1993.5AND20.5=年龄AND30036.5=年收入THENN:111:10.7%0:89.3%③IF性别EQUALS女AND11=存折余额1352755.5AND档案建立年1993.5AND20.5=年龄AND30036.5=年收入THENN:281:79.2%0:20.8%④IF性别EQUALS男AND11=存折余额1352755.5AND档案建立年1993.5AND20.5=年龄AND30036.5=年收入THENN:561:54.6%0:45.4%⑤IF30036.5=年收入32383.5AND1993.5=档案建立年AND20.5=年龄AND11=存折余额THENN:1521:75.9%0:24.1%由以上规则可以看出,决定客户对信用卡营销响应度的最主要因素取决于客户的收入水平,在收入水平都达到一定程度(以本数据源为依据的标准为年收入30036.5元人民币以上)的时候,决定该客户是否愿意接受本银行所发出的信用卡营销活动,取决于其在本行的存款账户余额的多少。在存款余额高于一定水平的情况下,客户的响应度差别取决于其年龄。继续分支的标准是“档案建立年”,客户响应百分比最高为79.2%。利用该规则,信用卡营销决策人员就可以针对某个响应度来确定营销对象群体的特征,根据这个特征进行具体的营销策划。(3)信用卡营销响应度数据挖掘模型比较数据挖掘的一个方面是需要以满足分析目的的方式表达最终结果。对于商业数据需要评估这些模型,不仅仅是对这些模型进行分析,而且要对由这些模型产生的结果进行比较。本文利用Lift图评估上述两个模型得知:两个模型的性能接近,但模树模型和回归模型,在Lift图的第一个10分位点的lift值分别为8.75和6.48,这意味着使用决策树模型的成功率是随机选择(不用模型)的8.75倍,而使用回归建模的成功率是随机选择的6.48倍。所以,决策树模型的应用效果更好。2.3数据挖掘在信用卡营销中的体现在信用卡发卡量高速增长的同时,信用卡发卡质量和效益并没有得到同步提高。当前国内的信用卡市场存在很多问题,如发卡银行盲目发卡,导致资源浪费;信用卡激活率低;赢利水平低等;客户忠诚度水平低,剪卡率居高不下等现象。从上述信用卡市场存在的问题中,可以看出银行业信用卡业务的竞争已不仅仅是市场份额的竞争,而更多地表现为对优质客户占有量的竞争。下面介绍数据挖掘技术在信用卡营销中的具体应用。2.3.1客户细分分析(1)基于信用评分的细分信用卡业务的主要利润来源是客户信用交易带来的利息收入,因此客户价值也就是客户的信用价值,基于价值的细分也就是基于信用价值的细分。客户信用评分是在客户以往信用行为的基础上,对客户下一个周期可能带来的最大信用价值的累计预测,也就是通过客户服务能够挖掘的最大客户信用价值。信用评分的
本文标题:数据挖掘在信用卡方面的应用
链接地址:https://www.777doc.com/doc-2428938 .html