您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 经营企划 > 基于贝叶斯分类技术的贷款风险预测
《金融数据挖掘案例分析》课程设计报告题目:基于贝叶斯分类技术的贷款风险预测学生姓名:学号:系别班级:专业(方向):指导教师:年月日基于贝叶斯分类技术的贷款风险预测摘要本文主要研究了朴素贝叶斯算法在贷款风险预测上对策应用。是一种基于最大后验概率的最优朴素贝叶斯在贷款风险的预测。思想是以训练集样本在不同朴素贝叶斯的后验概率作为反馈信息,从训练样本中选取部分最优样本,抛弃部分含有噪音的样本,作为最优的朴素贝叶斯算法。关键词:朴素贝叶斯;贷款风险;预测。AbstractThispapermainlystudiestheapplicationofCountermeasuresofnaiveBayesalgorithmintheloanriskprediction.IsakindofforecastbasedonthemaximumposteriorprobabilityoptimalnaiveBiasonloanrisk.ThoughtisthetrainingsetsamplesindifferentBayesianposteriorprobabilityasthefeedbackinformation,selectthepartoftheoptimalsamplefromthetrainingsamples,discardsomenoisysamples,asnaiveBayesoptimal.Keywords:naiveBias;loanrisk;prediction.引言:贷款风险通常是对贷款人而言的。从贷款人角度来考察,贷款风险是指贷款人在经营贷款业务过程中面临的各种损失发生的可能性。贷款风险是可以度量的,贷款风险具有可测性,可以通过综合考察一些因素,在贷款发放之前或之后,测算出贷款本息按期收回的概率。所谓贷款风险度就是指衡量贷款风险程度大小的尺度,贷款风险度是一个可以测算出来的具体的量化指标,它通常大于零小于1,贷款风险度越大,说明贷款本息按期收回的可能性越小,反之,贷款风险度越小,说明贷款本息按期收回的可能性越大。1.朴素贝叶斯分类预测方法贝叶斯分类算法是统计学的一种分类方法,它可以预测类成员关系的可能性,如给定样本属于一个特定类的概率。通过分类算法的比较研究发现,一种称作朴素贝叶斯分类的简单贝叶斯分类算法可以与判定树和神经网络分类算法相媲美。用于大型数据库,贝叶斯分类也已表现出高准确率与高速度。朴素贝叶斯分类假定一个属于值对给丁磊的影响独立于其他属性的值。这一假定称作类条件独立。做此假定是为了简化所需计算,并在此意义下成为“朴素的”。1.1贝叶斯定理设X是类标号未知的数据样本。设H为某种假定,如数据样本X属于某特定的类C。对于分类问题,我们希望确定)|(XHP—给定观测数据样本X,假定H成立的概率。)|(XHP是后验概率,或条件X下H的后验概率。例如,假定数据样本域由水果组成,用他们的颜色和形状描述。假定X表示红色和圆的,H表示假定X是苹果,则)|(XHP反映当我们看到X是红色并使圆的时,我们对X是苹果的确信程度。作为对比,)(HP是先验概率,或H得先验概率。对于以上的例子,它是任意给定的数据样本为苹果的概率,而不管数据样本看上去如何。后验概率)|(XHP比先验概率)(HP基于更多的信息(如背景知识)。)(HP是独立于X的。类似的,)|(XHP是条件H下,X的后验概率。即是说它是已知X是苹果,X是红色并且是圆的概率。)(XP是X的先验概率。使用上面的例子,它是由水果集取出一个数据样本是红的和圆的的概率。贝叶斯定理就是提供了一中由)(XP,)(HP,和)|(XHP计算后验概率)|(XHP的方法。贝叶斯定理是:)()()|()|(XPHPHXPXHp(1)1.2朴素贝叶斯分类朴素贝叶斯分类或简单贝叶斯分类的工作过程如下:(1)每个数据样本用一个n维特征向量),...,(21nxxxX表示,分别描述对n个属性nAAA...,21样本的n个度量。(2)假定有m个类mCCC...,21。给定一个未知的数据样本X(即没有类标号),分类法将预测X属于具有最高后验概率(条件X下)的类。即是说,朴素贝叶斯分类将位置的样本分配给类iC,当且仅当ijmjXCjPXCip,1),|()|(这样,最大化mjXCPj,...2,1),|(。其中最大的)|(XCPj对应的类iC成为最大后验假定。根据贝叶斯定理(1))()()|()|(XPCiPCiXpXCip(2)(3)由于)(XP对于所有类为常熟,只需要)()|(iiCPCXP最大即可。如果类的先验概率未知,则通常假定这些类是等概率的,即)(...)()(21mCPCPCP,并据此对)|(XCPi最大化。否额,可最大化mjCPCXPjj,...2,1),()|(。注意,类的先验概率可以用ssCPjj/)(计算,其中js是类iC中的训练样本数,而S是训练样本总数。(4)给定具有许多属性的数据集,计算)|(iCXP的开销可能非常大。为降低计算)|(jCXP的开销,可以做类条件独立的朴素假定。给定样本的类标号,假定属性值相互条件独立,即在属性间不存在依赖关系。这样)|()|(1iknkiCxpCXp(3)概率)|(),...,|(),|(21iniiCxPCxPCxP可以由训练样本估值。其中如果kA是分类属性,则iikikssCxp/)|(,其中iks是在属性kA上具有值kx的类iC的训练样本数,而is是iC中的训练样本数。2基于贝叶斯分类的贷款风险预测本文以某企业的装款为案例来说明贝叶斯分类预测一个未知样本的分类工作过程。2.1描述数据数据样本表示对企业还款能力产生的影响,用一个7维特征向量)...,(721XXXX表示,分别描述为以下7个变量因素:资产报酬率,企业规模,核心企业信用度,上下游企业合作密切度,营业活动收益质量,有形资产债务率,还款风险,由于要考察的是贷款企业的还款风险因此,目标类为还款风险,整理,收集所得数据库的主要属性见表1表1属性名取值资产投资率企业规模核心企业信用度上下游合作密切度营业活动收益质量有形资产债务率还贷风险15,8~15,18大,中,小高,低高,中,低90,≤9040,≤40高,低2.2预处理数据某银行2007年申请贷款企业的信息数据在表2中。数据样本用属性资产报酬率、企业规模、核心企业信用度、上下游企业合作密切度、营业活动收益质量、有形资产债务率、还带风险描述。把表2中的数据作为训练数据样本,根据表2中数据,预测未知样本某个申请贷款企业X(资产报酬率=“15”,企业规模=“大”,核心企业信用度=“高”,上下游合作密切度=“中”,营业活动收益质量=“≤90”,有形资产债务率=“≤40”)的还贷风险。表2序号资产报酬率企业规模核心企业信用度上下游企业合作密切度营业活动收益质量有形资产债务率还贷风险115中高高90≤40低28-15中高高90≤40低2.3挖掘数据要预测X(资产报酬率=“15”,企业规模=“大”,核心企业信用度=“高”,上下游合作密切度=“中”,营业活动收益质量=“≤90”,有形资产债务率=“≤40”)的还贷风险,需要最大化2,1),()|(iCPCXPii。训练数据集包含资产报酬率、企业规模、核心企业信用度、上下游企业合作密切度、营业活动收益质量、有形资产债务、还贷风险这几个属性,其中还贷风险为类标号属性,有两个取值{高,低}。设1C对应类还贷风险=“高”,而2C对应类还贷风险=“低”。每个类的先验概率)(iCP可以根据训练样本计算:429.014/6)(“高”还贷风险P571.014/8)(“低”还贷风险P为计算2,1),|(iCXPi,我们计算下面的条件概率:167.06/1)|15(“高”还款风险”“资产报酬率P667.06/4)|(“高”还款风险“大”企业规模P38-15大高低≥9040高48大低低90≤40高58大高中≥90≤40低615小高中9040低78-15小低中90≤40低88大低中≥90≤40高98小高低9040高1015大高高90≤40低1115中低高9040低1215小低低≥9040高138-15大低中≥9040高148-15小高低9040低333.06/2)|(“高”还款风险“高”核心企业信用度P333.06/2)|(“高”还款风险“中”上下游合作密切度P667.06/4)|90(“高”还款风险”“营业活动收益质量P333.06/2)|40(“高”还款风险”“有形资产债务率P500.08/4)|15(“低”还款风险”“资产报酬率P250.08/2)|(“低”还款风险“大”企业规模P750.08/6)|(“低”还款风险“高”核心企业信用度P375.08/3)|(“低”还款风险“中”上下游合作密切度P125.08/1)|90(“低”还款风险”“营业活动收益质量P625.08/5)|40(“低”还款风险”“有形资产债务率P使用以上概率,得到0027.0333.0667.0333.0333.0667.0167.0)|(“高”还款风险XP0028.0625.0125.0375.0750.0250.0500.0)|(“低”还款风险XP0012.0429.00027.0)()|(“高”还款风险“高”还款风险PXP0016.0571.00028.0)()|(“低”还款风险“低”还款风险PXP显而易见,)()|(“低”还款风险“低”还款风险PXP的可能性最大,因此,对于样本X,朴素贝叶斯分类预测还款风险=“低”。利用挖掘软件得出如下结果:图1依赖关系网络视图通过图1可以知道“还款风险”主要受“上下游企业合作密切度”和“营业活动收益质量”属性影响。图2最强连接图2说明影响“还款风险”最主要的属性是“营业收益质量”。图3属性配置文件视图图4属性特征视图由图3图4可以看出,在“还款风险”属性值为“低”的记录中,营业活动收益质量=“90”,上下游企业合作密切度=“高”的记录比较多。图5属性对比视图图5可以看出,“营业活动收益质量”=“90”更倾向于“还款风险”=“低”;“上下游企业合作密切度”=“高”更倾向于“还款风险”=“低”。3.结论朴素贝叶斯分类算法成立的前提是属性独立假定,即假定各属性之间互相独立,这一假定称作类条件独立。作此假定是为了简化所需计算,并在此意义下称为“朴素的”。贝叶斯分类的效率如何?理论上讲,与其他所有分类算法相比,贝叶斯分类具有最小的出错率。然而,实践中并非总是如此。这是由于对其应用的假定(如类条件独立)是不容易达到的。然而,种种实验研究表明,与判定树和神经网络分类算法相比,在某些领域该分类算法可以与之媲美,在处理海量数据时也表现出了较高的分类准确性和运算性能。在本文金融供应链中信用风险的各变量之间也存在一定的关系。比如资产报酬率和营业活动收益质量等,从结果看来,朴素贝叶斯仍在金融供应链信用风险预测中取得了很好的效果,这样也就促进了金融机构在发放贷款时候的信用管理,为金融机构和中小企业之间合作提供了方便。4.参考文献[1].黄静,赵庆祯。基于朴素贝叶斯的供应链金融信用风险预测分析[2].[3].
本文标题:基于贝叶斯分类技术的贷款风险预测
链接地址:https://www.777doc.com/doc-2537342 .html