您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 信息化管理 > 分类规则在金融行业的应用分析
分类规则在金融行业的应用分析摘要:数据库内容丰富,蕴藏大量信息。数据挖掘的主要任务是对大型数据库中的海量业务数据进行抽取、转换、分析和模型化处理,从中提取辅助决策的关键性数据和隐藏的预测性信息。其功能是在指定的数据集中发掘出数据间潜在的模式,找出人们可能忽视的信息,以便于理解和观察的形式反映给用户,并给出基于知识的决策分析意见和结论。随着数据挖掘的蓬勃发展,它的功能会越来越多。分类规则就是其中一种,它可以用于提取描述重要数据类的模型。许多分类方法已被机器学习、专家系统、统计学以及神经生物学方面的研究者提出。基于以上内容,可以建立一个分类模型,进行详细的分析,对保险客户的信用、安全或风险进行分类评价。关键词:数据挖掘;分类;金融;保险前言:数据挖掘的主要任务是对大型数据库中的海量业务数据进行抽取、转换、分析和模型化处理,从中提取辅助决策的关键性数据和隐藏的预测性信息。其功能是在指定的数据集中发掘出数据间潜在的模式,找出人们可能忽视的信息,以便于理解和观察的形式反映给用户,并给出基于知识的决策分析意见和结论。分类规则一种数据分析形式,可以用于提取描述重要数据类的模型。许多分类方法已被机器学习、专家系统、统计学以及神经生物学方面的研究者提出,同时基于分类规则方法的数据挖掘被广泛应用于金融行业。正文:分类规则在金融行业的应用分析众所周知,数据库内容丰富,蕴藏大量信息,可以用来作出智能的商务决策。数据分类是数据挖掘的功能之一,也是数据挖掘领域一种非常重要的任务,在神经网络、专家系统、统计学习中得到较早的研究,并且目前在商业中得到了广泛的应用。数据分类实际上就是从数据库对象中发现共性,将数据对象分成不同几类的一个过程,具体来说是在己有数据的基础上建立一个分类函数或构造出一个分类模型,该函数或模型能够把数据库中的数据纪录映射到给定类别中的某一个,从而可以应用于数据预测。分类是一种有监督的学习。本文就数据挖掘中的分类规则的相关知识进行详尽分析与应用说明。一、数据分类的概念数据分类是找出数据库中的一组数据对象的共同特点并按照分类模式将其划分为不同的类,其目的是通过分类模型,将数据库中的数据项映射到摸个给定的类别中。可以应用到涉及到应用分类、趋势预测中,如淘宝商铺将用户在一段时间内的购买情况划分成不同的类,根据情况向用户推荐关联类的商品,从而增加商铺的销售量。二、分类规则的分析分类定义为:给定数据库S={s1,s2,…,sn},元组si∈S,类的集合C={c1,c2,…,cm},分类问题定义为从数据库到类集合的映射f:S→C,即数据库中的元si分配到某个类Cj中,有Cj={si|f(si)=cj,1≤i≤n,si∈D}。数据分类是一个两步过程。第一步,建立一个模型,描述预定的数据类集或概念集;第二步,使用模型进行分类。通常在分类任务中数据集被划分为训练集和测试集两个部分。数据集中用来建立模型数据称为训练集,训练集是构造分类器的基础。训练集由多条数据库记录组成,每条记录是一个由多个个相关字段值组成的特征向量,称之为属性,训练集的每条记录还有一个特定的值与之对应,用于表示该记录的类别,称之为类标签。测试集是数据集中的另外一组数据库记录,用来评估分类模型的准确率。数据分类的基本技术有:判定树归约、贝叶斯分类和贝叶斯网络、神经网络。三、判定树归约判定树是一个类似于流程图的树结构,其中每个内部节点表示在一个属性上的测试,每个分枝代表一个测试输出,而每个树叶节点代表类或类分布。树的最顶层节点是根节点。在判定树构造时,许多分枝可能反映的是训练数据中的噪声或孤立点。树剪枝试图检测和剪去这种分枝,以提高在未知数据上分类的准确性。判定树作为一种常用的机器学习方法,主要用于建立预测模型,它通过将大量数据有目的分类,从中找到一些有价值的、潜在的信息。它的主要优点是描述简单,分类速度快,特别适合大规模的数据处理。判定树归约的基本算法是贪心算法,它自顶向下递归的各个击破方式构造判定树。设S是s个数据样本的集合。假定类标号属性具有m个不同值,定义m个不同类Ci(i=1,...,m)。设si是类Ci中的样本数.一个给定的样本分类所需的期望信息由下式给出:miiimppsssI121)(log),...,,(设属性A具有V个不同值{a1a2,...,av}。可以用属性A将S划分为v个子集{S1,S2,...,Sv};其中。Si包含s中这样一些样本,它们在A上具有值aj。如果A宣威测试属性(即最好的分裂属性),则这些子集对应于由包含集合S的节点生长出来的分枝。设sij是子集sj中类Ci的样本数。根据由A划分成子集的熵或期望信息由下式给出:),...,,(]/)...[()(21121mjjjvjmjjjsssIssssAE其中:sssmjj...s21j充当第j个子集的权,并且等于子集(即A值为aj)中的样本个数除以S中的样本总数。熵值越小,子集划分的纯度越高。对于给定的子集Sj,miijijmjjjppsssI1211log),...,,(在属性A上分支将获得的信息增益为)(),..,,()(ain21AEsssIAGM算法计算每个属性的信息增益。具有最高信息增益的属性选作给定集合S的测试属性。创建一个节点,并以该属性标记,对属性的每个值创建分枝,并据此划分样本。四、分类规则在保险行业中的应用分析随着社会发展,金融行业逐步崛起。以此同时,必然存在金融风险,风险管理是每一个金融机构的重要工作。利用数据挖掘技术不但可以从这海量的数据中发现隐藏在其后的规律,而且可以很好地降低金融机构存在的风险。社会保障体系的在日益健全,保险业取得了蓬勃的发展,发挥着越来越重要的使用。如何保持现有客户,争取潜在的客户以及如何识别诈骗行为等,是保险业中面临的主要问题。数据挖掘技术是解决这些问题的有效方式,对业务数据、客户数据等各种数据分析,有利于保险公司开展业绩评价、财务预算、市场分析、风险评估和风险预测等,大大提高了企业防范和抵抗经营风险的能力和水平,也为管理人员提供科学的决策依据。下面就分类规则在保险行业客户流失分析中的应用的例子进行详细说明。以下是一个简单的电信客户资料集合来说明判定树的建立。给出数据集,其中有9个样本,通过三个输入属性描述并且全部属于两个类(流失、不流失)之一。以表格的形式给出数据集合如表1所示性别男女女女男男女女男年龄244523484651303543投保优惠不优惠不优惠优惠不优惠不优惠优惠不优惠优惠不优惠是否流流失流失不流失不流失不流失流失不流失不流失不流失失表1保险客户资料表根据以上数据可以进行判定树归约:(1)计算给定样本分类所需的期望信息I(T)=−3/9log23/9-6/9log26/9=0.9184(2)计算每个属性的熵性别:Ix1(T)=4/9(-1/2log21/2-1/2lg21/2)+5/9(-1/5log21/5-4/5log24/5)=0.9Gain(x1)=0.9184-0.9=0.0184客户年龄:此属性是个连续变量,先离散化处理。这里的离散化是把连续的样本排成顺序,然后找出它的中间某个值(称作阀值),使得根据阀值计算出来的信息增益达到最大。例子中客户年龄的阀值是{23,24,30,35,43,45,46,48,51},从这几个值中选取最优阀值(最高信息增益),对于这的例子来讲阀值选定为48。Ix2(T)=2/9(-1/2log21/2-1/2lg21/2)+7/9(-2/7log22/7-5/7log25/7)=0.721Gain(x2)=0.9184-0.721=0.1974优惠情况:Ix3(T)=3/9(-1/3log21/3-2/3log22/3)+6/9(-1/3log21/3-2/3log22/3)=0.9183Gain(x3)=0.9184-0.9183=0.0001比较三个属性的信息增益,可以看出客户年龄具有最高信息增益率,所以选择客户年龄对决策树进行首次分区,如图2。由于第二个集合子节点的样本仍然不同属于一个类,所以还要继续对第二个数据集采取同样的方法进行分区,直到树的每个分支都属于同一个类为止,最后得出结果如图3。图2首次分区后的判定树图3判定树分区后的结果图从这最后的结果图中可以很明显的得到一些信息:当年龄大于48岁的时候流失;当年龄小于或等48岁并且入网时享受优惠时客户不流失,并且全部是女客户。基于上述分类规则在保险业的应用,可以看出,经过一系列的数据计算,将原本大数据分类合并,根据算出的期望得到各自的信息增益,通过信息增益发现事件的本质与关键因素。在这些关键指标确立后,为决策者提供更好的决策方案。结论:以保险业利用分类规则中的判定树归约进行客户流失分析的案例,用来说明分类规则的金融行业的应用、解决的问题、如何解决以及可以得到什么结论。经过数据分类后得到各个因素的影响力,可以用来分析含有多种因素的事件,得到想要的结论。正是如此,它被广泛运用于金融领域。在社会发展的同时,数据挖掘技术正不断推动着金融行业的发展。在这个领域中,数据挖掘中的分类规则可以应用于客户关系管理、业绩评价、财务预算、市场分析、风险评估和风险预测等多个相关领域之中,大大提高了金融市场的效率,降低金融机构存在的风险。参考文献:JiaweiHan、Michelinekamber著范明、孟小峰等译.数据挖掘概念和技术.:机械工业出版社,2001年赵卫东.商务智能(第二版):清华大学出版社,2011年保险案例参考:马江.数据挖掘技术在保险公司客户流失预测中的应用研究:西安理工大学硕士学位论文2010年数据挖掘在电信行业客户流失分析中的应用研究
本文标题:分类规则在金融行业的应用分析
链接地址:https://www.777doc.com/doc-2643465 .html