您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 管理学资料 > 数据挖掘模型介绍2016
刘海飞数据挖掘模型21.数据挖掘概念与流程2.数据挖掘模型介绍•决策树模型•聚类模型•关联模型•回归模型•时间序列模型•主成分与因子模型•神经网络模型目录数据挖掘(DataMining)是通过分析每个数据,从大量数据中寻找其规律的技术。3个步骤:数据准备、规律寻找和规律表示。挖掘任务:关联分析、聚类分析、分类分析、异常分析、特异群组分析和演变分析等。由DaimlerChrysler、SPSS和NCR三家机构共同发展起来的数据挖掘方法论()CRISP-DM(Cross-IndustryStandardProcessforDataMining,跨行业数据挖掘标准流程)注重数据挖掘技术的应用。CRISP-DM过程模型从商业的角度给出对数据挖掘方法的理解。目前数据挖掘系统的研制和开发大都遵循CRISP-DM标准,将典型的挖掘和模型的部署紧密结合。3数据挖掘--CRISP-DM模型4数据挖掘--CRISP-DM模型CRISP-DM模型过程的挖掘流程包括:业务理解、数据理解、数据准备、建立模型、模型评价、模型实施。业务理解数据理解数据准备建立模型评价实施数据CRISP-DM数据挖掘流程数据挖掘(DataMining)技术主要无监督和有监督两大类。无监督数据挖掘:不区别对待各个变量,而只是考察变量间的关系。有监督数据挖掘:从数据中获得深度细致的信息,根据一些变量建立模型,来预测另一些变量。有监督数据挖掘方法:聚类分析、因子分析、主成分分析、神经网络、预测等;无监督数据挖掘方法:关联规则挖掘、时序挖掘、偏差分析等。5数据挖掘技术6找出一个类别的概念描述,它代表了这类数据的整体信息,即该类的内涵描述,并用这种描述来构造模型,一般用规则或决策树模式表示。分类是利用训练数据集通过一定的算法模型而求得分类规则。分类可被用于规则描述和预测。目前比较常见的分类算法有决策树算法、贝叶斯分类和支持向量机算法(SupportVectorMachine)等等。分类算法训练数据集决策树分类算法评估模式预测预测结果类别未知的数据集测试集1、创建决策树过程2、使用决策树模型预测过程决策树分类模型的工作过程图BuildingTree基本思想:提取分类规则,进行分类预测判定树分类算法output训练集决策树input决策树进行分类步骤决策树生成算法分成两个步骤树的生成•开始,数据都在根节点•递归的进行数据分片树的修剪•去掉一些可能是噪音或者异常的数据决策树使用:对未知数据进行分割按照决策树上采用的分割属性逐层往下,直到一个叶子节点决策树算法基本算法(贪心算法)自上而下分而治之的方法开始时,所有的数据都在根节点属性都是种类字段(如果是连续的,将其离散化)所有记录用所选属性递归的进行分割属性的选择是基于一个启发式规则或者一个统计的度量(如,informationgain:信息增益)停止分割的条件一个节点上的数据都是属于同一个类别没有属性可以再用于对数据进行分割伪代码(BuildingTree)ProcedureBuildTree(S)用数据集S初始化根节点R用根结点R初始化队列QWhileQisnotEmptydo{取出队列Q中的第一个节点NifN不纯(Pure){for每一个属性A估计该节点在A上的信息增益选出最佳的属性,将N分裂为N1、N2}}信息增益度度量任意样本分类的期望信息:I(s1,s2,……,sm)=-∑Pilog2(pi)(i=1..m)•其中,数据集为S,m为S的分类数目,Pi•Ci为某分类标号,Pi为任意样本属于Ci的概率,si为分类Ci上的样本数由A划分为子集的熵:•E(A)=∑(s1j+……+smj)/s*I(s1j+……+smj)•A为属性,具有V个不同的取值•信息增益:Gain(A)=I(s1,s2,……,sm)-E(A)||||SSi训练集(举例)ageincomestudentcredit_ratingbuys_computer=30highnofairno=30highnoexcellentno30…40highnofairyes40mediumnofairyes40lowyesfairyes40lowyesexcellentno31…40lowyesexcellentyes=30mediumnofairno=30lowyesfairyes40mediumyesfairyes=30mediumyesexcellentyes31…40mediumnoexcellentyes31…40highyesfairyes40mediumnoexcellentno使用信息增益进行属性选择ClassP:buys_computer=“yes”ClassN:buys_computer=“no”I(p,n)=I(9,5)=0.940Computetheentropyforage:HenceSimilarlyagepiniI(pi,ni)=30230.97130…4040040320.971971.0)2,3(145)0,4(144)3,2(145)(IIIageE048.0)_(151.0)(029.0)(ratingcreditGainstudentGainincomeGain)(),()(ageEnpIageGain使用信息增益进行属性选择使用信息增益进行属性选择使用信息增益进行属性选择使用信息增益进行属性选择使用信息增益进行属性选择DecisionTree(结果输出)age?overcaststudent?creditrating?noyesfairexcellent=3040nonoyesyesyes30..40201决策树优点:1)可以生成可以理解的规则;2)计算量相对来说不是很大;3)可以处理连续和种类字段、对数据没有特殊要求;4)决策树可以清晰的显示哪些字段比较重要。缺点:1)对连续性的字段比较难预测;2)对有时间顺序的数据,需要很多预处理的工作;3)当类别太多时,错误可能就会增加的比较快;4)一般的算法分类的时候,只是根据一个字段来分类。211决策树决策树法属于风险型决策方法,不同于确定型决策方法,二者适用的条件也不同。应用决策树决策方法必须具备以下条件:(1)具有决策者期望达到的明确目标;(2)存在决策者可以选择的两个以上的可行备选方案;(3)存在着决策者无法控制的两种以上的自然状态;(4)不同行动方案在不同自然状态下的收益值或损失值(简称损益值)可以计算出来;(5)决策者能估计出不同的自然状态发生概率。221决策树——案例一家金融服务公司为客户提供房屋净值贷款。该公司在过去已经拓展了数千净值贷款服务。但是,在这些申请贷款的客户中,大约有20%的人拖欠贷款。通过使用地理、人口和金融变量,该公司希望为该项目建立预测模型判断客户是否拖欠贷款。231决策树——案例SAMPSIO.HMEQ数据集中的变量,分析数据之后,该公司选择了12个预测变量来建立模型判断贷款申请人是否拖欠。回应变量(目标变量)标识房屋净值贷款申请人是否会拖欠贷款。变量,以及它们的模型角色、度量水平、描述,在下表中已经显示。SAMPSIO.HMEQ数据集中的变量,241决策树——案例聚类分析无处不在挖掘有价值的客户,并制定相应的促销策略:如,对经常购买酸奶的客户对累计消费达到12个月的老客户针对潜在客户派发广告,比在大街上乱发传单命中率更高,成本更低!2聚类分析聚类分析无处不在谁是银行信用卡的黄金客户?利用储蓄额、刷卡消费金额、诚信度等变量对客户分类,找出“黄金客户”!这样银行可以……制定更吸引的服务,留住客户!比如:•一定额度和期限的免息透资服务!•百盛的贵宾打折卡!•在他或她生日的时候送上一个小蛋糕!2聚类分析272聚类分析聚类就是把数据按照相似性归纳成若干类别,同一类中的数据彼此相似,不同类中的数据相异。聚类分析可以建立宏观的概念,发现数据的分布模式,以及可能的数据属性之间的相互关系。目前常见的聚类算法有基于划分的算法、基于层次的算法、基于密度算法和基于网格的算法等等。聚类对数据没有特殊要求:离散的、连续的数值型、字符型不指定类别数:针对小样本制定类别数:针对大样本要注意变量之间的相关性(相对独立)数据矩阵:用m个变量(也称为属性)来表现n个对象相异度矩阵:存储n个对象两两之间的近似度,通常用一个维的矩阵表示111212122212mmnnnmxxxxxxxxx02,103,13,20,1,20ddddndn聚类分析原理介绍相似性Similar的度量(统计学角度)距离Q型聚类(主要讨论)主要用于对样本分类常用的距离有(只适用于具有间隔尺度变量的聚类):•明考夫斯基距离(包括:绝对距离、欧式距离、切比雪夫距离)•兰氏距离•马氏距离•斜交空间距离相似系数R型聚类用于对变量分类,可以用变量之间的相似系数的变形如1-rij定义距离聚类分析条件相似性Similar的度量(统计学角度)Q型聚类主要用于对样本分类常用的距离有(只适用于具有间隔尺度变量的聚类):•明考夫斯基距离(包括:绝对距离、欧式距离、切比雪夫距离)•兰氏距离•马氏距离•斜交空间距离R型聚类用于对变量分类,可以用变量之间的相似系数的变形如1-rij定义距离30客户关系管理是一个以客户为中心保持企业与客户互动的过程。销售客户是哪些客户层、哪些客户需要这样的产品、是否考虑客户生命周期、是否建立以客户为导向的客户关系、谁是公司最有价值的客户等等。要回答以上问题,综合各种数据,从不同角度对客户进行分群、分组划分。从与公司有较大业务联系的客户交易额出发:2聚类分析—举例说明公司X1X2X3X4公司X1X2X3X4118.2750.489.9978.741116.4150.339.2275.96222.2260.7711.794.71217.6841.518.8768.06317.1645.0910.3272.561317.8652.0210.179.98417.3848.458.9574.781412.0626.66846.72520.4156.8611.488.671521.9361.0411.8194.78615.841.3410.1867.321614.3139.548.3962.24718.6552.89.4480.891716.3336.947.460.67820.8459.9911.6192.441819.7552.169.0280.93916.1749.188.2773.621912.834.929.2456.961015.4742.569.1767.22022.5159.3110.6592.47说明:与本公司交易额2003年为X1,2004年为X2,2005年为X3,预计将来交易额为X431利用procfastclus语句来实现,程序如下:2聚类分析—举例说明DATAglgz;inputcompany$X1X2X3X4;CARDS;118.2750.489.9978.74222.2260.7711.7094.70317.1645.0910.3272.56417.3848.458.9574.78520.4156.8611.4088.67615.8041.3410.1867.32718.6552.809.4480.89820.8459.9911.6192.44916.1749.188.2773.621015.4742.569.1767.201116.4150.339.2275.961217.6841.518.8768.061317.8652.0210.1079.981412.0626.668.0046.721521.9361.0411.8194.781614.3139.548.3962.241716.3336.947.4060.671819.75
本文标题:数据挖掘模型介绍2016
链接地址:https://www.777doc.com/doc-2333557 .html