您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 经营企划 > X-第三部分数据挖掘与统计决策-决策树-关联-遗传
课程名称:数据挖掘与统计决策教师:廖芹Email:maqliao@qq.com问题:如果有60个因素影响银行贷款,要判别是否给企业贷款,如何用少数主要的若干个影响因素,建立贷款判别规则?即如何从一组数据提取具有因果关系的分类判别规则?决策树:通过样本数据对分类类别信息的确定性程度,建立树结构表示分类因果关系,以提取分类规则的分类方法。问题:对下列14个分类样本数据集,如何建立天气分类决策树?五、数据挖掘方法——决策树决策树-ID3算法P150五、数据挖掘方法——决策树决策树-ID3算法P152五、数据挖掘方法——决策树决策树-ID3算法P153在条件V下,减少或五、数据挖掘方法——决策树决策树-ID3算法P153五、数据挖掘方法——决策树决策树-ID3算法P154五、数据挖掘方法——决策树决策树-ID3算法补充———类似P155(5.6)五、数据挖掘方法——决策树决策树-ID3算法补充———类似P155(5.7)五、数据挖掘方法——决策树决策树-ID3算法补充———类似P155(5.7)五、数据挖掘方法——决策树(比特)决策树-ID3算法P156补充———类似P155(5.8),(5.9),P156(5.10)决策树-ID3算法P156五、数据挖掘方法——决策树决策树-ID3算法天气风力湿度有雨晴多云P潮湿N正常P有风N无风P可以看到:对样本需要四个属性才能分类的问题,通过决策树可以用两个属性就可以分类。可以通过决策树提取分类的判别规则以应用。问题:少了某因素变量的决策树是否合理?是否可以应用?五、数据挖掘方法——决策树用建立的决策树检验第1号样本:1号样本:天气:晴;温度:热;湿度:潮湿;风力:没风;用规则1:则气候属于N类,与样本的专家判别结果一样结论:最多用两个因素变量(属性)即可以判别天气类别。只有一个因素变量就可以判别五、数据挖掘方法——决策树五、数据挖掘方法——决策树Clementine辅助决策树五、数据挖掘方法——决策树Clementine辅助决策树决策树-C4.5算法P158H(X,a)=I(X,a)=H(X)-H(X|a)决策树-C4.5算法P154决策树-C4.5算法P158五、数据挖掘方法——决策树决策树-C4.5算法P158-P159五、数据挖掘方法——决策树决策树-C4.5算法P159五、数据挖掘方法——决策树决策树-C4.5算法补充一、决策树-C4.5算法补充五、数据挖掘方法——决策树决策树-C4.5算法补充五、数据挖掘方法——决策树决策树-C4.5算法补充五、数据挖掘方法——决策树决策树-CART算法P159五、数据挖掘方法——决策树决策树-CART算法P159五、数据挖掘方法——决策树决策树-CART算法P160五、数据挖掘方法——决策树决策树-CART算法P160决策树-CART算法P1612=11311/13131313138/133/130.196决策树-CART算法P161五、数据挖掘方法——决策树0.196决策树-CART算法补充五、数据挖掘方法——决策树决策树P170五、数据挖掘方法——决策树叶结点深度是指叶结点相距根结点的层数。如下决策树,叶结点数=2+3+1=6,叶结点深度和=2*2+3*2+1*1=11决策树-剪枝算法当到达某结点的树具有指定的实例识别率时,停止生长.P171已经成长决策树-剪枝算法P171五、数据挖掘方法——决策树决策树-剪枝算法P172五、数据挖掘方法——决策树决策树-剪枝算法P172决策树-剪枝算法P172五、数据挖掘方法——决策树决策树-剪枝算法P173五、数据挖掘方法——决策树决策树-剪枝算法P173决策树-剪枝算法P174数据挖掘软件Clementine辅助决策树城市医疗水平能力综合评价分类决策树建立1、导入评价样本数据并选择模型;2、设置参数城市医疗水平能力综合评价分类决策树建立(类别定性取值情况)10个样本如果导入数据时选择是连续型取值的范围,则C5.0方法的决策树也是两叉形式,只有选择离散型的取值时,才有三叉以上的输出。当修剪严重度为90%、95%时,决策树分别见下面左与右,左树的深度减少了一层,右树的深度减少了两层。城市医疗水平能力综合评价分类决策树建立(样本定性取值情况)样本不修剪分类正确率修剪90%分类正确率修剪95%分类正确率建模样本100%90%70%检验样本44.44%44.44%33.33%与神经网络模型预测误差相比,检验样本误差增加了。城市医疗水平能力综合评价分类—二叉决策树建立模型建立:选择“建模”中的“C&R树”节点,右键设置模型参数。分别设置根以下的层为5,3和2,得到不同的决策树。模型结果:运行模型得到决策树分类结果,右键浏览模型结果:根以下层为5时,表示根以下层数目不会超过5,结果如下所示,可以发现,结果只有3层,也就是说根以下层达到3时,已经对数据完全分类。若设置根以下层为3,结果也是与下面结果一致。城市医疗水平能力综合评价分类—二叉决策树建立(类别定量取值情况)根以下5层与3层决策树结果见左图,根以下2层决策树结果见右图:当同节点的样本是同类别时,表示已分类完毕。当同节点的样本不同类别时,以同类样本占节点样本为权重加权平均模型检验:可以看到模型的自检验的100%准确的,误差是0,而检验样本检验的绝对平均误差是1.778.可以把分类结果导出,可以看出建模样本的准确率是100%,检验样本的准确率是33.33%。城市医疗水平能力综合评价分类—二叉决策树建立学习样本病人数医生数工作人员数门诊所数死亡率医疗能力评价医疗能力评价(根以下3层)医疗能力评价(根以下2层)上海0.51.51.51.5-1.51.51.51.5北京-0.51.51.51.50.51.51.51.5沈阳-1.5-1.5-1.5-0.50.5-1.5-1.5-1.5武汉0.50.50.5-0.5-1.5-0.5-0.5-0.25哈尔滨1.50.5-0.5-1.5-0.5-0.5-0.5-0.25重庆0.50.5-1.5-1.5-1.5-1.5-1.5-1.5成都-0.50.50.5-0.5-0.5-0.5-0.5-0.25兰州1.50.5-0.50.51.51.51.51.5青岛0.5-1.51.51.5-0.50.50.50.5鞍山0.5-0.5-0.5-1.51.50.50.5-0.25天津-1.50.5-1.50.5-0.5-1.51.51.5广州-0.50.50.50.5-0.50.51.51.5南京-1.50.50.50.5-0.50.51.51.5西安0.50.5-0.50.50.50.5-0.51.5长春0.50.50.5-0.50.50.51.5-0.25太原1.50.50.50.51.51.5-1.51.5大连-1.5-0.5-1.5-0.50.5-1.51.5-1.5济南1.51.51.50.5-0.51.5-1.51.5抚顺0.5-1.5-1.5-1.50.5-0.51.5-1.5三层样本正确率:自检100%,检验33%二层样本正确率:自检40%,检验33%城市医疗水平能力综合评价分类—二叉决策树建立问题:智能功能实现,需要知识规则和知识推理的支持,决策树可以支持提取确定性的知识规则,但实际中可能出现许多不确定的情况。如何提取不确定性规则?购物篮问题:超市中每天有大量的购买数据,这些数据中发现啤酒与尿片的关系密切,是否需要关注这种情况而改变超市中这两种物品的摆放位置,以适应顾客的需要?应用问题:为了促销产品,应该以什么方案配置才具有激励购买积极性的作用?扩展问题:未来产品产业链的发展与什么有关?发展速度与增长幅度的可能性如何预测?思路:可以采用关联分析或时序关联分析,发现事物之间同时出现可能性大的行为模式和规则,以支持原因之间、原因与结果之间的推理。六、数据挖掘方法——关联分析关联规则分析六、数据挖掘方法——关联分析思路:1、物品或项目出现可能性大的才关注;2、A出现导致B出现可能性大的规则才关注;3、指定期望可能性,大于这一可能性的项目或规则才关注。由此定义支持度与置信度。补充以不确定性度量关联规则分析-主要概念====P189关联规则分析-主要概念关联规则分析-Apriori方法P189关联规则分析-Apriori方法=P190六、数据挖掘方法——关联分析其中,“过滤”是指判别项目集是否大于最小支持度,如果大于就保留,否则淘汰.六、数据挖掘方法——关联分析补充,类似P191例6.2六、数据挖掘方法——关联分析补充,类似P192例6.2六、数据挖掘方法——关联分析补充,类似P193例6.2问题:除BCE外,还有其它的最大频繁集吗?六、数据挖掘方法——关联分析设有五种物品:A,B,C,D,E,销售记录的五项业务T为:业务:T001T002T003T004T005物品:ACDBCEABCEABCED问题:下面物品中,哪些物品之间被购买有密切关系?什么物品被买可以导致另一些物品被买?同理可以得到:BC→E,BE→C,CE→B的规则六、数据挖掘方法——关联分析B→CConf=1,Supp=3/43/43/3=13/43/43/43/43/41Clementine辅助过程及结果六、数据挖掘方法——关联分析Clementine辅助过程及结果六、数据挖掘方法——关联分析Clementine辅助城市医疗水平影响因素的关联分析学习样本样本病人数医生数工作人员数门诊所数死亡率医疗能力评价上海0.51.51.51.5-1.51.5北京-0.51.51.51.50.51.5沈阳-1.5-1.5-1.5-0.50.5-1.5武汉0.50.50.5-0.5-1.5-0.5哈尔滨1.50.5-0.5-1.5-0.5-0.5重庆0.50.5-1.5-1.5-1.5-1.5成都-0.50.50.5-0.5-0.5-0.5兰州1.50.5-0.50.51.51.5青岛0.5-1.51.51.5-0.50.5鞍山0.5-0.5-0.5-1.51.50.5检验样本样本病人数医生数工作人员数门诊所数死亡率医疗能力评价天津-1.50.5-1.50.5-0.5-1.5广州-0.50.50.50.5-0.50.5南京-1.50.50.50.5-0.50.5西安0.50.5-0.50.50.50.5长春0.50.50.5-0.50.50.5太原1.50.50.50.51.51.5大连-1.5-0.5-1.5-0.50.5-1.5济南1.51.51.50.5-0.51.5抚顺0.5-1.5-1.5-1.50.5-0.5Clementine辅助城市医疗水平影响因素的关联分析1、导入评价样本数据并选择模型,其中数据集中的取值转换为定性取值:1.5=V,0.5=g,-0.5=a,-1.5=b2、设置参数六、数据挖掘方法——关联分析Clementine辅助城市医疗水平影响因素的关联分析不同支持度和置信度下的关联规则数目最小支持度50%40%30%30%20%最小置信度50%40%50%40%20%规则数目223851349最小支持度为30%和最小置信度为50%时的部分关联规则后项前项支持度%置信度%医生数=g医疗能力评价=a30100病人数=g死亡率=b30100工作人员数=v门诊所数=v30100门诊所数=v工作人员数=v30100病人数=v工作人员数=a3067死亡率=v工作人员数=a3067死亡率=a医疗能力评价=aand医生数=g3067门诊所数=a医疗能力评价=aand医生数=g3067医生数=g死亡率=band病人数=g3067医疗能力评价=v门诊所数=vand工作人员数=v3067病人数=g门诊所数=vand工作人员数=v3067医疗能力评价=a医生数=g5060死亡率=b病人数=g5060六、数据挖掘方法——关联分析对最小支持度为30%和最小置信度为50%时得到的模型,进行建模检验样本的关系预测。建模样本关系预测:对每一样本,把与样本匹配前项的后项结果列示,显示对应的规则置信度,以及有关规则数。例:医疗能力评价=aand医生数=g则有死
本文标题:X-第三部分数据挖掘与统计决策-决策树-关联-遗传
链接地址:https://www.777doc.com/doc-4939765 .html