您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 企业财务 > 数据挖掘期末考试计算题及答案
题一:一阶项目集支持度a5b4c2d5e3f4g6一阶频繁集支持度a5b4d5f4g6二阶候选集支持度ab3ad4af2ag5bd3bf1bg3df3dg4fg3二阶频繁集支持度ad4ag5dg4三阶候选集支持度adg4三阶频繁集支持度adg4题二Distance(G,A)2=0.1;Distance(G,B)2=0.03;Distance(G,C)2=0.11Distance(G,D)2=0.12;Distance(G,E)2=0.16;Distance(G,F)2=0.05G的三个最近的邻居为B,F,A,因此G的分类为湖泊水Distance(H,A)2=0.03;Distance(H,B)2=0.18;Distance(H,C)2=0.22Distance(H,D)2=0.03;Distance(H,E)2=0.21;Distance(H,F)2=0.16H的三个最近的邻居为A,D,F,因此H的分类为冰川水题三首先计算各属性的信息增益Gain(Ca+浓度)=0Gain(Mg+浓度)=0.185Gain(Na+浓度)=0Gain(Cl-浓度)=0.32选择Cl-浓度作为根节点计算各属性的信息增益Gain(Ca+浓度)=0Gain(Mg+浓度)=0.45Gain(Na+浓度)=0.24选择Mg+浓度作为节点Cl-浓度冰川水?高低Cl-浓度冰川水Mg+浓度高低高低?湖泊水计算各属性的信息增益Gain(Ca+浓度)=0.24Gain(Na+浓度)=0.91题四P(Ca+浓度=低,Mg+浓度=高,Na+浓度=高,Cl-浓度=低|类型=冰川水)*P(冰川水)=P(Ca+浓度=低|类型=冰川水)*P(Mg+浓度=高|类型=冰川水)*P(Na+浓度=高|类型=冰川水)*P(Cl-浓度=低|类型=冰川水)*P(冰川水)=0.5*0.75*0.5*0.5*0.5=0.0468高低Cl-浓度冰川水Mg+浓度高低Na+浓度湖泊水高低湖泊水冰川水P(Ca+浓度=低,Mg+浓度=高,Na+浓度=高,Cl-浓度=低|类型=湖泊水)*P(湖泊水)=P(Ca+浓度=低|类型=湖泊水)*P(Mg+浓度=高|类型=湖泊水)*P(Na+浓度=高|类型=湖泊水)*P(Cl-浓度=低|类型=湖泊水)*P(湖泊水)=0.5*0.25*0.5*1*0.5=0.03123第一个样本为冰川水P(Ca+浓度=高,Mg+浓度=高,Na+浓度=低,Cl-浓度=高|类型=冰川水)*P(冰川水)=P(Ca+浓度=高|类型=冰川水)*P(Mg+浓度=高|类型=冰川水)*P(Na+浓度=低|类型=冰川水)*P(Cl-浓度=高|类型=冰川水)*P(冰川水)=0.5*0.75*0.5*0.5*0.5=0.0468P(Ca+浓度=高,Mg+浓度=高,Na+浓度=低,Cl-浓度=高|类型=湖泊水)*P(湖泊水)=P(Ca+浓度=高|类型=湖泊水)*P(Mg+浓度=高|类型=湖泊水)*P(Na+浓度=低|类型=湖泊水)*P(Cl-浓度=高|类型=湖泊水)*P(湖泊水)=0.5*0.25*0.5*0*0.5=0第二个样本为冰川水题五A,B,C,D,E,F,G之间的距离矩阵如下表ABCDEFGAB1C25D415045E5.425.505.485.0F25.2825.3625.3125.11.5G686590455.3625.46根据距离矩阵建立的树如下题六第一次迭代以A,B作为平均点,对剩余的点根据到A、B的距离进行分配{A,C,D,E,F,G,H},{B}计算两个簇的平均点(6.5,1.7),(4,5)第二次迭代,对剩余的点根据到平均点的距离进行分配,得到两个簇{D,E,F,H}和{A,B,C,G}计算两个簇的平均点BCDAEFG(9.1,0.5),(3.25,3.75)第三次迭代,对剩余的点根据到平均点的距离进行分配,得到两个簇{D,E,F,H}和{A,B,C,G}由于所分配的簇没有发生变化,算法终止。
本文标题:数据挖掘期末考试计算题及答案
链接地址:https://www.777doc.com/doc-4215387 .html