教材部分习题参考答案(发布版)

1部分习题参考答案第1章认识数据挖掘1．对于以下问题，考虑使用有指导的学习方法、无指导的聚类方法和数据查询方法中的哪一种更为合适。若使用有指导的学习方法，请确定可能的输入属性和输出属性。略。2．定义“成功人士”的概念。确定概念中的属性特征，并分别从传统角度、概率角度和样本角度描述这个概念。略。3．为表1.1感冒类型诊断数据集画一张前馈神经网络图。说明：7个输入属性——Increased–lym（淋巴细胞升高）、Leukocytosis（白细胞升高）、Fever（发烧）、Acute-onset（起病急）、Sore-throat（咽痛）、Cooling-effect（退热效果）、Group（群体发病），1个输出属性——Cold-type（感冒类型）。网络结构包括7个输入结点和1个输出结点，选择9个隐藏层结点。4．假设有两个类，各有100个实例。第一个类中的实例是患有病毒性感冒(Cold-type=Viral)的患者数据。第二个类中的实例是患有细菌性感冒(Cold-type=Bacterial)的患者数据。根据以下规则回答下面的问题。IFIncreased–lym(淋巴细胞是否升高)=Yes&Sore-throat(是否有咽痛症状)=NoTHENCold-type=Viral(ruleaccuracy=80%，rulecoverage=60%)(1)患有病毒性感冒的患者中有多少人淋巴细胞升高且没有咽痛症状？60(2)患有细菌性感冒的患者中有多少人淋巴细胞升高且没有咽痛症状？60/0.8-60=155．在不使用Sore-throat(咽痛)属性的情况下，使用Weka软件为表1.1建立一棵决策树，解2释和评估结果，并对表1.2中的实例进行分类。决策树（C4.5）检验数据为训练集，分类正确率80%，模型性能一般。分类表1.2中的两个实例结果：第一个实例被分类为患有细菌性感冒（Cold-type=Bacterial），第二个实例被分类为患有病毒性感冒（Cold-type=Viral）。6．访问UCI网站，选择一个数据集，使用Weka软件进行有指导的学习、无指导的聚类和关联分析，并解释和评估结果。略。第2章基本数据挖掘技术1.关联规则和传统的用于分类的产生式规则有什么异同？关联规则与传统的用于分类的产生式规则有两点不同。(1)在某条关联规则中以前提条件出现的属性可以出现在下一条关联规则的结果中。(2)传统的用于分类的产生式规则的结果中仅能有一个属性，而关联规则中则允许其结果包含一个或多个属性。2.对于K-means算法，最优聚类的评判标准是什么？K-means算法的最优聚类通常为：簇中所有实例与簇中心的误差平方和最小。3.设计方案解决K-means算法缺乏对所发现内容进行解释的问题。提示：尝试使用决策树算法对K-means算法形成的簇的定义进行解释。略。4.画出使用Partner作为根节点的决策树，并写出决策时的产生式规则。3Courses6Yes2No3No=55Partner1Yes3NoYesNo(1)IFPartner=YesandCourses=5THENPlay=Yes正确率：6/8=75%覆盖率：6/7=85.7%(2)IFPartner=YesandCourses5THENPlay=No正确率：3/3=100%覆盖率：3/8=37.5%(3)IFPartner=NoTHENPlay=No正确率：3/4=75%覆盖率：3/8=37.5%5.计算使用Partner作为根节点的增益率值。(1)Info(I)=-(7/15log2(7/15)+8/15log2(8/15))=0.996792≈0.9968(2)Info(I,Partner)=11/15Info(Yes)+4/15Info(No)=0.9453其中：Info(Yes)=-(6/11log2(6/11)+5/11log2(5/11))=0.9940Info(No)=-(1/4log2(1/4)+3/4log2(3/4))=0.8113(3)SplitsInfo(Partner)=-(11/15log2(11/15)+4/15log2(4/15))=0.8366(4)Gain(Partner)=Info(I)-Info(I,Partner)≈0.9968-0.9453=0.0515(5)GainRatio(Partner)=Gain(Partner)/SplitsInfo(Partner)=0.0515/0.8366=0.06166.计算使用Temperature作为根节点的增益率值。(1)Info(I)=-(7/15log2(7/15)+8/15log2(8/15))=0.996792≈0.9968(2)Info(I,Temperature)=3/15Info(-10～0)+2/15Info(0～10)+4/15Info(10～20)+5/15Info(20～30)+1/15Info(30～40)=0.6406其中：Info(-10～0)=-(2/3log2(2/3)+1/3log2(1/3))=0.9183Info(0～10)=-(1/2log2(1/2)+1/2log2(1/2))=1Info(10～20)=-4/4log2(4/4)=0Info(20～30)=-(3/5log2(3/5)+2/5log2(2/5))=0.9710Info(30～40)=-1/1log2(1/1)=04(3)SplitsInfo(Temperature)=-(3/15log2(3/15)+2/15log2(2/15)+4/15log2(4/15)+5/15log2(5/15)+1/15log2(1/15))=2.1493(4)Gain(Temperature)=Info(I)-Info(I,Temperature)≈0.9968-0.6406=0.3561(5)GainRatio(Temperature)=Gain(Temperature)/SplitsInfo(Temperature)=0.3561/2.1493=0.16577.使用表2.3中的数据，计算以下关联规则的置信度和支持度值。IFJuice=1&DVD=1THENEarphone=1置信度=3/5=60%支持度=3/7=42.9%8.对以下三项条目，列出三条规则，使用表2.3中的数据确定这些规则的置信度和支持度的值。Book=1&Sneaker=0&DVD=1三条规则为：（1）IFBook=1&Sneaker=0THENDVD=1置信度=2/3=66.7%支持度=2/8=25%（2）IFBook=1&DVD=1THENSneaker=0置信度=2/4=50%支持度=2/5=40%（3）IFSneaker=0&DVD=1THENBook=1置信度=2/4=50%支持度=2/5=40%9.使用表2.8所示的数据集，应用K-means算法进行聚类，初始值K为2，请写出完整的迭代过程和最后的聚类结果。使用Weka软件完成相同的任务，并检查两个结果的异同。表2.8数据集InstanceAB14.02.521.51.033.01.544.53.554.02.562.55.0过程1：（初始簇中心选择1）(1)设置K值为2。(2)选择实例1作为第1个簇中心、实例2作为第2个簇中心。(3)使用式(2.9)，计算其余实例与两个簇中心的简单欧氏距离，结果如表1所示。表中的C1和C2表示两个簇中心，表中的值为所有实例距离两个簇中心的距离。从表中可以看到，第3、4、5、6实例距离簇1最近，故将第3、4、5、6实例划分到簇1中。在算法的第一次迭代后，得到两个簇：{1,3,4,5,6}和{2}。5表1第一次到第三次迭代中实例与簇之间的简单欧氏距离簇中心C1=(4.0,2.5)和C2=(1.5,1.0)簇中心C1=(3.6,3.0)和C2=(1.5,1.0)簇中心C1=(3.75,3.375)和C2=(2.25,1.25)InstanceC1C2C1C2C1C2102.90.62.90.92.222.902.90.03.30.831.41.61.61.62.00.841.13.91.03.90.83.2502.90.62.90.92.262.94.12.34.12.13.8(4)重新计算新的簇中心。对于簇1：x=(4.0+3.0+4.5+4.0+2.5)/5=3.6，y=(2.5+1.5+3.5+2.5+5.0)/5=3.0。对于簇2：簇中心不变，即C2=(1.0,1.0)。得到新的簇中心C1=(3.6,3.0)和C2=(1.5,1.0)，因为簇中心发生了变化，算法必须执行第二次迭代，重复步骤(3)。第二次迭代之后的结果导致了簇的变化：{1,4,5,6}和{2,3}。(5)重新计算每个簇中心。对于簇1：x=(4.0+4.5+4.0+2.5)/4=3.75，y=(2.5+3.5+2.5+5.0)/4=3.375。对于簇2：x=(1.5+3.0)/2=2.25，y=(1.0+1.5)/2=1.25。这次迭代后簇中心再次改变。因此，该过程继续进行第三次迭代，结果形成{1,4,5,6}和{2,3}两个簇，与第二次迭代后形成的簇完全一样，若继续计算新簇中心的话，簇中心的值一定不变，至此，算法结束。聚类结果为：形成{1,4,5,6}和{2,3}两个簇。Weka聚类结果：6使用两种方法的聚类结果不一致。过程2：（初始簇中心选择2）选择实例1作为第1个簇中心、实例6作为第2个簇中心。迭代结果如表2所示。表2第一次到第二次迭代中实例与簇之间的简单欧氏距离簇中心簇中心C1=(4.0,2.5)和C2=(2.5,5.0)C1=(3.4,2.2)和C2=(2.5,5.0)InstanceC1C2C1C210.02.90.72.922.94.12.24.131.43.50.83.541.12.51.72.550.02.90.72.962.90.02.90.0聚类结果为：形成{1,2,3,4,5}和{6}两个簇。与Weka的聚类结果不一致。过程3：（初始簇中心选择3）选择实例6作为第1个簇中心、实例2作为第2个簇中心。迭代结果如表3所示。表2第一次到第二次迭代中实例与簇之间的简单欧氏距离簇中心簇中心C1=(2.5,5.0)和C2=(1.5,1.0)C1=(3.5,4.25)和C2=(3.125,1.875)InstanceC1C2C1C212.92.91.81.124.10.03.81.8733.51.62.80.442.53.91.32.152.92.91.81.160.04.11.31.8聚类结果为：形成{4,6}和{1,2,3,5}两个簇。与Weka的聚类结果一致。10.使用表2.1中的打篮球数据集进行K-means无指导的聚类，选择K值为2，且不使用Play属性。检查聚类结果，并与Play实际分类情况进行比较。Weka聚类结果：（Remove表2.1中的No.属性，将Play属性设置为Ignoreattributes）。从图中可以看到聚类结果与实际结果不完全相符，Cluster0中包含5个Play属性为Yes的实例和3个Play属性为No的实例；Cluster1中包含2个Play属性为Yes的实例和5个Play属性为No的实例。11.在班级或学校开展打篮球问卷调查活动，考虑在完成一天的学习之后决定是否去打篮球的影响因素，设计调查问卷，对问卷结果进行整理，生成数据集，建立有指导学习模型和无指导聚类模型，从中找出你感兴趣的知识或预测某位同学是否去打篮球。还可以选择其他研究主题，如决定是否去看电影、决定是否参加某个社团、决定是否选修某门课程等。略。12.登录某电子商务网站，查看和收集某些商品的购买信息，提出某些商品一般会被一起购买的假设，采集数据，使用关联分析验证你的假设。略。8第3章数据库中的知识发现1.使用Min-Max标准化公式，将驾驶员的年龄值从40岁变换到[0,1]之间的数值。Agenew=(40-18)/(70-18)=16/36=0.4232

教材部分习题参考答案(发布版)

免费阅读已结束，点击付费阅读剩下 ... 页

阅读已结束，您可以下载文档离线阅读

ERP技术与应用--第1章

自动机械供输装置图解

东坑新区幸福家园A区56楼施工组织设计

后湖花园钢结构施工组织设计-1

核心金融概念1

第8章国民经济核算

农药登记残留田间试验施药标准操作规程

第五章质量控制及其常用技术

【企业管理】不见血的血战-中国补血市场案例

商业模式(PPT 79页)

相关文档

相关搜索

教材部分习题参考答案(发布版)

免费阅读已结束，点击付费阅读剩下 ... 页

阅读已结束，您可以下载文档离线阅读

ERP技术与应用--第1章

自动机械供输装置图解

东坑新区幸福家园A区56楼施工组织设计

后湖花园钢结构施工组织设计-1

核心金融概念1

第8章 国民经济核算

农药登记残留田间试验施药标准操作规程

第五章质量控制及其常用技术

【企业管理】不见血的血战-中国补血市场案例

商业模式(PPT 79页)

相关文档

相关搜索

第8章国民经济核算