您好,欢迎访问三七文档
第一章1.6(1)数据特征化是目标类数据的一般特性或特征的汇总。例如,在某商店花费1000元以上的顾客特征的汇总描述是:年龄在40—50岁、有工作和很好的信誉等级。(2)数据区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较。例如,高平均分数的学生的一般特点,可与低平均分数的学生的一般特点进行比较。由此产生的可能是一个相当普遍的描述,如平均分高达75%的学生是大四的计算机科学专业的学生,而平均分低于65%的学生则不是。(3)关联和相关分析是指在给定的频繁项集中寻找相关联的规则。例如,一个数据挖掘系统可能会发现这样的规则:专业(X,“计算机科学”)=拥有(X,”个人电脑“)[support=12%,confidence=98%],其中X是一个变量,代表一个学生,该规则表明,98%的置信度或可信性表示,如果一个学生是属于计算机科学专业的,则拥有个人电脑的可能性是98%。12%的支持度意味着所研究的所有事务的12%显示属于计算机科学专业的学生都会拥有个人电脑。(4)分类和预测的不同之处在于前者是构建了一个模型(或函数),描述和区分数据类或概念,而后者则建立了一个模型来预测一些丢失或不可用的数据,而且往往是数值,数据集的预测。它们的相似之处是它们都是为预测工具:分类是用于预测的数据和预测对象的类标签,预测通常用于预测缺失值的数值数据。例如:某银行需要根据顾客的基本特征将顾客的信誉度区分为优良中差几个类别,此时用到的则是分类;当研究某只股票的价格走势时,会根据股票的历史价格来预测股票的未来价格,此时用到的则是预测。(5)聚类分析数据对象是根据最大化类内部的相似性、最小化类之间的相似性的原则进行聚类和分组。聚类还便于分类法组织形式,将观测组织成类分层结构,把类似的事件组织在一起。例如:世界上有很多种鸟,我们可以根据鸟之间的相似性,聚集成n类,其中n可以认为规定。(6)数据演变分析描述行为随时间变化的对象的规律或趋势,并对其建模。这可能包括时间相关数据的特征化、区分、关联和相关分、分类、预测和聚类,这类分析的不同特点包括时间序列数据分析、序列或周期模式匹配和基于相似性的数据分析。例如:假设你有纽约股票交易所过去几年的主要股票市场(时间序列)数据,并希望投资高科技产业公司的股票。股票交易数据挖掘研究可以识别整个股票市场和特定的公司的股票的演变规律。这种规律可以帮助预测股票市场价格的未来走向,帮助你对股票投资做决策。1.11一种是聚类的方法,另一种是预测或回归的方法。(1)聚类方法:聚类后,不同的聚类代表着不同的集群数据。这些数据的离群点,是不属于任何集群。在各种各样的聚类方法当中,基于密度的聚类可能是最有效的。(2)使用预测或回归技术:构建一个基于所有数据的概率(回归)模型,如果一个数据点的预测值有很大的不同给定值,然后给定值可考虑是异常的。用聚类的方法来检查离群点更为可靠,因为聚类后,不同的聚类代表着不同的集群数据,离群点是不属于任何集群的,这是根据原来的真实数据所检查出来的离群点。而用预测或回归方法,是通过构建一个基于所有数据的(回归)模型,然后根据预测值与原始数据的值比较,当二者相差很大时,就将改点作为离群点处理,这对所建立的模型有很大的依赖性,另外所建立的模型并不一定可以很好地拟合原来的数据,因此一个点在可能某个模型下可能被当作离群点来处理,而在另外一个模型下就是正常点。所以用聚类的方法来检查离群点更为可靠1.15挖掘海量数据的主要挑战是:1)第一个挑战是关于数据挖掘算法的有效性、可伸缩性问题,即数据挖掘算法在大型数据库中运行时间必须是可预计的和可接受的,且算法必须是高效率和可扩展的。2)另一个挑战是并行处理的问题,数据库的巨大规模、数据的广泛分布、数据挖掘过程的高开销和一些数据挖掘算法的计算复杂性要求数据挖掘算法必须具有并行处理的能力,即算法可以将数据划分成若干部分,并行处理,然后合并每一个部分的结果。第二章2.11三种规范化方法:(1)最小—最大规范化(min-max规范化):对原始数据进行线性变换,将原始数据映射到一个指定的区间。min_min)_max_(minmaxmin'newnewnewvv(2)z-score规范化(零均值规范化):将某组数据的值基于它的均值和标准差规范化,是其规范化后的均值为0方差为1。vv',其中是均值,是标准差(3)小数定标规范化:通过移动属性A的小数点位置进行规范化。的最小整数是使得其中,1vMaxj10jvv(a)min-max规范化min_min)_max_(minmaxmin'newnewnewvv其中v是原始数据,min和max是原始数据的最小和最大值,new_max和new_min是要规范化到的区间的上下限原始数据2003004006001000[0,1]规范化00.1250.250.51(b)z-score规范化vv',其中是均值,是标准差50010001000600400300200282.84275)5001000()500500()500400()500300(50020022222原始数据2003004006001000z-score-1.06-0.7-0.350.351.782.13(1)逐步向前选择开始初始化属性集,设置初始归约集为空集确定原属性集中最好的属性所选属性是否超出停止界限?把选中的属性添加到归约集中以减少属性设置否在初始设置中是否还有更多的属性?是是否结束(2)逐步向后删除开始初始化属性设置为整个属性集确定原属性集中最差的属性所选属性是否超出停止界限?否删除选中的最差属性,以减少属性的设置在初始设置中有更多的属性设置?是否是结束(3)向前选择和向后删除的结合开始初始化属性设置为空集确定原属性集中最好和最差的属性所选的最好的属性是否超出停止界限?否所选的最差的属性是否超出停止界限?合并设置为减少属性所设置的初始工作的所有剩余的属性是否从最初的工作集属性中删除选定属性在初始设置中是否有更多的属性设置?是否结束是选择最好的属性加入到归约集中,并在剩余的属性中删除一个最差的属性第三章3.2简略比较以下概念,可以用例子解释你的观点(a)雪花形模式、事实星座形、星形网查询模型。答:雪花形和事实星形模式都是变形的星形模式,都是由事实表和维表组成,雪花形模式的维表都是规范化的;而事实星座形的某几个事实表可能会共享一些维表;星形网查询模型是一个查询模型而不是模式模型,它是由中心点发出的涉嫌组成,其中每一条射线代表一个维的概念分层。(b)数据清理、数据变换、刷新答:数据清理是指检测数据中的错误,可能时订正它们;数据变换是将数据由遗产或宿主格式转换成数据仓库格式;刷新是指传播由数据源到数据仓库的更新。3.4(a)雪花形模式图如下:(见74页)course维表univfacttablestudent维表area维表course_idcourse_namedepartmentSemester维表semester_idsemesteryearInstructor维表(b)特殊的QLAP操作如下所示:(见79页)1)在课程维表中,从course_id到department进行上卷操作;2)在学生维表中,从student_id到university进行上卷操作;3)根据以下标准进行切片和切块操作:department=”CS”anduniversity=”BigUniversity”;4)在学生维表中,从university到student_id进行下钻操作。(c)这个立方体将包含62554个长方体。(见课本88与89页)第五章5.1(a)假设s是频繁项集,min_sup表示项集的最低支持度,D表示事务数据库。由于s是一个频繁项集,所以有area_idcityprovincecountrystudent_idstudent_namearea_idmajorstatusuniversitystudent_idcourse_idsemester_idInstructor_idcountavg_gradeInstructor_iddeptranksupmin_)(_sup)(supDscountportsport假设's是s的一个非空子集,由于support_count('s)support_sup(s),故有supmin_)(_sup)(sup''Dscountprotsport所以原题得证,即频繁项集的所有非空子集必须也是频繁的。(b)由定义知,Dscountportsport)(_sup)(sup令's是s的任何一个非空子集,则有Dscountprotsport)(_sup)(sup''由(a)可知,support('s))(supsprot,这就证明了项集s的任意非空子集's的支持度至少和s的支持度一样大。(c)因为)()()(,)()()('''splpslsconfidencesplpslsconfidence根据(b)有p('s)=p(s)所以)(slsconfidence)(''slsconfidence即“'s=(l-'s)”的置信度不可能大于“)(sls”(d)反证法:即是D中的任意一个频繁项集在D的任一划分中都不是频繁的假设D划分成nnnCdCdCddd,,,d,,,,221121设,min_sup表示最小支持度,C=N21CCCDF是某一个频繁项集,FA,supmin_CA,ndddD21设F的项集在nddd,,,21中分别出现naaa,,,21次所以A=naaa21故sup)min_)(supmin_21NCCCCA(*)supmin_supmin_)()(supmin_supmin_supmin_DFsupmin_)(212122112121CACCCaaaCaCaCaCCCaaaNnnnNn,,,频繁的的任意一个划分都不是在这与(*)式矛盾从而证明在D中频繁的任何项集,至少在D的一个部分中是频繁。5.3最小支持度为3(a)Apriori方法:C1L1C2L2C3L3FP-growth:RootK:5E:4M:1M:2O:2Y:1O:1Y:1Y:1itemConditionalpatternbaseConditionaltreeFrequentpatternoke3key2mk3ok3oe3ke4ky3mo1mk3me2my2ok3oe3oy2ke4ky3ey2m3o3k5e4y3m3o3n2k5e4y3d1a1u1c2i1okey3yome{{k,e,m,o:1},{k,e,o:1},{k,m:1}}{{k,e,m:1},{k,e:2}}{{k,e:2},{k:1}}{{k:4}}K:3K:3,e:3K:3K:4{k,y:3}{k,o:3},{e,o:3},{k,e,o:3}{k,m:3}{k,e:4}这两种挖掘过程的效率比较:Aprior算法必须对数据库进行多次的扫描,而FP增长算法是建立在单次扫描的FP树上。在Aprior算法中生成的候选项集是昂贵的(需要自身的自连接),而FP-growth不会产生任何的候选项集。所以FP算法的效率比先验算法的效率要高。(b)]1,6.0[,]1,6.0[,koeeok5.6一个全局的关联规则算法如下:1)找出每一家商店自身的频繁项集。然后把四个商店自身的频繁项集合并为CF项集;2)通过计算四个商店的频繁项集的支持度,然后再相加来确定CF项集中每个频繁项集的总支持度即全局的支持度。其支持度超过全局支持度的项集就是全局频繁项集。3)据此可能从全局频繁项集发现强关联规则。5.14(a)%50%6730002000)()(%25%40500020005000)()(supporthotdog
本文标题:数据挖掘课后答案
链接地址:https://www.777doc.com/doc-2428958 .html