您好,欢迎访问三七文档
《数据挖掘》作业第一章引言一、填空题(1)数据库中的知识挖掘(KDD)包括以下七个步骤:、、、、、和(2)数据挖掘的性能问题主要包括:、和(3)当前的数据挖掘研究中,最主要的三个研究方向是:、和(4)在万维网()上应用的数据挖掘技术常被称为:(5)孤立点是指:二、单选题(1)数据挖掘应用和一些常见的数据统计分析系统的最主要区别在于:A、所涉及的算法的复杂性;B、所涉及的数据量;C、计算结果的表现形式;D、是否使用了人工智能技术(2)孤立点挖掘适用于下列哪种场合?A、目标市场分析B、购物篮分析C、模式识别D、信用卡欺诈检测(3)下列几种数据挖掘功能中,()被广泛的应用于股票价格走势分析A.关联分析B.分类和预测C.聚类分析D.演变分析(4)下面的数据挖掘的任务中,()将决定所使用的数据挖掘功能A、选择任务相关的数据B、选择要挖掘的知识类型C、模式的兴趣度度量D、模式的可视化表示(5)下列几种数据挖掘功能中,()被广泛的用于购物篮分析A、关联分析B、分类和预测C、聚类分析D、演变分析(6)根据顾客的收入和职业情况,预测他们在计算机设备上的花费,所使用的相应数据挖掘功能是()A.关联分析B.分类和预测C.演变分析D.概念描述(7)帮助市场分析人员从客户的基本信息库中发现不同的客户群,通常所使用的数据挖掘功能是()A.关联分析B.分类和预测C.聚类分析D.孤立点分析E.演变分析(8)假设现在的数据挖掘任务是解析数据库中关于客户的一般特征的描述,通常所使用的数据挖掘功能是()A.关联分析B.分类和预测C.孤立点分析D.演变分析E.概念描述三、简答题(1)什么是数据挖掘?(2)一个典型的数据挖掘系统应该包括哪些组成部分?(3)请简述不同历史时代数据库技术的演化。(4)请列举数据挖掘应用常见的数据源。(或者说,我们都在什么样的数据上进行数据挖掘)(5)什么是模式兴趣度的客观度量和主观度量?(6)在哪些情况下,我们认为所挖掘出来的模式是有趣的?(7)根据挖掘的知识类型,我们可以将数据挖掘系统分为哪些类别?第2章数据预处理一、填空题(1)进行数据预处理时所使用的主要方法包括:、、和(2)处理噪声数据的方法主要包括:、、和(3)模式集成的主要问题包括:和(4)数据概化是指:(5)数据压缩可分为:和两种类型。(6)进行数值归约时,三种常用的有参方法是:、和(7)数据离散度的最常用度量是、和二、单选题(1)数据归约的目的是()A、填补数据种的空缺值B、集成多个数据源的数据C、得到数据集的压缩表示D、规范化数据(2)下面哪种数据预处理技术可以用来平滑数据,消除数据噪声?A.数据清理B.数据集成C.数据变换D.数据归约(3)进行数据规范化的目的是()A.去掉数据中的噪声B.对数据进行汇总和聚集C.使用概念分层,用高层次概念替换低层次“原始”数据D.将属性按比例缩放,使之落入一个小的特定区间(4)数据的噪声是指()A、孤立点B、空缺值C、测量变量中的随即错误或偏差D、数据变换引起的错误(5)那种数据变换的方法将数据沿概念分层向上汇总A、平滑B、聚集C、数据概化D、规范化(6)()通过将属性域划分为区间,从而减少给定连续值的个数。A.概念分层B.离散化C.分箱D.直方图三、多选题(1)下面哪些问题是我们进行数据预处理的原因?A.数据中的空缺值B.噪声数据C.数据中的不一致性D.数据中的概念分层(2)下面的度量中,哪些是数据离散度的度量?A.中位数B.标准差C.模D.中间四分位数区间(3)数据清理的目的是处理数据中的()A、空缺值B、噪声数据C、不一致数据D、敏感数据(4)下列哪些是数据变换可能涉及的内容?A、数据压缩B、数据概化C、维归约D、规范化(5)以下哪些原因可能引起空缺值A、设备异常B、命名规则的不一致C、与其他已有数据不一致而被删除D、在输入时,有些数据因为得不到重视而没有被输入四、简答题(1)常用的数值属性概念分层的方法有哪些?(2)典型的生成分类数据的概念分层的方法有哪些?(3)在现实世界的数据中,元组在某些属性上缺少值是常有的。描述处理该问题的各种方法。(4)常见的数据归约策略包括哪些?第四章数据挖掘原语、语言和系统结构一、填空题(1)概念分层有四种类型,分别是:、、和(2)常用的四种兴趣度的客观度量是:、、和(3)同时满足和的关联规则称为强关联规则。二、单选题(1)以下DMQL片断:mineassociationsasbuyingHabitsmatchingP(X:customer,W)∧Q(X,Y)=buys(X,Z)所指定的挖掘知识类型是:A、特征化B、区分C、关联D、分类(2)以下哪种数据挖掘系统与数据库/数据仓库系统集成方式将会使数据挖掘系统达到最好的性能?A、不耦合B、松散耦合C、半紧密耦合D、紧密耦合三、多选题(1)以下哪些OLAP操作是和概念分层紧密相关的?A、上卷B、切片C、下钻D、切块四、简答题(1)定义数据挖掘任务的原语,主要应该包括哪些部分?(2)为什么需要数据挖掘原语和语言来指导数据挖掘?(3)描述如下将数据挖掘系统与数据库或数据仓库系统集成的结构之间的差别:不耦合、松散耦合、半紧密耦合和紧密耦合。(4)数据挖掘的GUI可能包含哪些部分?第五章概念描述:特征化与比较一、填空题(1)概念描述由和组成。(2)一般来说,进行类比较的过程应该包括以下几个步骤:、、和(3)从数据分析的角度看,数据挖掘可以分为两类:和(4)属性相关分析的基本思想是计算某种度量,用于量化属性与给定类或概念的相关性。可采用的度量包括:、、和(5)数据离散度的最常用度量包括:、和二、单选题(1)类比较的过程中,我们在哪个步骤得到主目标类关系/方体和主对比类关系/方体?A、数据收集B、维相关分析C、同步概化D、导出比较的表示(2)哪种图形显示方法常用于描述两个变量间的依赖模式?A、直方图B、分位数图C、散布图D、LOESS曲线(3)哪种图形显示方法常用于确定两个量化的变量之间看上去是否有联系、模式或者趋势?A、直方图B、分位数图C、散布图D、LOESS曲线(4)哪种图形显示方法用于显示所有的数据,允许用户评估总的情况和不寻常情况的出现?A、直方图B、分位数图C、散布图D、LOESS曲线(5)中心趋势度量模(mode)是指A、算术平均值B、数据集中出现频率最高的值C、最大值D、最小值三、多选题(1)下面哪些是常用的数据概化方法?A、离散化B、数据立方体(OLAP技术)C、判定归纳树D、面向属性的归纳(2)使用数据立方体方法进行数据概化的优点包括:A、数据概化的一种有效实现B、可以计算各种不同的度量值C、受数据类型和度量类型的约束比较少D、概化和特征分析通过一系列的数据立方体操作完成,简单高效(3)以下哪些是属于中心趋势的度量A、平均值B、标准差C、五数概括D、中位数四、简答题(1)简述类比较的过程。(2)简述面向属性归纳的基本思想,并说明什么时候使用属性删除,什么时候使用属性概化。(3)简述概念描述的属性相关分析的基本步骤。(4)简要叙述概念描述和OLAP之间的主要区别。(5)为什么进行属性相关分析?(6)简述进行概念描述时,面向数据库的方法和机器学习的主要区别。(7)什么是概念描述的增量挖掘?第六章大型数据库中的关联规则挖掘一、填空题(1)关联规则挖掘中,两个主要的兴趣度度量是:和(2)Aprior算法包括和两个基本步骤(3)项集的频率是指(4)大型数据库中的关联规则挖掘包含两个过程:和(5)根据规则中所处理的值类型,关联规则可分为:和(6)Apriori性质是指:(7)挖掘多维关联规则的技术可以根据量化属性的处理分为三种基本方法:、和(8)对于频繁项集挖掘,在挖掘过程中使用的约束包括以下五种类型:、、、和(9)在多维关联规则挖掘中,我们搜索的不是频繁项集,而是二、单选题(1)下列几种数据挖掘功能中,()被广泛的用于购物篮分析。A、关联分析B、分类和预测C、聚类分析D、演变分析(2)支持度(support)是衡量兴趣度度量()的指标。A、实用性B、确定性C.、简洁性D、新颖性(3)置信度(confidence)是衡量兴趣度度量()的指标。A、简洁性B、确定性C.、实用性D、新颖性(4)根据关联分析中所处理的值类型,可以将关联规则分类为:()A、布尔关联规则和量化关联规则B、单维关联规则和多维关联规则C、单层关联规则和多层关联规则D、简答关联规则和复杂关联规则(5)规则:age(X,”19-25”)∧buys(X,“popcorn”)=buys(X,“coke”)是一个A、单维关联规则B、多维关联规则C、混合维关联规则D、不是一个关联规则三、多选题(1)根据关联分析中所涉及的抽象层,可以将关联规则分类为:()A、布尔关联规则B、单层关联规则C、多维关联规则D、多层关联规则(2)根据关联分析中所涉及的数据维,可以将关联规则分类为:()A、布尔关联规则B、单维关联规则C、多维关联规则D、多层关联规则(3)Apriori算法所面临的主要的挑战包括:A、会消耗大量的内存B、会产生大量的候选项集C、对候选项集的支持度计算非常繁琐D、要对数据进行多次扫描四、简答题(1)对于具有递减支持度的多层关联规则挖掘,分别都有哪些搜索策略?各有什么特点?(2)给出一个例子,表明强关联规则中的项可能实际上是负相关的。(3)简述在多层关联规则挖掘中,在不同的层使用一致的支持度的优缺点。(4)什么是简洁性约束?第6章分类和预测一、填空题(1)通过对数据进行预处理,可以提高分类和预测过程的、和(2)防止分类中的过分适应的两种方法分别是:和二、单选题(1)下面哪种分类方法是属于神经网络学习算法?()A、判定树归纳B、贝叶斯分类C、后向传播分类D、基于案例的推理(2)下面哪种分类方法是属于统计学的分类方法?()A、判定树归纳B、贝叶斯分类C、后向传播分类D、基于案例的推理(3)下列哪个描述是正确的?()A、分类和聚类都是有指导的学习C、分类是有指导的学习,聚类是无指导的学习B、分类和聚类都是无指导的学习D、分类是无指导的学习,聚类是有指导的学习三、简答题(1)简述判定树分类的主要步骤。(2)在判定树归纳中,为什么树剪枝是有用的?(3)为什么朴素贝叶斯分类称为“朴素”的?简述朴素贝叶斯分类的主要思想。(4)请简述判定树归纳算法的基本策略。(5)对分类和预测方法进行比较和评估的标准都有哪些?(6)简述数据分类的两步过程。(7)简述后向传播分类的优缺点。四、算法题(1)使用判定树归纳算法,根据顾客年龄age(分为3个年龄段:18,18...23,23),收入income(取值为high,medium,low),是否为student(取值为yes和no),信用credit_rating等级(取值为fair和excellent)来判定用户是否会购买PCGame,即构建判定树buys_PCGame,假设现有的数据经过第一次划分之后得到如下图所示结果,并根据该结果对每一个划分中的各个属性计算信息增益对age18的顾客:Gain(income)=0.022,Gain(student)=0.162,Gain(credit_rating)=0.323对age23的顾客:Gain(income)=0.042,Gain(student)=0.462,Gain(credit_rating)=0.155请根据以上结果绘制出判定树buys_PCGame,来判定用户是否会购买PCGame。age1818…2323incomestudentcredit_ratingclassIncomestudentcredit_ratingclasshighnofairnohighnofairnomediumyesfairnohighyesexcellentyeshighnofairnomediumyesfairyesmediumyesexcellentyeslowyesfairyeslownoexcellentyeslownoexcellentnoincomestudentcredit_rati
本文标题:数据挖掘作业
链接地址:https://www.777doc.com/doc-6095541 .html