您好,欢迎访问三七文档
当前位置:首页 > 电子/通信 > 综合/其它 > SQL数据挖掘知识要点
数据挖掘知识要点一.名词解释(4’*5=20’)1.数据仓库:是一种新的数据处理体系结构,是面向主题的、集成的、不可更新的(稳定性)、随时间不断变化(不同时间)的数据集合,为企业决策支持系统提供所需的集成信息。2.孤立点:指数据库中包含的一些与数据的一般行为或模型不一致的异常数据。3.OLAP:OLAP是在OLTP的基础上发展起来的,以数据仓库为基础的数据分析处理,是共享多维信息的快速分析,是被专门设计用于支持复杂的分析操作,侧重对分析人员和高层管理人员的决策支持。4.粒度:指数据仓库的数据单位中保存数据细化或综合程度的级别。粒度影响存放在数据仓库中的数据量的大小,同时影响数据仓库所能回答查询问题的细节程度。5.数据规范化:指将数据按比例缩放(如更换大单位),使之落入一个特定的区域(如0-1)以提高数据挖掘效率的方法。规范化的常用方法有:最大-最小规范化、零-均值规范化、小数定标规范化。6.关联知识:是反映一个事件和其他事件之间依赖或相互关联的知识。如果两项或多项属性之间存在关联,那么其中一项的属性值就可以依据其他属性值进行预测。7.数据挖掘:从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。8.OLTP:OLTP为联机事务处理的缩写,OLAP是联机分析处理的缩写。前者是以数据库为基础的,面对的是操作人员和低层管理人员,对基本数据进行查询和增、删、改等处理。9.ROLAP:是基于关系数据库存储方式的,在这种结构中,多维数据被映像成二维关系表,通常采用星型或雪花型架构,由一个事实表和多个维度表构成。10.MOLAP:是基于类似于“超立方”块的OLAP存储结构,由许多经压缩的、类似于多维数组的对象构成,并带有高度压缩的索引及指针结构,通过直接偏移计算进行存取。11.数据归约:缩小数据的取值范围,使其更适合于数据挖掘算法的需要,并且能够得到和原始数据相同的分析结果。12.遗传算法:是一种优化搜索算法,它首先产生一个初始可行解群体,然后对这个群体通过模拟生物进化的选择、交叉、变异等遗传操作遗传到下一代群体,并最终达到全局最优。13.聚类:是将物理或抽象对象的集合分组成为多个类或簇(cluster)的过程,使得在同一个簇中的对象之间具有较高的相似度,而不同簇中的对象差别较大。14.决策树:是用样本的属性作为结点,用属性的取值作为分支的树结构。它是分类规则挖掘的典型方法,可用于对新样本进行分类。15.频繁项集:指满足最小支持度的项集,是挖掘关联规则的基本条件之一。16.支持度:规则A→B的支持度指的是所有事件中A与B同地发生的的概率,即P(A∪B),是AB同时发生的次数与事件总次数之比。支持度是对关联规则重要性的衡量。17.可信度:规则A→B的可信度指的是包含A项集的同时也包含B项集的条件概率P(B|A),是AB同时发生的次数与A发生的所有次数之比。可信度是对关联规则的准确度的衡量。18.关联规则:同时满足最小支持度阈值和最小可信度阈值的规则称之为关联规则。二.填空题(1’*20=20’)1、数据仓库就是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合。2、元数据是描述数据仓库内数据的结构和建立方法的数据,它为访问数据仓库提供了一个信息目录,根据数据用途的不同可将数据仓库的元数据分为技术元数据和业务元数据两类。3、数据处理通常分成两大类:联机事务处理和联机分析处理。4、多维分析是指以“维”形式组织起来的数据(多维数据集)采取切片、切块、钻取和旋转等各种分析动作,以求剖析数据,使拥护能从不同角度、不同侧面观察数据仓库中的数据,从而深入理解多维数据集中的信息。5、ROLAP是基于关系数据库的OLAP实现,而MOLAP是基于多维数据结构组织的OLAP实现。6、数据仓库按照其开发过程,其关键环节包括数据抽取、数据存储、数据管理和数据表现等。7、数据仓库系统的体系结构根据应用需求的不同,可以分为以下4种类型:两层架构、独立型数据集合、依赖型数据集市和操作型数据存储和逻辑型数据集市和实时数据仓库。8、从应用的角度看,数据仓库的发展演变可以归纳为5个阶段:以报表为主、以分析为主、以预测模型为主、以运营导向为主和以实时数据仓库和自动决策为主。9、调和数据是存储在企业级数据仓库和操作型数据存储中的数据。10、抽取、转换、加载过程的目的是为决策支持应用提供一个单一的、权威数据源。因此,我们要求ETL过程产生的数据(即调和数据层)是详细的、历史的、规范的、可理解的、即时的和质量可控制的。11、数据抽取的两个常见类型是静态抽取和增量抽取。静态抽取用于最初填充数据仓库,增量抽取用于进行数据仓库的维护。12、粒度是对数据仓库中数据的综合程度高低的一个衡量。粒度越小,细节程度越高,综合程度越低,回答查询的种类越多。13、使用星型模式可以从一定程度上提高查询效率。因为星型模式中数据的组织已经经过预处理,主要数据都在庞大的事实表中。14、维度表一般又主键、分类层次和描述属性组成。对于主键可以选择两种方式:一种是采用自然键,另一种是采用代理键。15、雪花型模式是对星型模式维表的进一步层次化和规范化来消除冗余的数据。16、数据仓库中存在不同综合级别的数据。一般把数据分成4个级别:早期细节级、当前细节级、轻度综合级和高度综合级。17、SQLServerSSAS提供了所有业务数据的同意整合试图,可以作为传统报表、在线分析处理、关键性能指示器记分卡和数据挖掘的基础。18、数据仓库的概念模型通常采用信息包图法来进行设计,要求将其5个组成部分(包括名称、维度、类别、层次和度量)全面地描述出来。19、数据仓库的逻辑模型通常采用星型图法来进行设计,要求将星型的各类逻辑实体完整地描述出来。20、在项目实施时,根据事实表的特点和拥护的查询需求,可以选用时间、业务类型、区域和下属组织等多种数据分割类型。21、当维表中的主键在事实表中没有与外键关联时,这样的维称为退化维。它于事实表并无关系,但有时在查询限制条件(如订单号码、出货单编号等)中需要用到。22、维度可以根据其变化快慢分为元变化维度、缓慢变化维度和剧烈变化维度三类。23、数据仓库的数据量通常较大,且数据一般很少更新,可以通过设计和优化索引结构来提高数据存取性能。24、数据仓库数据库常见的存储优化方法包括表的归并与簇文件、反向规范化引入冗余、表的物理分割(分区)。25、关联规则的经典算法包括Apriori算法和FP-growth算法,其中FP-grownth算法的效率更高。26、分类的过程包括获取数据、预处理、分类器设计和分类决策。27、分类器设计阶段包含三个过程:划分数据集、分类器构造和分类器测试。28、分类问题中常用的评价准则有精确度、查全率和查准率和集合均值。29、聚类分析包括连续型、二值离散型、多值离散型和混合类型4种类型描述属性的相似度计算方法。30、连续型属性的数据样本之间的距离有欧氏距离、曼哈顿距离和明考斯基距离。三、判断题(2’*10=20’)1.数据挖掘的主要任务是从数据中发现潜在的规则,从而能更好的完成描述数据、预测数据等任务。(对)2.数据挖掘的目标不在于数据采集策略,而在于对于已经存在的数据进行模式的发掘。(对)3.图挖掘技术在社会网络分析中扮演了重要的角色。(对)4.模式为对数据集的全局性总结,它对整个测量空间的每一点做出描述;模型则对变量变化空间的一个有限区域做出描述。(错)5.寻找模式和规则主要是对数据进行干扰,使其符合某种规则以及模式。(错)6.离群点可以是合法的数据对象或者值。(对)7.离散属性总是具有有限个值。(错)8.噪声和伪像是数据错误这一相同表述的两种叫法。(错)9.用于分类的离散化方法之间的根本区别在于是否使用类信息。(对)10.特征提取技术并不依赖于特定的领域。(错)11.序列数据没有时间戳。(对)12.定量属性可以是整数值或者是连续值。(对)13.可视化技术对于分析的数据类型通常不是专用性的。(错)14.DSS主要是基于数据仓库.联机数据分析和数据挖掘技术的应用。(对)15.OLAP技术侧重于把数据库中的数据进行分析、转换成辅助决策信息,是继数据库技术发展之后迅猛发展起来的一种新技术。(对)16.商业智能系统与一般交易系统之间在系统设计上的主要区别在于:后者把结构强加于商务之上,一旦系统设计完毕,其程序和规则不会轻易改变;而前者则是一个学习型系统,能自动适应商务不断变化的要求。(对)17.数据仓库中间层OLAP服务器只能采用关系型OLAP。(错)18.数据仓库系统的组成部分包括数据仓库,仓库管理,数据抽取,分析工具等四个部分。(错)19.Web数据挖掘是通过数据库仲的一些属性来预测另一个属性,它在验证用户提出的假设过程中提取信息.(错)21.关联规则挖掘过程是发现满足最小支持度的所有项集代表的规则。(错)22.利用先验原理可以帮助减少频繁项集产生时需要探查的候选项个数。(对)。23.先验原理可以表述为:如果一个项集是频繁的,那包含它的所有项集也是频繁的。(错)24.具有较高的支持度的项集具有较高的置信度。(错)25.聚类(clustering)是这样的过程:它找出描述并区分数据类或概念的模型(或函数),以便能够使用模型预测类标记未知的对象类。(错)26.分类和回归都可用于预测,分类的输出是离散的类别值,而回归的输出是连续数值。(对)27.Bayes法是一种在已知后验概率与类条件概率的情况下的模式分类方法,待分样本的分类结果取决于各类域中样本的全体。(错)28.在决策树中,随着树中结点数变得太大,即使模型的训练误差还在继续减低,但是检验误差开始增大,这是出现了模型拟合不足的问题。(错)29.在聚类分析当中,簇内的相似性越大,簇间的差别越大,聚类的效果就越差。(错)30.聚类分析可以看作是一种非监督的分类。(对)31.K均值是一种产生划分聚类的基于密度的聚类算法,簇的个数由算法自动地确定。(错)32.DBSCAN是相对抗噪声的,并且能够处理任意形状和大小的簇。(对)四.单选题(2’*10=20’)1.某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?(A)A.关联规则发现B.聚类C.分类D.自然语言处理2.使用交互式的和可视化的技术,对数据进行探索属于数据挖掘的哪一类任务?(A)A.探索性数据分析B.建模描述C.预测建模D.寻找模式和规则3.为数据的总体分布建模;把多维空间划分成组等问题属于数据挖掘的哪一类任务?(B)A.探索性数据分析B.建模描述C.预测建模D.寻找模式和规则4.建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务?(C)A.根据内容检索B.建模描述C.预测建模D.寻找模式和规则5.用户有一种感兴趣的模式并且希望在数据集中找到相似的模式,属于数据挖掘哪一类任务?(A)A.根据内容检索B.建模描述C.预测建模D.寻找模式和规则6.下面哪种不属于数据预处理的方法?(D)A变量代换B离散化C聚集D估计遗漏值7.以下哪种方法不属于特征选择的标准方法:(D)A嵌入B过滤C包装D抽样8.下面不属于创建新属性的相关方法的是:(B)A特征提取B特征修改C映射数据到新的空间D特征构造9.考虑值集{1、2、3、4、5、90},其截断均值(p=20%)是(C)A2B3C3.5D510.下面哪个属于映射数据到新的空间的方法?(A)A傅立叶变换B特征加权C渐进抽样D维归约11.将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?(C)A.频繁模式挖掘B.分类和预测C.数据预处理D.数据流挖掘12.假定用于分析的数据包含属性age。数据元组中age的值如下(按递增序):13,15,16,16,19,20,20,21,22,22,25,25,25,30,33,33,35,35,36,40,45,46,52,70,问题:使用按箱平均值平滑方法对上述数据进行平滑,箱的深度为3。第二个箱子值为:(A)A18.3B22.6C26.
本文标题:SQL数据挖掘知识要点
链接地址:https://www.777doc.com/doc-2860444 .html