您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 信息化管理 > 12《数据仓库与数据挖掘》复习题.
《数据仓库与数据挖掘》复习大纲考试时间与地点:课程名称任课老师班级人数考试合班数考试周数周几第几节考试地点数据仓库与数据挖掘吴静12信技1-25421153-4L1208考试题型:一、单项选择题(10×2分=20分二、判断题(10×2分=20分三、简答题(5×6分=30分四、分析计算题(3×10分=30分考试范围:第一讲数据挖掘概述考点:1、数据挖掘、知识发现(KDD基本概念;2、数据挖掘的过程;3、数据挖掘过技术的三个主要部分。复习参考题:一、填空题(1数据库中的知识挖掘(KDD包括以下七个步骤:数据清理、数据集成、数据选择、数据变换、数据挖掘、模式评估和知识表示。(2数据挖掘的性能问题主要包括:算法的效率、可扩展性和并行处理。(3当前的数据挖掘研究中,最主要的三个研究方向是:统计学、数据库技术和机器学习。(4在万维网(上应用的数据挖掘技术常被称为:WEB挖掘。(5孤立点是指:一些与数据的一般行为或模型不一致的孤立数据。二、单选题(1数据挖掘应用和一些常见的数据统计分析系统的最主要区别在于:BA、所涉及的算法的复杂性;B、所涉及的数据量;C、计算结果的表现形式;D、是否使用了人工智能技术(2孤立点挖掘适用于下列哪种场合?DA、目标市场分析B、购物篮分析C、模式识别D、信用卡欺诈检测(3下列几种数据挖掘功能中,(D被广泛的应用于股票价格走势分析。A.关联分析B.分类和预测C.聚类分析D.演变分析(4下面的数据挖掘的任务中,(B将决定所使用的数据挖掘功能。A、选择任务相关的数据B、选择要挖掘的知识类型C、模式的兴趣度度量D、模式的可视化表示(5下列几种数据挖掘功能中,(A被广泛的用于购物篮分析。A、关联分析B、分类和预测C、聚类分析D、演变分析(6根据顾客的收入和职业情况,预测他们在计算机设备上的花费,所使用的相应数据挖掘功能是(B。A.关联分析B.分类和预测C.演变分析D.概念描述(7帮助市场分析人员从客户的基本信息库中发现不同的客户群,通常所使用的数据挖掘功能是(C。A.关联分析B.分类和预测C.聚类分析D.孤立点分析E.演变分析(8假设现在的数据挖掘任务是解析数据库中关于客户的一般特征的描述,通常所使用的数据挖掘功能是(EA.关联分析B.分类和预测C.孤立点分析D.演变分析E.概念描述三、简答题1、何谓数据挖掘?它有哪些方面的功能?答:从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程称为数据挖掘。相关的名称有知识发现、数据分析、数据融合、决策支持等。数据挖掘的功能包括:概念描述、关联分析、分类与预测、聚类分析、趋势分析、孤立点分析以及偏差分析等。2、一个典型的数据挖掘系统应该包括哪些组成部分?答:一个典型的数据挖掘系统应该包括以下部分:(1数据库、数据仓库或其他信息库;(2数据库或数据仓库服务器;(3知识库;(4数据挖掘引擎;(5模式评估模块;(6图形用户界面。3、请列举数据挖掘应用常见的数据源。(或者说,我们都在什么样的数据上进行数据挖掘答:常见的数据源包括关系数据库、数据仓库、事务数据库和高级数据库系统和信息库。其中高级数据库系统和信息库包括:空间数据库、时间数据库和时间序列数据库、流数据、多媒体数据库、面向对象数据库和对象-关系数据库、异种数据库和遗产(legacy数据库、文本数据库和万维网(等。4、在哪些情况下,我们认为所挖掘出来的模式是有趣的?答:一个模式是有趣的,如果(1它易于被人理解;(2在某种程度上,对于新的或测试数据是有效的;(3具有潜在效用;(4新颖的;(5符合用户确信的某种假设。5、根据挖掘的知识类型,我们可以将数据挖掘系统分为哪些类别?答:根据挖掘的知识类型,数据挖掘系统可以分为特征分析,区分,关联分析,分类聚类,孤立点分析/演变分析,偏差分析,多种方法的集成和多层级挖掘等类型。第二讲数据的认识及预处理考点:1、什么是数据预处理,为什么要对数据进行预处理?2、数据预处理的方法有哪些?3、在数据预处理过程中度量中心趋势里中位数、众数等如何求取的?4、度量数据离散度时如何求取极差、五数概括(基于四分位数、中间四分位数极差和标准差?5、在消除数据的噪声时,采用的分箱技术中如何对数据进行等频(等深划分,如何进行等宽划分?6、什么是数据变换?如何使用“最小-最大规范化规范化”方法、“z-score规范化”方法以及“小数定标规范化”这三种方法将数据按比例缩放,使之落入一个小的特定区间里。复习参考题:一、填空题(1进行数据预处理时所使用的主要方法包括:数据清理、数据集成、数据变换和数据规约。(2处理噪声数据的方法主要包括:分箱、聚类、计算机和人工检查结合、回归。(3模式集成的主要问题包括:整合不同数据源中的元数据,实体识别问题。(4数据概化是指:沿概念分层向上概化。(5数据压缩可分为:有损压缩和无损压缩两种类型。(6进行数值归约时,三种常用的有参方法是:线性回归方法,多元回归和对数线性模型。(7数据离散度的最常用度量是五数概括、中间四分位数区间和标准差。二、单选题(1数据归约的目的是(C。A、填补数据种的空缺值B、集成多个数据源的数据C、得到数据集的压缩表示D、规范化数据(2下面哪种数据预处理技术可以用来平滑数据,消除数据噪声?A.数据清理B.数据集成C.数据变换D.数据归约(3进行数据规范化的目的是(A。A.去掉数据中的噪声B.对数据进行汇总和聚集C.使用概念分层,用高层次概念替换低层次“原始”数据D.将属性按比例缩放,使之落入一个小的特定区间(4数据的噪声是指(D。A、孤立点B、空缺值C、测量变量中的随即错误或偏差D、数据变换引起的错误(5那种数据变换的方法将数据沿概念分层向上汇总C。A、平滑B、聚集C、数据概化D、规范化(6(C通过将属性域划分为区间,从而减少给定连续值的个数。A.概念分层B.离散化C.分箱D.直方图三、分析计算题1、假设医院检测随机选择的18个成年人年龄和身体脂肪数据,得到如下结果:(a计算年龄和脂肪百分比的均值、中位数和标准差(b绘制年龄和脂肪百分比的盒图(c根据Z-score规范化来规范化这两个属性答:2、假定用于分析的数据包含属性age.数据元组age值(以递增序是:13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70。(a使用min-max规范化将age值35变换到[0.0,1.0]区间。(b使用z-score规范化变换age值35,其中age的标准差为12.94岁。(c使用小数定标规范化变换age值35。(d对于给定的数据,你愿意使用哪种方法?陈述你的理由。答:3、假设12个销售价格记录组已经排序如下:5,10,11,13,15,35,50,55,72,92,204,215。使用如下每种方法将其划分成三个箱。(a等频(等深划分。(b等宽划分。(c聚类。答:第三讲数据仓库、数据立方体以及OLAP技术考点:1、什么是数据仓库,它的特点以及功能?2、在数据仓库中提供的是联机分析处理(OLAP工具,它与OLTP有什么区别?3、传统的数据库系统与数据仓库的区别?4、什么是粒度?它对数据仓库有什么影响?按粒度组织数据的方式有哪些?5、什么是数据立方体?什么是维?6、OLAP的基本操作有哪些?复习参考题:一、填空题(1数据仓库的多维数据模型可以有三种不同的形式,分别是:星形模式、雪花模式和事实星座模式。(2给定基本方体,方体的物化有三种选择:不物化、部分物化和全物化。(3著名的数据仓库系统设计师W.H.Inmon认为,数据仓库与其他数据存储系统的区别的四个特征是:面向主题、数据集成、随时间而变化和数据不易丢失。(4在数据访问模式上,数据仓库以事务操作为主,而日常应用数据库则以只读查询为主。(5数据立方体度量可以根据其所使用的聚集函数分为三类,分别是:分布的、代数的和整体的。(6关于数据仓库的设计,四种不同的视图必须考虑,分别是:自顶向下视图、数据源视图、数据仓库视图、商务查询视图。(7OLAP服务器的类型主要包括:关系OLAP服务器(ROLAP、多维OLAP服务器(MOLAP和混合OLAP服务器(HOLAP。(8求和函数sum(是一个分布的的函数。(9方体计算的主要挑战是海量数据和有限的内存和时间之间的矛盾。二、单选题(1下面的数据操作中,哪些操作不是多维数据模型上的OLAP操作(B。A、上卷(roll-upB、选择(selectC、切片(sliceD、转轴(pivot(2以下哪个范围是数据仓库的数据库规模的一个合理范围(D。A、1~100MB、100M~10GC、10~1000GD、100GB~数TB(3存放最低层汇总的方体称为:CA、顶点方体B、方体的格C、基本方体D、维(4哪种OLAP操作可以让用户在更高的抽象层,更概化的审视数据?AA、上卷B、下钻C、切块D、转轴(5平均值函数avg(属于哪种类型的度量?BA、分布的B、代数的C、整体的D、混合的三、多选题(1OLAP系统和OLTP系统的主要区别包括(ABD。A、OLTP系统主要用于管理当前数据,而OLAP系统主要存放的是历史数据;B、在数据的存取上,OLTP系统比OLAP系统有着更多的写操作;C、对OLTP系统上的数据访问量往往比对OLAP系统的数据访问量要大得多;D、OLAP系统中往往存放的是汇总的数据,而OLTP系统中往往存放详细的数据。(2从结构的角度看,数据仓库模型包括以下几类:ABCA、企业仓库B、数据集市C、虚拟仓库D、信息仓库(3数据仓库的三层架构主要包括以下哪三部分?BCDA、数据源B、数据仓库服务器C、OLAP服务器D、前端工具(4以下哪些是数据仓库的主要应用?ACDA、信息处理B、互联网搜索C、分析处理D、数据挖掘四、分析与计算题1、何谓数据仓库?为什么要建立数据仓库?答:数据仓库是一种新的数据处理体系结构,是面向主题的、集成的、不可更新的(稳定性、随时间不断变化(不同时间的数据集合,为企业决策支持系统提供所需的集成信息。建立数据仓库的目的有3个:一、是为了解决企业决策分析中的系统响应问题,数据仓库能提供比传统事务数据库更快的大规模决策分析的响应速度。二、是解决决策分析对数据的特殊需求问题。决策分析需要全面的、正确的集成数据,这是传统事务数据库不能直接提供的。三、是解决决策分析对数据的特殊操作要求。决策分析是面向专业用户而非一般业务员,需要使用专业的分析工具,对分析结果还要以商业智能的方式进行表现,这是事务数据库不能提供的。2、何谓粒度?它对数据仓库有什么影响?按粒度组织数据的方式有哪些?答:粒度是指数据仓库的数据单位中保存数据细化或综合程度的级别。粒度影响存放在数据仓库中的数据量的大小,同时影响数据仓库所能回答查询问题的细节程度。按粒度组织数据的方式主要有:①简单堆积结构②轮转综合结构③简单直接结构④连续结构3、假定BigUniversity的数据仓库包含如下4个维:student(student_name,area_id,major,status,universitycourse(course_name,departmentsemester(semester,yearinstructor(dept,rank2个度量:count和avg_grade。在最低概念层,度量avg_grade存放学生的实际课程成绩。在较高概念层,avg_grade存放给定组合的平均成绩。(a为数据仓库画出雪花模式图。(b由基本方体[student,course,semester,instructor]开始,为列出Big_University每个学生的CS课程的平均成绩,应当使用哪些OLAP操作(如,由学期上卷到学年。(c如果每维有5层(包括all,如studentmajorstatusuniversityall,该数据方包含多少方体(包含基本方体和顶点方体答:(a(b这些特殊的联机分析处理(OLAP操作有:沿课程(cour
本文标题:12《数据仓库与数据挖掘》复习题.
链接地址:https://www.777doc.com/doc-3471701 .html