您好,欢迎访问三七文档
《数据仓库》考试试题姓名陆志鹏得分一、(15分)请解释“数据孤岛”的含义,为什么会引起“数据孤岛”现象,有哪些解决办法?答:数据孤岛可以认为是数据的污染.之所以产生数据孤岛这样的情况,有这么几个原因:1、对于一些大中企业,数据可能分散于各个分支机构,汇总速度慢、决策速度慢,缺乏实时性管理;数据分散且缺乏标准化,形成信息孤岛;公司与公司之间、部门与部门之间,数据缺乏标准化、有价值资料无法充分利用,信息化系统不具备数据整合功能,对决策支持能力不强。2、信息部门建设的相对滞后,如果信息部门不能尽快满足业务对数据处理的要求,那业务部门就可能独自开发业务系统,这种情况现在还是普遍存在.3、缺少企业内信息化建设的战略和标准,如果不能做到信息系统建设的统一,由不同部门,不同公司来建设的话,必须有一个标准能够使得日后的互通比较容易实现。解决数据孤岛的办法:企业数据集成,使用数据仓库。二、(15分)数据仓库与数据库系统有什么关系?答:数据库一般存储在线交易数据,数据库主要是处理实时性的任务,是面向事务的,因此是做OLTP(联机处理)方面的工作。数据仓库是决策支持系统和联机分析应用数据源的结构化数据环境,数据仓库研究和解决从数据库中获取信息的问题。数据仓库是面向主题,集成,随时间变化,数据仓库系统是一个信息提供平台,他从业务处理系统获得数据,主要以星型模型和雪花模型进行数据组织,并为用户提供各种手段从数据中获取信息和知识,一般和数据挖掘结合在一起用于管理者决策,对一段时期内集聚的数据做分析,因此是OLAP(联机分析处理)方面的工作。数据库是数据仓库的基础。三、(15分)什么是元数据?元数据在数据仓库中有什么作用?怎样建立元数据才能更好地发挥其作用?对元数据怎么管理?答:1.元数据就是“关于数据的数据”,是描述数据仓库内数据的结构和建立方法的数据。在数据仓库中,元数据可对数据仓库中的各种数据进行详细的描述和说明,说明每个数据的上下文关系,是每个数据具有符合现实的真实含义,是最终用户了解这些数据之间的关系。2.元数据在数据仓库中的作用:为决策支持分析员和高层决策人员服务提供便利,解决面向应用的操作性环境和数据仓库的复杂关系,起到辅助决策分析过程中定位数据仓库目录的作用。3.建立的元数据支援要包括以下信息:数据结构、用于综合的算法、从业务到数据仓库的规划。4.对元数据的管理有主动的方式和被动的方式。元数据的管理所需要具有的标准有:1)支持企业范围内的体系结构。2)基于元数据知识库的方法。3)配置管理。4)支持开放的元数据交换标准。5)动态交换和同步。6)支持内部和外部系统。四、(15分)什么是休眠数据?处理休眠数据的方案有哪些?答:数据仓库中那些不被经常使用的数据,即那些很少被使用的,并且有可能永远不会被使用的数据,被称为“休眠数据”。解决方案:1)邻线存储方案。在数据仓库中加入高容量、相对便宜的存储系统形成二级数据存储模式,将休眠数据从数据仓库转移到该系统中,并对外提供透明的数据访问功能。邻线存储方案以比较经济的方式为数据仓库的数据库提供了极大的扩充能力,并提高了整体数据访问的性能。2)活动监视器。使用活动监视器检测数据仓库内部的活动,就能搜集到如何区分休眠数据的信息。3)跨媒体存储管理器。跨媒体存储器对数据请求敏感,并按一定的周期从数据仓库中向邻线存储系统中转移数据释放相应的存储空间。五、(15分)数据仓库的结构有哪三部分组成,各个部分起什么作用?答:数据仓库结构通常由数据仓库、管理部分和分析工具三部分组成。1)数据仓库管理部分。数据仓库的数据来自多个数据源,包括企业内部数据和市场调查与分析的外部数据。管理部分包括对数据的安全、归档、维护和恢复等工作。数据仓库管理部分的组成:定义部件;数据获取部件;管理部件;元数据管理。2)数据仓库工具集。数据仓库工具集主要由一些分析工具组成,如检索查询工具,多维数据的OLAP分析工具,统计工具以及数据挖掘工具等。六、(15分)建立数据仓库一般要做五个方面的工作,请详细说明这五方面工作的具体内容?答:1)概念模式设计。进行概念模式设计完成的工作主要是界定系统边界和确定主要的主题域及其内容。概念模式设计的成果是在原有的数据库的基础上建立一个较为稳固的概念模型。2)技术准备工作。技术准备工作阶段的主要工作是进行技术评估和技术环境的准备。3)逻辑模型设计。逻辑模型设计主要有以下工作:分析主题域,确定当前要装载的主题;确定粒度层次划分;确定数据分割策略;关系模式定义;记录系统定义。4)物理模型设计。物理模型设计主要有以下工作:确定数据存储结构;确定索引策略;确定数据存放位置;确定存储分配。5)数据仓库的生成。进行设计接口和将数据装载入。数据装入后,还要在其上建立数据仓库的应用。七、(10分)自选一题,有关数据仓库范围理论或应用题,或大或小。数据仓库的哪三级模式答:提高数据仓库性能的方法有:1.粒度划分。粒度的划分将直接影响数据仓库中的数据量,以及所适合的查询类型。一般需要将数据划分为:详细数据、轻度综合、高度综合3级或更多级数据。划分粒度的步骤为:1)估算数据仓库中数据的行数和所需占用的空间大小;2)确定粒度的划分。2.分割。提高数据仓库性能的另一种方法是数据分割。数据仓库中分片的方式有:水平分片、垂直分片、混合分片和导出分片。按时间进行分割是最普遍的。适合的分割标准,要考虑的方面:数据量、数据分析处理的实际情况、简单易行以及粒度划分策略等。3.其他设计问题。1)合并表。2)建立时间序列。3)引入冗余。4)表的物理分割。5)生成导出数据。6)建立广义索引。
本文标题:数据仓库期末试卷
链接地址:https://www.777doc.com/doc-4989937 .html