您好,欢迎访问三七文档
0/24数据仓库的设计与实现1/24第1章数据仓库的设计与实现1.1数据仓库设计过程数据仓库的设计一般从操作型数据开始,通常需要经过以下几个处理过程;数据仓库设计——数据抽取——数据管理。一、数据仓库设计根据决策主题设计数据仓库结构,一般采用星型和雪花模型设计其数据模型,在设计过程中应保证数据仓库的规范化和体系各元素的必要联系。二、数据抽取根据元数据库中的主题表定义、数据源定义、数据抽取规则定义对异地异构数据源进行清理、转换、对数据进行重新组织和加工,装载到数据仓库的目标库中。三、数据管理数据管理分为目标数据维护和元数据维护两方面。目标数据维护是根据元数据为所定义的更新频率、更新数据项等更新计划任务来刷新数据仓库,以反映数据源的变化,且对时间相关性进行处理。元数据是数据仓库的组成部分,元数据的质量决定整个数据仓库的质量。当数据源的运行环境、结构及目标数据的维护计划发生变化时,需要修改元数据。1.2需求分析与决策主题的选取通过对管理者和各级别的用户的数据分析需求进行调研,我们收集并整理出了用户的决策分析需求如下:1.2.1博士学位授予信息年度数据统计分析一、按主管部门统计从主管部门的角度,分析在一个时间段(年)内,各主管部门所授予的博士学位信息统计。可回答如“2008,由某部门主管的,博士学位授予一共有多少,其平均学习年限是多少,脱产学习的有多少人?”等问题。具有表格和图形两种方式来展示分析结果。典型报表格式如表1所示。2/24表1200__年度授予博士学位情况统计表(按主管部门统计)表1续200__年度授予博士学位情况统计表(按主管部门统计)学习方式录取类别就业单位类别脱产半脱产业余定向非定向机关科研、设计单位金融单位部队待就业录取研究生其他二、按性质类别统计主管部门授予人数其中学历博士其中同等学历博士其中女平均年龄少数民族平均学习年限其中一级学科授予在学期间成果论文成果专利合计中国科学院财政部……3/24三、按地区统计四、按单位统计五、按学科门类统计六、按一级学科统计七、按二级学科统计1.2.2硕士学位授予信息年度数据统计分析一、按主管部门统计二、按性质类别统计三、按地区统计四、按单位统计五、按学科门类统计六、按一级学科统计七、按二级学科统计1.2.3学士学位授予信息年度数据统计分析一、按主管部门统计二、按性质类别统计三、按地区统计四、按单位统计4/24五、按学科门类统计六、按学科类别统计七、按专业统计1.3系统体系结构设计通过对当前各种主流数据仓库软件在性能、价格等方面的对比,充分考虑统计业务、单位数量等实际情况,本系统决定采用SQLServer2005数据仓库软件来构建综合信息分析系统的数据仓库。本系统服务器端要求运行平台为Windows2003Server企业版,客户端要求WindowsXP,浏览器为IE6.0;采用SQLServer2005数据仓库构建方案构建数据仓库,选用VisualStudio.NET2003/SQLServer2005、Rose、PowerDesigner等开发工具进行系统开发。我们设计的综合信息分析系统构架在统计综合信息平台中,其核心功能表现为通过数据转换技术,将直报数据库及其他数据源的数据库生成利于进行分析的、不同于关系数据库的数据仓库,根据不同的分析需求建立不同的专题分析数据库(多维数据库),最后对多维数据库进行利用联机分析处理、数据挖掘,其架构如图所示。5/24图1学位授予信息统计系统架构在这个体系结构中,存放于系统数据库中的业务数据及外部数据源数据按照主题通过ETL工具被抽取到ETL数据库(数据准备区),数据在ETL数据库中完成预处理工作(清洗和转换),再通过ETL工具加载到数据仓库。数据进入数据仓库后按照维度和事实存放,采用MSAnalysisServiees作为OLAP服务器,AnalysisServiees可以方便的定义维度和构建OLAP立方体。用户使用前端的查询工具、报表工具、分析工具,就可以访问决策支持系统并分析浏览数据了。由于数据预处理本身的复杂性,直接从外部数据源把数据整合到数据仓库必将导致该过程即占用许多外部操作型数据库的资源和时间,也会影响数据仓库装载数据的效率。借鉴算法研究中“以空间换时间”的思想,再结合目前硬件成本的下降,本系统中,我们在数据仓库的体系结构中添加一个专门进行数据预处理的存储区域以提高数据仓库系统整体性能。在系统设计中,应注意以下问题:一、理顺学位授予信息之间的关系以及业务数据是保证数据质量的关键,抽取信息的质量依赖于用户对结果的解释,容易导致错误。6/24二、针对不完整的数据、不一致的数据、错误的数据以及冗余数据确定数据处理规则,即ETL实施的具体规则。三、系统监控与数据管理包括维表的维护、增量数据抽取转换等的控制、系统出错报警、异常处理、数据存储及访问的安全性、海量数据的查询效率、数据各份策略等。四、模型设计是系统的基础和成败的关键,在实际操作的过程中,要注意的问题包括主题的确定、分析内容的细化、粒度的设计等。1.4系统数据逻辑结构设计1.4.1基础层模型设计基础层数据用于存放从学历教育博士学位、同等学力人员申请博士学位、博士专业学位、学历教育硕士学位、同等学力人员申请硕士学位、硕士专业学位、普通高等教育本科毕业生学士学位、成人高等教育本科毕业生学士学位、来华留学本科毕业生学士学位、学士专业学位等数据源ETL过来的数据,这些业务数据将进行整合、组织、重构和存放。根据学位银行授予统计系统需求,基础层模型包含博士学位信息主题域、硕士学位信息主题域、学士学位信息主题域。博士学位授予信息是指主题域存放所授予的博士学位信息,分为学历教育博士学位、同等学力人员申请博士学位、博士专业学位。主要的信息有:个人基本信息、学科信息、学位信息、学位论文信息、前置学位信息、获学位后去向信息等。7/24学历教育博士学位授予信息个人基本信息学科信息学位信息学位论文信息前置学位信息获学位后去向信息其他信息个人基本信息姓名姓名拼音性别码国家或地区码民族码政治面貌码出生日期身份证件类型码身份证件号码学科信息学位授予单位码学位授予单位校长(院长、所长)姓名学位评定委员会主席姓名学位类别码是否按一级学科授予专业代码自设专业代码学位信息考生号学号入学年月毕业年月学习方式码导师姓名学位证书编号获学位日期攻读类型码学位论文信息论文题目论文关键词论文类型码论文选题来源码前置学位信息前置学位码前置学位一级学科码获前置学位年月前置学位授予单位码获学位后去向信息去向码就业单位性质类别码就业单位省市码工作性质码其他信息照片文件名称备注图2学历教育博士学位授予信息基础层模型硕士学位授予信息是指主题域存放所授予的硕士学位信息,分为学历教育硕士学位、同等学力人员申请硕士学位、硕士专业学位。主要的信息有:个人基本信息、学科信息、学位信息、学位论文信息、前置学位信息、获学位后去向信息等。学士学位授予信息是指主题域存放所授予的学士学位信息,分为普通高等教育本科毕业生学士学位、成人高等教育本科毕业生学士学位、来华留学本科毕业生学士学位、8/24学士专业学位。主要的信息有:个人基本信息、学科信息、学位信息等。1.4.2汇总层模型设计汇总层模型的设计需要考虑汇总的粒度问题,汇总的粒度不同,能够回答的业务问题也不一样,由于系统数据庞大繁杂,学位授予时间相对比较固定,本模型将汇总层模型设计为年。该层的设计主要考虑数据向年度级别的汇总,解答如某年某主管单位所授予的博士学位人数等业务问题。根据博士学位信息授予主题的需求分析,即分析的角度(也叫维度)、指标、查询的内容,以博士学位信息授予主题为例,其汇总层的数据模型如图所示。9/24授予学历教育博士学位情况统计表(按主管部门统计)PK主管部门其中学历博士其中同等学历博士其中专业学位博士其中女授予博士学位情况统计表(按主管部门统计)列1平均年龄少数民族平均学习年限其中一级学科授予在学期间成果(论文)期间成果(成果)期间成果(专利)学习方式(脱产)学习方式(半脱产)学习方式(业余)录取类别(定向)录取类别(非定向)就业单位类别(机关)就业单位类别(科研、设计单位)就业单位类别(金融单位)就业单位类别(部队)就业单位类别(待就业)就业单位类别(录取研究生)就业单位类别(其他)学历教育博士学位授予信息个人基本信息学科信息学位信息学位论文信息前置学位信息获学位后去向信息其他信息FK1主管部门图3学历教育博士学位授予信息汇总层模型1.4.3报表层模型设计报表层数据是用于存放学位授予信息统计系统中固定报表统计数据,同时也是灵活查询的数据源。这些数据是根据报表业务规则,从基础层和汇总层统计而出,本模型主要包括内容有:授予博士学位信息统计表、授予硕士学位信息统计表、授予学士学位信10/24息统计表。以博士学位信息统计主题为例,其博士学位信息报表层的数据模型如图所示。授予博士学位情况统计表(按主管部门统计)PK主管部门其中学历博士其中同等学历博士其中专业学位博士其中女授予博士学位情况统计表(按主管部门统计)列1平均年龄少数民族平均学习年限其中一级学科授予在学期间成果(论文)期间成果(成果)期间成果(专利)学习方式(脱产)学习方式(半脱产)学习方式(业余)录取类别(定向)录取类别(非定向)就业单位类别(机关)就业单位类别(科研、设计单位)就业单位类别(金融单位)就业单位类别(部队)就业单位类别(待就业)就业单位类别(录取研究生)就业单位类别(其他)学历教育博士学位汇总(按主管部门统计)FK1主管部门同等学力人员申请博士学位(按主管部门统计)FK1主管部门博士专业学位汇总(按主管部门统计)FK1主管部门图4学历教育博士学位授予信息(按主管部门统计)报表层模型1.5数据仓库模型设计为满足决策分析的需要,系统需要将各种数据源来的数据围绕决策主题存储到数据仓库中,以提高数据查询、聚集的效率。数据仓库建模采用自上而下的三级建模方式,即概念建模、逻辑建模、物理建模。概念建模可采用信息打包法,逻辑建模以星型建模方法和雪花建模方法为主,物理建模以3NF和星型建模方式为主。11/24图5数据仓库建模方法在数据仓库的3级数据模型中,概念模型表示现实世界的“业务信息”构成关系,用业务数据库设计中的“实体-关系”方法(E-R方法)来设计这一级的数据模型,但需要用分析主题代替传统E-R方法中的实体。在传统业务数据库设计中的逻辑模型一般采用范式规范的表及其关系,数据仓库设计中的逻辑模型也采用表来存储数据,因此也数据仓库中使用的也是关系模型,不过表与表之间不再通过3大范式的规范,而是以星形结构、雪花形结构和星座型结构等方式组成。物理模型则属于这些表的物理存储结构,比如表的索引设计等。数据仓库的设计就是在概念模型、逻辑模型和物理模型的依次转换过程中实现的。作为数据仓库的灵魂——元数据模型则自始至终伴随着数据仓库的开发、实施与使用。数据粒度和聚合模型也在数据仓库的创建中发挥着指导的作用,指导着数据仓库的具体实现。图4表达了微观数据仓库设计中各种概念之间的关系。图6微观数据仓库设计中各种概念之间的关系在上图的关系图中,元数据是在对企业商业智能需求分析和概念模型设计阶段就应该设计好并且一直贯穿于数据仓库应用全程的重要部分,而数据粒度和聚合的设计则是在逻辑模型的设计过程中完成的,物理模型则需要做一些存储优化方面的工作。具体而言,这三级数据模型设计的每一个阶段都有相应的详细设计步骤,图5即是对这些步骤12/24的一个总结。图7数据仓库数据库设计的步骤数据仓库包括以下维度表:人的性别代码、世界各国和地区名称代码、中国各民族名称罗马字母拼写法和代码、政治面貌代码、身份证件类型代码、中华人民共和国行政区划(省市)代码、高等学校代码、学位类别代码、授予博士、硕士学位和培养研究生的学科、专业目录、学习方式代码、攻读类型代码、论文类型代码、论文选题来源代码、学位类别代码、专业目录、获学位后去向代码、工作单位性质类别代码、工作性质代码、工作单位性质类别代码、专业技术职务级别代码、干部职务级别代码、专业学位领域代码、考试方式代码、以研究生
本文标题:数据仓库设计与实现
链接地址:https://www.777doc.com/doc-7186498 .html